JPH10214098A - 音声変換玩具 - Google Patents

音声変換玩具

Info

Publication number
JPH10214098A
JPH10214098A JP9019358A JP1935897A JPH10214098A JP H10214098 A JPH10214098 A JP H10214098A JP 9019358 A JP9019358 A JP 9019358A JP 1935897 A JP1935897 A JP 1935897A JP H10214098 A JPH10214098 A JP H10214098A
Authority
JP
Japan
Prior art keywords
voice
input
time axis
conversion
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9019358A
Other languages
English (en)
Inventor
Koji Tanaka
浩司 田中
Masayuki Iida
正幸 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP9019358A priority Critical patent/JPH10214098A/ja
Publication of JPH10214098A publication Critical patent/JPH10214098A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Toys (AREA)

Abstract

(57)【要約】 【課題】 この発明は、入力された音声の話速と音程と
を、テープレコーダに比べて、より自由に変化させるこ
とができ、趣向性のある音声を出力させることができる
音声変換玩具を提供することを目的とする。 【解決手段】 音声変換玩具において、音声変換モード
を設定するための設定装置12、音声を入力するための
入力装置1、入力装置1によって入力された音声信号の
音程を、設定装置12によって設定された音声変換モー
ドに応じて制御する音程制御手段3、9、13、入力装
置1によって入力された音声信号の話速を、設定装置1
2によって設定された音声変換モードに応じて制御する
話速制御手段6、7ならびに音程制御手段3、9、13
および話速制御手段6、7によって音程および話速が制
御された音声信号を出力する出力装置11を備えてい
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する分野】この発明は、入力音声の音程およ
び話速を変換して出力する音声変換玩具に関する。
【0002】
【従来の技術】音声を録音し、録音した音声を再生する
テープレコーダがある。テープレコーダでは、再生速度
を速くしたり、遅くしたりすることができる。しかしな
がら、単純にテープレコーダを可変速再生したときに
は、再生速度と音程との間には、再生速度が速くなるほ
ど音程が高くなるという一定の関係がある。また、出力
音声の話速は、再生速度により決定されてしまう。
【0003】
【発明が解決しようとする課題】この発明は、入力され
た音声の話速と音程とを、単純なテープレコーダの可変
速再生に比べてより自由に変化させることができ、趣向
性のある音声を出力させることができる音声変換玩具を
提供することを目的とする。
【0004】
【課題を解決するための手段】この発明による第1の音
声変換玩具は、音声変換モードを設定するための設定装
置、音声を入力するための入力装置、入力装置によって
入力された音声信号の音程を、設定装置によって設定さ
れた音声変換モードに応じて制御する音程制御手段、入
力装置によって入力された音声信号の話速を、設定装置
によって設定された音声変換モードに応じて制御する話
速制御手段、ならびに音程制御手段および話速制御手段
によって音程および話速が制御された音声信号を出力す
る出力装置を備えていることを特徴とする。
【0005】この発明による第2の音声変換玩具は、音
声変換モードを設定するための設定装置、音声を入力す
るための入力装置、入力装置によって入力された音声信
号をディジタル信号に変換するA/D変換手段、A/D
変換手段によって得られた音声データに対して時間軸圧
縮伸長処理を行なう時間軸圧縮伸長手段、時間軸圧縮伸
長手段によって得られた音声データをアナログ信号に変
換するD/A変換手段、D/A変換手段によって得られ
た音声信号を出力するための出力手段、設定装置によっ
て設定された音声変換モードに応じて、A/D変換手段
およびD/A変換手段のサンプリング周波数をそれぞれ
調整する音程制御用の調整手段、ならびに、設定装置に
よって設定された音声変換モードに応じて、時間軸圧縮
伸長処理手段で用いられる圧縮伸長率を調整する話速制
御用の調整手段を備えていることを特徴とする。
【0006】この発明による第3の音声変換玩具は、音
声変換モードを設定するための設定装置、音声を入力す
るための入力装置、入力装置によって入力された音声信
号をディジタル信号に変換するA/D変換手段、A/D
変換手段によって得られた音声データに基づいて、入力
音声が音声区間か無音区間かを判別する区間判別手段、
A/D変換手段によって得られた音声データのうち音声
区間であると判定された音声データに対して時間軸圧縮
伸長処理を行なう第1の時間軸圧縮伸長手段、A/D変
換手段によって得られた音声データのうち無音区間であ
ると判定された音声データに対して時間軸圧縮伸長処理
を行なう第2の時間軸圧縮伸長手段、上記両時間軸圧縮
伸長手段によって得られた音声データをアナログ信号に
変換するD/A変換手段、D/A変換手段によって得ら
れた音声信号を出力するための出力手段、設定装置によ
って設定された音声変換モードに応じて、A/D変換手
段および D/A変換手段のサンプリング周波数をそれ
ぞれ調整する音程制御用の調整手段、ならびに、設定装
置によって設定された音声変換モードに応じて、第1の
時間軸圧縮伸長処理手段および第2の時間軸圧縮伸長処
理手段で用いられる圧縮伸長率をそれぞれ調整する話速
制御用の調整手段を備えていることを特徴とする。
【0007】音声変換モードには、たとえば、入力音声
に対して、話速を遅くし、音程を低くする第1の音声変
換モード、入力音声に対して、話速を遅くし、音程を高
くする第2の音声変換モード、入力音声に対して、話速
を速くし、音程を低くする第3の音声変換モード、およ
び入力音声に対して、話速を速くし、音程を高くする第
4の音声変換モードがある。
【0008】なお、時間軸圧縮伸長処理には、入力音声
データを時間軸上で圧縮するための処理および入力音声
データを時間軸上で伸長するための処理の他、入力音声
データを削除する処理も含まれているものとする。
【0009】
【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。
【0010】図1は、本音声変換玩具の電気的構成の一
例を示している。
【0011】マイク(入力装置)1から入力された入力
音声信号は、増幅器2で増幅された後、A/D変換部
(A/D変換手段)3に送られ、たとえば12ビットの
ディジタル信号に変換される。A/D変換部3のサンプ
リング周波数fADは、サンプリング周波数調整部(音程
制御用の調整手段)13によって制御される。
【0012】A/D変換部3の出力は、フレームメモリ
4を介して、区間判別部5に送られる。区間判別部5
は、フレームメモリ4に入力された所要数の音声データ
のパワーの平均値、パワーの累積値、振幅平均値、振幅
累積値等に基づいて、入力音声が音声区間であるか、無
音区間であるかを判定する。
【0013】フレームメモリ4に入力された所要数の音
声データのパワーの平均値に基づいて、入力音声が音声
区間であるか、無音区間であるかを判定する場合につい
て説明する。この場合には、フレームメモリ4に記憶さ
れた1フレーム分の音声データの平均パワー値Pが算出
される。この平均パワー値Pは、サンプリングされた1
フレーム内の各音声データの振幅を、i0 ,i1 ,…i
N-1 とすると、次の数式1によって求められる。
【0014】
【数1】
【0015】そして、算出された平均パワー値Pと所定
のしきい値Thとが比較され、平均パワー値Pがしきい
値Th以上である場合には(P≧Th)、現フレームが
音声区間であると判定され、パワー値Pがしきい値Th
未満である場合には(P<Th)、現フレームが無音区
間であると判定される。
【0016】このしきい値は、音声データのレベルに応
じて変化させてもよい。また、定常雑音、環境雑音も無
音区間として取り扱われる。
【0017】なお、入力音声信号のパワースペクトル、
入力信号の周期性の有無等に基づいて、入力音声が音声
区間であるか、無音区間であるかを判定するようにして
もよい。また、音声区間に関しては、その特徴を分析
し、母音または子音(有声子音、無音子音)の判別をも
行なってよい。
【0018】現フレームが音声区間であると判定された
場合には、現フレームの音声データが音声区間の時間軸
圧縮伸長部(第1の時間軸圧縮伸長手段)6に送られ
る。時間軸圧縮伸長部6では、圧縮伸長率調整部(話速
制御用の調整手段)14によって与えられた圧縮伸長率
を用いて、入力された音声データを時間軸圧縮伸長す
る。
【0019】現フレームが無音区間であると判定された
場合には、現フレームの音声データが無音区間の時間軸
圧縮伸長部7に送られる。時間軸圧縮伸長部(第2の時
間軸圧縮伸長手段)7では、圧縮伸長率調整部14によ
って与えられた圧縮伸長率を用いて、入力された音声デ
ータを時間軸圧縮伸長する。なお、無音区間の時間軸圧
縮伸長部7では、入力された音声データを削除する機能
をも備えている。
【0020】各時間軸圧縮伸長部6、7によって得られ
た音声データは、バッファ8に一旦蓄積される。バッフ
ァ8に蓄積された音声データは、逐次読み出されてD/
A変換部(D/A変換手段)9に送られ、アナログ信号
に変換される。D/A変換部9のサンプリング周波数f
DAは、サンプリング周波数調整部13によって制御され
る。バッファ8の読み出し速度は、D/A変換部9のサ
ンプリング周波数fDAに対応する速度となるように、サ
ンプリング周波数調整部13によって制御される。
【0021】D/A変換部9から出力されるアナログ信
号は、増幅器10で増幅された後、スピーカ(出力手
段)11に送られる。
【0022】サンプリング周波数調整部13および圧縮
伸長率調整部14には、操作部(設定手段)12からの
指令信号がそれぞれ送られる。この実施の形態において
は、操作部12には、次の4つの音声変換モードを指定
するためのスイッチが設けられている。
【0023】(a)第1の音声変換モード:入力音声に
対して、話速を遅くし、音程を低くするモード (b)第2の音声変換モード:入力音声に対して、話速
を遅くし、音程を高くするモード (c)第3の音声変換モード:入力音声に対して、話速
を速くし、音程を低くするモード (d)第4の音声変換モード:入力音声に対して、話速
を速くし、音程を高くするモード
【0024】以下、各音声変換モード毎に、本音声変換
玩具の動作を説明する。
【0025】〔1〕第1の音声変換モード(入力音声に
対して、話速を遅くし、音程を低くするモード)時の動
作の説明
【0026】第1の音声変換モード時においては、出力
音声の音程(ピッチ)を入力音声の音程(ピッチ)に対
して低くさせるために、A/D変換部3の周波数fAD
よびD/A変換部9の周波数fDAは、次の数式2を満足
するような周波数に設定される。
【0027】
【数2】
【0028】これにより、出力音声の音程は、入力音声
の音程の1/n倍となる。たとえば、A/D変換部3の
周波数fADは、D/A変換部9の周波数fDAの2倍に設
定される。この場合には、n=1/2となり、出力音声
の音程は、入力音声の音程の1/2倍となる。
【0029】出力音声の話速を入力音声の話速に対して
遅くさせるために、音声区間であると判定された音声デ
ータおよび無音区間であると判定された音声データに対
して行なわれる処理について説明する。
【0030】この処理方法には、次のような方法があ
る。
【0031】〔1−1〕第1方法 音声区間であると判別された音声データに対しては、音
声区間の時間軸圧縮伸長部6は、nより大きな圧縮率α
(α>n)で、入力信号を圧縮する。n=1/2である
場合には、圧縮率αはたとえば2/3に設定される。つ
まり、3つの波形から2つの波形が生成される。これに
より、出力音声の話速が入力音声の話速に対して遅くな
る。
【0032】時間軸圧縮伸長部6で用いられる時間軸圧
縮伸長法としては、たとえば、ポインタ移動制御による
重複加算法(PICOLA : Pointer Interval Control Over
lapand Add)、TDHS(Time Domain Harmonic Scaling)法
等がある。PICOLAを用いて、入力音声データを圧
縮率α=2/3で圧縮する方法について、図2を用いて
簡単に説明する。
【0033】まず、入力音声データからピッチ周期が抽
出される。抽出されたピッチ周期をTpとする。波形A
に対しては、1から0へ直線的に向かう重み(重み関数
K1)がつけられて波形A’が作成される。波形Bに対
しては、0から1へ直線的に向かう重み(重み関数K
2)がつけられて波形B’が作成される。
【0034】そして、これらの波形A’およびB’が加
え合わされて、長さTpの波形A’*B’が作成され
る。上記重みは、波形A’*B’の前後の接続点での連
続性を保つためにつけられている。次に、ポインタが、
圧縮率αに基づいて決定された長さである3Tp分だけ
移動せしめられ、同様な操作が行なわれる。これによ
り、3つの波形A、B、Cから2つの波形A’*B’と
Cとが得られる。このようにして、3ピッチ周期分の信
号が、2ピッチ周期分の信号に圧縮される。
【0035】上記の例では、ピッチ周期単位で圧縮処理
を行なっているが、予め定められた固定フレーム長単位
で圧縮処理を行なってもよい。
【0036】nより大きな圧縮率α(α>n)で、入力
信号を圧縮した場合に、出力音声の話速が入力音声の話
速に対して遅くなる理由について、n=1/2で、α=
2/3の場合を例にとって説明する。
【0037】n=1/2の場合(fAD/fDA=2の場
合)には、単位時間当たりにA/D変換部3によって変
換されるデータ量は、単位時間当たりにD/A変換部9
によって変換されるデータ量の2倍になる。n=1/2
の場合(fAD/fDA=2の場合)において、A/D変換
された音声データをそのままD/A変換して出力すると
する。この場合、A/D変換されたディジタルデータお
よびD/A変換されたディジタルデータを時間軸上で表
示すると、図3に示すようになる。
【0038】図3において、t1はA/D変換部3のサ
ンプリング周期(1/fAD)であり、D/A変換部9の
サンプリング周期(1/fDA)は2t1となる。図3か
ら明らかなように、D/A変換データ列(A1〜A6)
は、A/D変換データ列(A1〜A6)が2倍に時間軸
上で伸長されたものとなる。つまり、入力音声信号の所
定時間Tの長さが、時間軸上で2倍に伸長されて、出力
音声信号として出力されることになるので、入力音声の
話速に対して、出力音声の話速が2倍遅くなったことに
なる。
【0039】そこで、所定時間長さの入力音声信号を、
時間長さを変更することなく、出力音声信号として出力
するためには、言い換えれば、入力音声の話速と出力音
声の話速を同じにするには、A/D変換部3によって変
換された音声データを、1/2倍に圧縮する必要があ
る。つまり、図4に示すように、A/D変換された音声
データを1個ずつ間引くことにより、A/D変換された
音声データを1/2倍に圧縮すれば、入力音声信号の所
定長さMの時間長が変更されることなく、出力音声信号
として出力される。図4の例では、A/D変換データ列
A1、A2、…A7が、1/2倍に圧縮されることによ
り、D/A変換データ列A1、A3、A5、A7に変換
されている。
【0040】入力音声の話速に対して、出力音声の話速
を遅くするには、入力音声信号の所定時間長さを時間軸
上で伸長して、出力音声信号として出力すればよいこと
になる。n=1/2の場合(fAD/fDA=2の場合)に
は、A/D変換されたデータと、D/A変換されたデー
タとの時間長さが同じになる1/2倍の圧縮より、圧縮
の割合(度合い)を小さくすればよい。
【0041】つまり、入力音声の話速に対して、出力音
声の話速を遅くするためには、A/D変換部3によって
変換された音声データを1/2より大きな圧縮率αで圧
縮する必要がある。たとえば、A/D変換部3によって
変換された音声区間の音声データを、圧縮率α=1/2
より大きな圧縮率α=2/3で圧縮した場合には、出力
音声信号の音声区間は、入力音声信号の音声区間を2/
3に圧縮したことになる。したがって、この場合には、
圧縮率α=1/2で圧縮した場合に比べて、2/3−1
/2=1/6だけ、入力される音声区間が時間軸上で伸
長されて出力されることになる。
【0042】なお、n=1/2の場合には、圧縮率α
を、1/2より大きくかつ1以下の範囲内において、変
化させてもよい。圧縮率α=1とは、時間軸圧縮伸長部
6は、入力音声データに対して何ら処理を行なうことな
く、入力音声データをそのまま出力することを意味す
る。
【0043】無音区間であると判定された音声データに
対しては、時間軸圧縮伸長部7は、nより小さな圧縮率
α(α<n)で入力データを圧縮するかあるいは入力デ
ータを削除する。
【0044】n=1/2である場合には、無音区間であ
ると判定された音声データは、1/2より小さい圧縮率
αで圧縮されるので、圧縮率α=1/2で圧縮した場合
に比べて、無音区間が時間軸上で圧縮(短縮)されるこ
とになる。音声区間を上述のように、時間軸上で伸長し
たとしても、無音区間を時間軸上で短縮するので、入力
音声と出力音声との時間差を短くすることができる。無
音区間であると判定された音声データを削除した場合に
は、入力音声と出力音声との時間差をさらに短くするこ
とができる。
【0045】〔1−2〕第2方法 音声区間であると判定された音声データに対する処理方
法は、上述した第1方法〔1−1〕と同じである。
【0046】時間軸圧縮伸長部7は、無音区間であると
判定された音声データを、nと同じ圧縮率α(α=n)
で圧縮する。したがって、無音区間であると判定された
音声データについては、入力音声の所定時間長さが同じ
時間長さの出力音声として出力されるので、入力音声の
話速と出力音声の話速とは同じとなる。
【0047】〔1−3〕第3方法 時間軸圧縮伸長部6は、音声区間であると判定された音
声データのうち、定常的な区間のみを、上述した第1方
法〔1−1〕と同様な方法で圧縮する。
【0048】時間軸圧縮伸長部7は、無音区間であると
判定された音声データを、nより大きな圧縮率α(α>
n)で圧縮する。したがって、入力される無音区間が時
間軸上で伸長されて出力される。
【0049】〔1−4〕第4方法 時間軸圧縮伸長部6は、音声区間であると判定された音
声データを、nと同じ圧縮率α(α=n)で、入力デー
タを圧縮する。したがって、音声区間であると判定され
た音声データについては、入力音声の所定時間長さが同
じ時間長さの出力音声として出力されるので、入力音声
の話速と出力音声の話速とは同じとなる。
【0050】時間軸圧縮伸長部7は、無音区間であると
判定された音声データを、上記第3方法〔1−3〕と同
様な方法で圧縮する。したがって、入力される無音区間
が時間軸上で伸長されて出力される。無音区間が時間軸
上で伸長されて出力されることにより、話速がゆっくり
となったように聞こえる。
【0051】〔2〕第2の音声変換モード(入力音声に
対して、話速を遅くし、音程を高くするモード)時の動
作の説明
【0052】第2の音声変換モード時においては、出力
音声の音程を入力音声の音程に対して高くさせるため
に、A/D変換部3の周波数fADおよびD/A変換部9
の周波数fDAは、次の数式3を満足するような周波数に
設定される。
【0053】
【数3】
【0054】これにより、出力音声の音程は、入力音声
の音程のn倍となる。たとえば、A/D変換部3の周波
数fADは、D/A変換部9の周波数fDAの1/2倍に設
定される。この場合には、n=2となり、出力音声の音
程は、入力音声の音程の2倍となる。
【0055】出力音声の話速を入力音声の話速に対して
遅くさせるために、音声区間であると判定された音声デ
ータおよび無音区間であると判定された音声データに対
して行なわれる処理について説明する。
【0056】この処理方法には、次のような方法があ
る。
【0057】〔2−1〕第1方法 音声区間であると判別された音声データに対しては、時
間軸圧縮伸長部6は、nより大きな伸長率β(β>n)
で、入力信号を伸長する。n=2である場合には、伸長
率βはたとえば3に設定される。たとえば、1つの波形
から3つの波形が生成される。これにより、出力音声の
話速が入力音声の話速に対して遅くなる。
【0058】nより大きな伸長率β(β>n)で、入力
信号を伸長した場合に、出力音声の話速が入力音声の話
速に対して遅くなる理由について、n=2で、β=3の
場合を例にとって説明する。
【0059】n=2の場合(fAD/fDA=1/2の場
合)には、単位時間当たりにA/D変換部3によって変
換されるデータ量は、単位時間当たりにD/A変換部9
によって変換されるデータ量の1/2倍になる。n=2
の場合(fAD/fDA=1/2の場合)において、A/D
変換された音声データをそのままD/A変換して出力す
るとする。この場合、A/D変換されたディジタルデー
タおよびD/A変換されたディジタルデータを時間軸上
で表示すると、図5に示すようになる。ただし、図5で
は、時間軸上でD/A変換ディジタルデータ列をシフト
している。
【0060】図5において、t1はD/A変換部9のサ
ンプリング周期(1/fDA)であり、A/D変換部3の
サンプリング周期(1/fAD)は2t1となる。図5か
ら明らかなように、D/A変換データ列(A1〜A6)
は、A/D変換データ列(A1〜A6)が1/2倍に時
間軸上で短縮されたものとなる。つまり、入力音声信号
の所定時間2Tの長さが、時間軸上で1/2倍に短縮さ
れて、出力音声信号として出力されることになるので、
入力音声の話速に対して、出力音声の話速が2倍速くな
ったことになる。
【0061】そこで、所定時間長さの入力音声信号を、
時間長さを変更することなく、出力音声信号として出力
するためには、言い換えれば、入力音声の話速と出力音
声の話速を同じにするには、A/D変換部3によって変
換された音声データを、2倍に伸長する必要がある。つ
まり、図6に示すように、A/D変換された音声データ
を補間することによってA/D変換された音声データを
2倍に伸長すれば、入力音声信号の所定長さが、時間長
が変更されることなく出力音声信号として出力される。
図6の例では、A/D変換データ列A1、A2、…A6
が、2倍に伸長されることにより、D/A変換データ列
A1、A1’、A2、A2’…A6、A6’に変換され
ている。
【0062】入力音声の話速に対して、出力音声の話速
を遅くするには、入力音声信号の所定時間長さを時間軸
上で伸長して、出力音声信号として出力すればよいこと
になる。n=2の場合(fAD/fDA=1/2の場合)に
は、A/D変換されたデータと、D/A変換されたデー
タとの時間長さが同じになる2倍の伸長より、伸長の割
合(度合い)を大きくすればよい。
【0063】つまり、入力音声の話速に対して、出力音
声の話速を遅くするためには、A/D変換部3によって
変換された音声データを2より大きな伸長率βで伸長す
る必要がある。たとえば、A/D変換部3によって変換
された音声データを、伸長率β=2より大きな伸長率β
=3で伸長した場合には、出力音声信号の音声区間は、
入力音声信号の音声区間を3倍に伸長したことになる。
したがって、この場合には、伸長率β=2で伸長した場
合に比べて、3−2=1だけ、入力される音声区間が時
間軸上で伸長されて出力されることになる。
【0064】なお、n=2の場合には、伸長率βを、2
より大きな範囲内において、変化させてもよい。
【0065】無音区間であると判定された音声データに
対しては、時間軸圧縮伸長部7は、nより小さな伸長率
β(β<n)で入力データを伸長するかあるいは入力デ
ータを削除する。
【0066】n=2である場合には、無音区間であると
判定された音声データは、2より小さい伸長率βで伸長
されるので、伸長率β=2で伸長した場合に比べて、無
音区間が時間軸上で圧縮(短縮)されることになる。音
声区間を上述のように、時間軸上で伸長したとしても、
無音区間を時間軸上で短縮するので、入力音声と出力音
声との時間差を短くすることができる。無音区間である
と判定された音声データを削除した場合には、入力音声
と出力音声との時間差をさらに短くすることができる。
【0067】〔2−2〕第2方法 音声区間であると判定された音声データに対する処理方
法は、上述した第1方法〔2−1〕と同じである。
【0068】時間軸圧縮伸長部7は、無音区間であると
判定された音声データを、nと同じ伸長率β(β=n)
で伸長する。したがって、無音区間であると判定された
音声データについては、入力音声の所定時間長さが同じ
時間長さの出力音声として出力されるので、入力音声の
話速と出力音声の話速とは同じとなる。
【0069】〔2−3〕第3方法 時間軸圧縮伸長部6は、音声区間であると判定された音
声データのうち、定常的な区間のみを、上述した第1方
法〔2−1〕と同様な方法で伸長する。
【0070】時間軸圧縮伸長部7は、無音区間であると
判定された音声データを、nより大きな伸長率β(β>
n)で伸長する。したがって、入力される無音区間が時
間軸上で伸長されて出力される。
【0071】〔2−4〕第4方法 時間軸圧縮伸長部6は、音声区間であると判定された音
声データを、nと同じ伸長率β(β=n)で伸長する。
したがって、音声区間であると判定された音声データに
ついては、入力音声の所定時間長さが同じ時間長さの出
力音声として出力されるので、入力音声の話速と出力音
声の話速とは同じとなる。
【0072】時間軸圧縮伸長部7は、無音区間であると
判定された音声データを、上記第3方法〔2−3〕と同
様な方法で伸長する。したがって、入力される無音区間
が時間軸上で伸長されて出力される。
【0073】〔3〕第3の音声変換モード(入力音声に
対して、話速を速くし、音程を低くするモード)時の動
作の説明
【0074】第3の音声変換モード時においては、出力
音声の音程を入力音声の音程に対して低くさせるため
に、A/D変換部3の周波数fADおよびD/A変換部9
の周波数fDAは、数式2と同じ次の数式4を満足するよ
うな周波数に設定される。
【0075】
【数4】
【0076】これにより、出力音声の音程は、入力音声
の音程の1/n倍となる。たとえば、A/D変換部3の
周波数fADは、D/A変換部9の周波数fDAの2倍に設
定される。この場合には、n=1/2となり、出力音声
の音程は、入力音声の音程の1/2倍となる。
【0077】出力音声の話速を入力音声の話速に対して
速くさせるために、音声区間であると判定された音声デ
ータおよび無音区間であると判定された音声データに対
して行なわれる処理について説明する。
【0078】この処理方法には、次のような方法があ
る。
【0079】〔3−1〕第1方法 音声区間であると判別された音声データに対しては、時
間軸圧縮伸長部6は、nより小さな圧縮率α(α<n)
で、入力信号を圧縮する。n=1/2である場合には、
圧縮率αはたとえば1/3に設定される。つまり、3つ
の波形から1つの波形が生成される。これにより、出力
音声の話速が入力音声の話速に対して速くなる。
【0080】nより小さな圧縮率α(α<n)で、入力
信号を圧縮した場合に、出力音声の話速が入力音声の話
速に対して速くなる理由について、n=1/2で、α=
1/3の場合を例にとって説明する。
【0081】n=1/2の場合(fAD/fDA=2の場
合)には、単位時間当たりにA/D変換部3によって変
換されるデータ量は、単位時間当たりにD/A変換部9
によって変換されるデータ量の2倍になる。上記〔1−
1〕の第1方法において、図3および図4での説明から
理解されるように、入力音声の話速に対して、出力音声
の話速を速くするには、入力音声信号の所定時間長さを
時間軸上で圧縮(短縮)して、出力音声信号として出力
すればよいことになる。n=1/2の場合(fAD/fDA
=2の場合)には、A/D変換されたデータと、D/A
変換されたデータとの時間長さが同じになる1/2倍の
圧縮より、圧縮の割合(度合い)を大きくすればよい。
【0082】したがって、入力音声の話速に対して、出
力音声の話速を速くするためには、A/D変換部3によ
って変換された音声データを1/2より小さな圧縮率で
圧縮する必要がある。たとえば、A/D変換部3によっ
て変換された音声データを、圧縮率α=1/2より小さ
な圧縮率α=1/3で圧縮した場合には、出力音声信号
の音声区間は、入力音声信号の音声区間を1/3倍に圧
縮したことになる。したがって、この場合には、圧縮率
α=1/2で圧縮した場合に比べて、1/2−1/3=
1/6だけ、入力される音声区間が時間軸上で短くされ
て出力されることになる。
【0083】なお、n=1/2の場合には、圧縮率α
を、1/2より小さくかつ0より大きい範囲内におい
て、変化させてもよい。
【0084】このように音声区間を、nより小さい圧縮
率αで圧縮した場合には、入力されるデータ量が、出力
されるデータ量に対して減少していくため、最終的にバ
ッファ8に蓄積されるデータがなくなるおそれがある。
そこで、入力される無音区間については時間軸伸長処理
するように制御される。
【0085】つまり、無音区間であると判定された音声
データに対しては、時間軸圧縮伸長部7は、nより大き
な圧縮率α(α>n)で入力データを圧縮する。
【0086】n=1/2である場合には、無音区間であ
ると判定された音声データは、1/2より大きな圧縮率
αで圧縮されるので、圧縮率α=1/2で圧縮した場合
に比べて、入力される無音区間が時間軸上で伸長される
ことになる。
【0087】〔3−2〕第2方法 時間軸圧縮伸長部6は、音声区間であると判定された音
声データのうち、定常的な区間のみを、上述した第1方
法〔3−1〕と同様な方法で圧縮する。
【0088】時間軸圧縮伸長部7は、無音区間であると
判定された音声データを、上述した第1方法〔3−1〕
と同様な方法で圧縮する。
【0089】〔4〕第4の音声変換モード(入力音声に
対して、話速を速くし、音程を高くするモード)時の動
作の説明
【0090】第2の音声変換モード時においては、出力
音声の音程を入力音声の音程に対して高くさせるため
に、A/D変換部3の周波数fADおよびD/A変換部9
の周波数fDAは、上記数式3と同じ次の数式5を満足す
るような周波数に設定される。
【0091】
【数5】
【0092】これにより、出力音声の音程は、入力音声
の音程のn倍となる。たとえば、A/D変換部3の周波
数fADは、D/A変換部9の周波数fDAの1/2倍に設
定される。この場合には、n=2となり、出力音声の音
程は、入力音声の音程の2倍となる。
【0093】出力音声の話速を入力音声の話速に対して
速くさせるために、音声区間であると判定された音声デ
ータおよび無音区間であると判定された音声データに対
して行なわれる処理について説明する。
【0094】この処理方法には、次のような方法があ
る。
【0095】〔4−1〕第1方法 音声区間であると判別された音声データに対しては、時
間軸圧縮伸長部6は、nより小さな伸長率β(β<n)
で、入力信号を伸長する。n=2である場合には、伸長
率βはたとえば3/2に設定される。つまり、2つの波
形から3つの波形が生成される。これにより、出力音声
の話速が入力音声の話速に対して速くなる。
【0096】nより小さな伸長率β(β<n)で、入力
信号を伸長した場合に、出力音声の話速が入力音声の話
速に対して速くなる理由について、n=2で、β=3/
2の場合を例にとって説明する。
【0097】n=2の場合(fAD/fDA=1/2の場
合)には、単位時間当たりにA/D変換部3によって変
換されるデータ量は、単位時間当たりにD/A変換部9
によって変換されるデータ量の1/2倍になる。上記
〔2−1〕の第1方法において、図5および図6での説
明から理解されるように、入力音声の話速に対して、出
力音声の話速を速くするには、入力音声信号の所定時間
長さを時間軸上で圧縮(短縮)して、出力音声信号とし
て出力すればよいことになる。n=2の場合(fAD/f
DA=1/2の場合)には、A/D変換されたデータと、
D/A変換されたデータとの時間長さが同じになる2倍
の伸長より、伸長の割合(度合い)を小さくすればよ
い。
【0098】したがって、入力音声の話速に対して、出
力音声の話速を速くするためには、A/D変換部3によ
って変換された音声データを2より小さな伸長率βで伸
長する必要がある。たとえば、A/D変換部3によって
変換された音声データを、伸長率β=2より小さな伸長
率β=3/2で伸長した場合には、出力音声信号の音声
区間は、入力音声信号の音声区間を3/2倍に伸長した
ことになる。したがって、この場合には、伸長率β=2
で伸長した場合に比べて、2−3/2=1/2だけ、入
力される音声区間が時間軸上で短くされて出力されるこ
とになる。
【0099】なお、n=2の場合には、伸長率βを、2
より小さい範囲内において、変化させてもよい。
【0100】このように音声区間を、nより小さい伸長
率βで伸長した場合には、入力されるデータ量が、出力
されるデータ量に対して減少していくため、最終的にバ
ッファ8に蓄積されるデータがなくなるおそれがある。
そこで、入力される無音区間については時間軸上で伸長
されるように制御される。
【0101】つまり、無音区間であると判定された音声
データに対しては、時間軸圧縮伸長部7は、nより大き
な伸長率β(β>n)で入力データを伸長する。
【0102】n=2である場合には、無音区間であると
判定された音声データは、2より大きな伸長率βで伸長
されるので、伸長率β=2で伸長した場合に比べて、入
力される無音区間が時間軸上で伸長されて出力されるこ
とになる。
【0103】〔4−2〕第2方法 時間軸圧縮伸長部6は、音声区間であると判定された音
声データのうち、定常的な区間のみを、上述した第1方
法〔4−1〕と同様な方法で伸長する。
【0104】時間軸圧縮伸長部7は、無音区間であると
判定された音声データを、上述した第1方法〔4−1〕
と同様な方法で伸長する。
【0105】図1の音声変換玩具の代わりに、図7に示
すような音声変換玩具を用いてもよい。図7において、
図1に対応する部分には、同じ符号を付してある。図7
の音声変換玩具では、フレームメモリ4の後段にバッフ
ァ8が設けられている点が、図1の音声変換玩具と異な
っている。
【0106】また、入力される音声の特徴を分析し、こ
の分析結果に基づいて、圧縮伸長率を制御してもよい。
【0107】上記実施の形態では、音声区間と無音区間
とが区間判別部5によって判別され、音声区間と判別さ
れた音声データに対しては時間軸圧縮伸長部6によって
時間軸圧縮伸長処理が施され、無音区間と判別された音
声データに対しては時間軸圧縮伸長部7によって時間軸
圧縮伸長処理が施されている。
【0108】しかしながら、音声区間と無音区間とを判
別することなく、フレームメモリ4に格納された音声デ
ータに対して、時間軸圧縮伸長処理を行なうようにして
もよい。この場合、第1および第2音声変換モードのよ
うに話速を遅くする場合には、話速が遅くなるようにフ
レームメモリ4に格納された音声データに対して時間軸
圧縮伸長処理が行なわれ、第3および第4音声変換モー
ドのように話速を速くする場合には、話速が速くなるよ
うにフレームメモリ4に格納された音声データに対して
時間軸圧縮伸長処理が行なわれる。
【0109】上記実施の形態によれば、入力された音声
の話速と音程とを、単純にテープレコーダを可変速再生
する場合に比べて、より自由に変化させることができ、
趣向性のある音声を出力させることができる音声変換玩
具が得られる。また、入力された音声の話速と音程と
を、ほぼリアルタイムで変換して出力させることができ
る。
【0110】なお、入力された音声信号の全てを記憶す
る記憶装置を設けておき、再生開始指令が入力された場
合に、記憶装置から入力音声信号を順次読み出して、上
述したような処理を行なって音声を出力するようにして
もよい。
【0111】
【発明の効果】この発明によれば、入力された音声の話
速と音程とを、単純にテープレコーダを可変速再生する
場合に比べて、より自由に変化させることができ、趣向
性のある音声を出力させることができる音声変換玩具が
得られる。
【図面の簡単な説明】
【図1】音声変換玩具の電気的構成を示すブロック図で
ある。
【図2】PICOLAを用いた時間軸圧縮伸長法を説明
するための模式図である。
【図3】n=1/2の場合(fAD/fDA=2の場合)に
おいて、A/D変換された音声データをそのままD/A
変換して出力した場合の、A/D変換されたディジタル
データおよびD/A変換されたディジタルデータを示す
タイムチャートである。
【図4】n=1/2の場合(fAD/fDA=2の場合)に
おいて、入力音声の話速と出力音声の話速を同じにする
ために、A/D変換された音声データを1個ずつ間引い
た場合の、A/D変換されたディジタルデータおよびD
/A変換されたディジタルデータを示すタイムチャート
である。
【図5】n=2の場合(fAD/fDA=1/2の場合)に
おいて、A/D変換された音声データをそのままD/A
変換して出力した場合の、A/D変換されたディジタル
データおよびD/A変換されたディジタルデータを示す
タイムチャーとである。
【図6】n=2の場合(fAD/fDA=1/2の場合)に
おいて、入力音声の話速と出力音声の話速を同じにする
ために、A/D変換された音声データを補間した場合
の、A/D変換されたディジタルデータおよびD/A変
換されたディジタルデータを示すタイムチャートであ
る。
【図7】音声変換玩具の他の例を示すブロック図であ
る。
【符号の説明】
1 マイク 3 A/D変換部 5 区間判別部 6 音声区間の時間軸圧縮伸長部 7 無音区間の時間軸圧縮伸長部 8 バッファ 9 D/A変換部 11 スピーカ 12 操作部 13 サンプリング周波数調整部 14 圧縮伸長率調整部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声変換モードを設定するための設定装
    置、 音声を入力するための入力装置、 入力装置によって入力された音声信号の音程を、設定装
    置によって設定された音声変換モードに応じて制御する
    音程制御手段、 入力装置によって入力された音声信号の話速を、設定装
    置によって設定された音声変換モードに応じて制御する
    話速制御手段、ならびに音程制御手段および話速制御手
    段によって音程および話速が制御された音声信号を出力
    する出力装置を備えている音声変換玩具。
  2. 【請求項2】 音声変換モードを設定するための設定装
    置、 音声を入力するための入力装置、 入力装置によって入力された音声信号をディジタル信号
    に変換するA/D変換手段、 A/D変換手段によって得られた音声データに対して時
    間軸圧縮伸長処理を行なう時間軸圧縮伸長手段、 時間軸圧縮伸長手段によって得られた音声データをアナ
    ログ信号に変換するD/A変換手段、 D/A変換手段によって得られた音声信号を出力するた
    めの出力手段、 設定装置によって設定された音声変換モードに応じて、
    A/D変換手段およびD/A変換手段のサンプリング周
    波数をそれぞれ調整する音程制御用の調整手段、ならび
    に、 設定装置によって設定された音声変換モードに応じて、
    時間軸圧縮伸長処理手段で用いられる圧縮伸長率を調整
    する話速制御用の調整手段、 を備えている音声変換玩具。
  3. 【請求項3】 音声変換モードを設定するための設定装
    置、 音声を入力するための入力装置、 入力装置によって入力された音声信号をディジタル信号
    に変換するA/D変換手段、 A/D変換手段によって得られた音声データに基づい
    て、入力音声が音声区間か無音区間かを判別する区間判
    別手段、 A/D変換手段によって得られた音声データのうち音声
    区間であると判定された音声データに対して時間軸圧縮
    伸長処理を行なう第1の時間軸圧縮伸長手段、 A/D変換手段によって得られた音声データのうち無音
    区間であると判定された音声データに対して時間軸圧縮
    伸長処理を行なう第2の時間軸圧縮伸長手段、 上記両時間軸圧縮伸長手段によって得られた音声データ
    をアナログ信号に変換するD/A変換手段、 D/A変換手段によって得られた音声信号を出力するた
    めの出力手段、 設定装置によって設定された音声変換モードに応じて、
    A/D変換手段およびD/A変換手段のサンプリング周
    波数をそれぞれ調整する音程制御用の調整手段、ならび
    に、 設定装置によって設定された音声変換モードに応じて、
    第1の時間軸圧縮伸長処理手段および第2の時間軸圧縮
    伸長処理手段で用いられる圧縮伸長率をそれぞれ調整す
    る話速制御用の調整手段、 を備えている音声変換玩具。
  4. 【請求項4】 音声変換モードには、入力音声に対し
    て、話速を遅くし、音程を低くする第1の音声変換モー
    ド、入力音声に対して、話速を遅くし、音程を高くする
    第2の音声変換モード、入力音声に対して、話速を速く
    し、音程を低くする第3の音声変換モード、および入力
    音声に対して、話速を速くし、音程を高くする第4の音
    声変換モードがある請求項1、2および3のいずれかに
    記載の音声変換玩具。
JP9019358A 1997-01-31 1997-01-31 音声変換玩具 Pending JPH10214098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9019358A JPH10214098A (ja) 1997-01-31 1997-01-31 音声変換玩具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9019358A JPH10214098A (ja) 1997-01-31 1997-01-31 音声変換玩具

Publications (1)

Publication Number Publication Date
JPH10214098A true JPH10214098A (ja) 1998-08-11

Family

ID=11997159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9019358A Pending JPH10214098A (ja) 1997-01-31 1997-01-31 音声変換玩具

Country Status (1)

Country Link
JP (1) JPH10214098A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084692A (ja) * 2003-09-10 2005-03-31 Microsoft Corp デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法
JP2005539264A (ja) * 2002-09-17 2005-12-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 無声音信号を合成する方法
JP2009075177A (ja) * 2007-09-19 2009-04-09 Sony Corp 情報処理装置、情報処理方法およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005539264A (ja) * 2002-09-17 2005-12-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 無声音信号を合成する方法
US7805295B2 (en) 2002-09-17 2010-09-28 Koninklijke Philips Electronics N.V. Method of synthesizing of an unvoiced speech signal
JP4813796B2 (ja) * 2002-09-17 2011-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号を合成するための方法、記憶媒体及びコンピュータシステム
US8326613B2 (en) 2002-09-17 2012-12-04 Koninklijke Philips Electronics N.V. Method of synthesizing of an unvoiced speech signal
JP2005084692A (ja) * 2003-09-10 2005-03-31 Microsoft Corp デジタルオーディオ信号の高品質の伸張および圧縮を提供するシステムおよび方法
JP2009075177A (ja) * 2007-09-19 2009-04-09 Sony Corp 情報処理装置、情報処理方法およびプログラム
US8457322B2 (en) 2007-09-19 2013-06-04 Sony Corporation Information processing apparatus, information processing method, and program

Similar Documents

Publication Publication Date Title
JP4675692B2 (ja) 話速変換装置
JP5367932B2 (ja) オーディオ速度変換を可能にするシステムおよび方法
JPS5982608A (ja) 音声の再生速度制御方式
JPH10214098A (ja) 音声変換玩具
JPH09152889A (ja) 話速変換装置
JP3373933B2 (ja) 話速変換装置
JP3378672B2 (ja) 話速変換装置
JP3162945B2 (ja) ビデオテープレコーダ
JP3357742B2 (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
JPH09146587A (ja) 話速変換装置
JPH09138698A (ja) 音声記録再生装置
JPH0573089A (ja) 音声再生方法
JPH0854895A (ja) 再生装置
JPH10224898A (ja) 補聴器
JP3189587B2 (ja) 音声時間軸変換装置
JP2001222300A (ja) 音声再生装置および記録媒体
JPH10222806A (ja) 話速変換装置
JPH08202391A (ja) 話速変換装置
JPH08292796A (ja) 再生装置
JPH04367898A (ja) 音声再生装置
JPH05303400A (ja) 音声再生装置と音声再生方法
JP2962777B2 (ja) 音声信号の時間軸伸長圧縮装置
JP2861005B2 (ja) 音声蓄積再生装置
JPH07210192A (ja) 出力データ制御方法及び装置