JPH09146587A - 話速変換装置 - Google Patents

話速変換装置

Info

Publication number
JPH09146587A
JPH09146587A JP7309175A JP30917595A JPH09146587A JP H09146587 A JPH09146587 A JP H09146587A JP 7309175 A JP7309175 A JP 7309175A JP 30917595 A JP30917595 A JP 30917595A JP H09146587 A JPH09146587 A JP H09146587A
Authority
JP
Japan
Prior art keywords
voice
section
input
signal
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7309175A
Other languages
English (en)
Inventor
Koji Tanaka
浩司 田中
Masayuki Iida
正幸 飯田
Masanori Miyatake
正典 宮武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP7309175A priority Critical patent/JPH09146587A/ja
Publication of JPH09146587A publication Critical patent/JPH09146587A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 この発明は、入力音声が音楽である場合に、
違和感を生じさせなくすることができる話速変換装置を
提供することを目的とする。 【解決手段】 入力音声信号が音楽か否かを判定する
判定手段1、入力音声信号が音楽であると判定されてい
ない場合には、入力音声信号を話速変換して出力する話
速変換手段2、および入力音声信号が音楽であると判定
されている場合には、入力音声信号を話速変換すること
なくそのまま出力させる手段を備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声信号の話速
を変換する話速変換装置に関し、例えば、映像を伴うレ
ーザディスク、VTR、TV、TV電話、ディジタルビ
デオディスク等の音声の早聞きまたは遅聞きを行なう音
声再生装置、聴覚障害者のために音声信号をゆっくりし
た聞き取りやすい音声に変換する聴覚補助機能付きラジ
オ、電話機、補聴器、ネイティブスピードで話された英
語音声をゆっくりした聞きやすい音声に変換する英語学
習器、音声の早聞きあるいは遅聞きを行なうテープレコ
ーダー、ステレオシステム、CDプレイヤー、MDプレ
イヤー、音声ガイダンスシステム等に利用される話速変
換装置に関する。
【0002】
【従来の技術】入力音声信号を時間軸圧縮伸長処理する
ことにより、音声信号の話速を変換する技術が既に開発
されている。従来の話速変換装置では、入力音声が音楽
である場合も、話速変換を行なっている。このため、入
力音声が音楽である場合には、音楽のテンポが変化し、
違和感が生じるという問題がある。
【0003】
【発明が解決しようとする課題】この発明は、入力音声
が音楽である場合に、違和感を生じさせなくすることが
できる話速変換装置を提供することを目的とする。
【0004】
【課題を解決するための手段】この発明による話速変換
装置は、入力音声信号が音楽か否かを判定する判定手
段、入力音声信号が音楽であると判定されていない場合
には、入力音声信号を話速変換して出力する話速変換手
段、および入力音声信号が音楽であると判定されている
場合には、入力音声信号を話速変換することなくそのま
ま出力させる手段を備えていることを特徴とする。
【0005】話速変換手段としては、たとえば、入力音
声信号が、音声区間の音声か無音区間の音声かを判別す
る判別手段、入力音声信号が、音声区間の音声または継
続長が所定値未満である無音区間の音声であるときに
は、上記音声信号を話速が遅くなるように時間軸圧縮伸
長処理する手段、ならびに、入力音声信号が、継続長が
所定値以上の無音区間の音声であるときには、上記音声
信号を削除する手段を備えているものが用いられる。
【0006】
【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。
【0007】図1は、話速変換装置の構成例を示してい
る。話速変換装置は、音楽判定部1と、話速変換部2と
からなる。入力音声信号は、音楽判定部1に送られると
ともに、話速変換部2に送られる。音楽判定部1では、
入力音声が音楽か否かを判定し、その判定結果(音楽・
非音楽判定信号)を話速変換部2に送る。
【0008】話速変換部2は、入力音声信号を話速変換
する。話速変換装置が聴覚補助の用途に用いられている
場合には、話速変換部2は、標準再生速度で再生された
入力音声信号の話速が遅くなるように、入力音声信号を
時間軸伸長処理する。ただし、音楽判定部1によって、
入力音声が音楽であると判定されている場合には、入力
音声信号を時間軸伸長処理することなく、そのまま出力
する。
【0009】話速変換装置がVTR等に用いられてお
り、高速再生されている場合には、話速変換部2は、高
速再生速度で再生された入力音声信号の話速が遅くなる
ように、入力音声信号を時間軸圧縮処理する。ただし、
音楽判定部1によって、入力音声が音楽であると判定さ
れている場合には、入力音声信号を時間軸圧縮処理する
ことなく、そのまま出力する。
【0010】音楽判定部1による音楽判定手法として
は、次のような手法が用いられる。
【0011】(1)第1の手法 入力音声信号を周波数解析し、高周波帯域(4KHz以
上)の信号成分と、低周波帯域(4KHz未満)の信号
成分との割合を算出する。そして、高周波帯域の信号成
分の割合が多い場合に、入力音声は音楽であると判定す
る。
【0012】(2)第2の手法 時間軸上でパワースペクトルの変動量を抽出し、抽出さ
れた変動量を予め決められたしきい値と比較する。そし
て、抽出された変動量がしきい値より大きい場合に、入
力音声は音楽であると判定する。
【0013】(3)第3の手法 ドラム、ベース等の周波数スペクトルは、周波数が低く
時間継続長が短い音が、一定リズム(一定時間間隔)で
再生される。そこで、パワースペクトルの時間変動に基
づいて、ドラムなどの拍子(リズム)が存在するか否か
を判定することにより、入力音声が音楽か否かを判定す
る。
【0014】(4)第4の手法 ドラム、ベース等の音を予め解析し、スペクトル、パワ
ー情報等として記憶しておき、入力音声信号のスペクト
ル、パワー情報とのパターンマッチングを行うことによ
り、入力音声が音楽か否かを判定する(「電子情報通信
学会論文誌 D-II Vol.j77-d-ii No.5 pp.901-911 1994
年 5月」参照) 。
【0015】図2は、話速変換部2の構成例を示してい
る。
【0016】話速変換部2は、音声信号入力部41、区
間判別部42、信号処理部43、音声メモリ44および
音声信号出力部46を備えている。信号処理部43は、
時間軸圧縮伸長部51、削除部52等を備えている。
【0017】話速変換部2に入力された音声信号は、音
声信号入力部41を介して信号処理部43に送られる。
信号処理部43は、入力信号をそのまま出力したり、時
間軸圧縮伸長処理したり、削除したりする。信号処理部
43の出力は音声メモリ44および音声出力部46を介
して出力される。
【0018】音声信号入力部41は、たとえば、増幅
部、A/D変換部、フレームメモリ等を備えている。音
声信号入力部41に入力された信号は、増幅された後、
ディジタル信号に変換されて、フレームメモリに格納さ
れる。音声信号入力部41の出力は、区間判別部42と
信号処理部43とに送られる。この実施例では、話速変
換部2にアナログ信号が入力される場合を示したが、I
Cメモリ等から読み出されたディジタル信号を話速変換
部2に入力するようにしてもよい。この場合には、音声
信号入力部41にA/D変換部を設ける必要はない。
【0019】音声信号出力部46は、D/A変換部を備
えている。音声メモリ44から音声信号出力部46に送
られてきたディジタル信号は、アナログ信号に変換され
て音声信号出力部46から出力される。この実施例で
は、話速変換部2から音声信号をアナログ信号として出
力する場合を示したが、話速変換部2から音声信号をデ
ィジタル信号として出力するようにしてもよい。この場
合には、音声信号出力部46にD/A変換部を設ける必
要はない。
【0020】話速変換部2の入出力信号が共にアナログ
信号である場合には、音声信号出力部46内のD/A変
換部のサンプリング周波数は、標準サンプリング周波数
SOに設定され、音声信号入力部41内のA/D変換部
のサンプリング周波数は、現在の再生速度倍率をnとす
ると、n・fSOに設定される。したがって、高速再生時
においても、出力音声の音程は元の音程となる。
【0021】また、話速変換部2の入出力信号が共にデ
ィジタル信号である場合には、現在の再生速度倍率をn
とすると、音声信号出力部46から出力されるデータの
出力速度に対して、音声信号入力部41に入力されるデ
ータの入力速度は、n倍となるように設定される。した
がって、高速再生時においても、出力音声の音程は元の
音程となる。
【0022】区間判別部42では、入力信号が音声区間
であるか無音区間であるかが判別される。区間判別部4
2においては、たとえば、音声信号入力部41のフレー
ムメモリに格納された1フレーム分の音声データが無音
区間であるか音声区間であるかが判定される。
【0023】無音区間であるか音声区間であるかの判定
は、たとえば、音声信号入力部41のフレームメモリに
格納された1フレーム分の音声データのパワー平均が所
与のしきい値以上か否かによって行われる。つまり、パ
ワー平均が所与のしきい値以上であれば、音声区間と判
別され、パワー平均が所与のしきい値より小さければ、
無音区間と判定される。
【0024】より具体的に説明すると、音声信号入力部
41のフレームメモリから読み出された1フレーム分の
音声データの平均パワー値Pが計算される。この平均パ
ワー値Pは、サンプリングされた1フレーム内の各音声
データの振幅をi0 ,i1 ,…iN -1(Nは1フレーム
分の音声データ数)とすると、次の数式1によって算出
される。
【0025】
【数1】
【0026】算出された平均パワー値Pは、しきい値T
hと比較される。平均パワー値Pがしきい値Th以上
(P≧Th)のときには、現フレームが音声区間である
ことを示す信号が、平均パワー値Pがしきい値Thより
小さい(P<Th)ときには、現フレームが無音区間で
あることを示す信号が、区間判別部42から出力され
る。区間判別部42による判別結果は、信号処理部43
に送られる。区間判別部としては、平均パワー値Pに基
づいて区間を判別するものの他、パワースペクトル等の
公知の技術によって区間を判別するものを用いてもよ
い。なお、無音区間には、人間の発する音声以外の定常
雑音および背景雑音も含まれる。
【0027】信号処理部43では、音楽判定部1によっ
て入力音声信号が音楽であると判定されている場合に
は、入力音声信号に対して時間軸圧縮伸長処理を施すこ
となく、そのまま出力する。したがって、音楽であると
判定されている入力音声信号に対する出力音声信号の速
度は、再生速度にかかわらず、標準音声速度(標準再生
時の音声速度)となる。
【0028】音楽判定部1によって入力音声信号が音楽
ではないと判定されている場合には、信号処理部43で
は、音声信号入力部41から送られてくる入力信号に対
して、区間判別部42の判別結果に応じた処理が行なわ
れる。つまり、継続長が所定値以上の無音区間の入力信
号は、削除部52によって削除される。また、音声区間
の入力信号および継続長が所定値未満の無音区間の入力
信号に対しては、時間軸圧縮伸長部51によって、現在
設定されている再生速度倍率をnとして1/n以上の圧
縮率で時間軸圧縮伸長処理が施される。
【0029】たとえば、話速変換装置がVTRに用いら
れており、入力音声信号が2倍速で再生された信号であ
る場合には、音声区間の入力音声および継続長が所定値
未満の無音区間の入力音声は、時間軸圧縮伸長部51に
よって、たとえば、圧縮率2/3で圧縮伸長処理されて
出力される。つまり、3ピッチ周期が2ピッチ周期に間
引かれる。また、継続長が所定値以上の無音区間の入力
音声は、削除部52によって削除される。この場合に
は、出力音声速度は、標準音声速度の3/2倍となる。
【0030】また、話速変換装置が聴覚補助装置に用い
られており、入力音声が標準速度で再生された音声信号
である場合には、音声区間の入力音声および継続長が所
定値未満の無音区間の入力音声は、時間軸圧縮伸長部5
1によって、たとえば、圧縮率3/2で圧縮伸長処理さ
れて出力される。つまり、2ピッチ周期が3ピッチ周期
となるように、入力音声信号が伸長される。また、継続
長が所定値以上の無音区間の入力音声は、削除部52に
よって削除される。この場合には、出力音声速度は、標
準音声速度の2/3倍となる。
【0031】時間軸圧縮伸長部51で用いられる時間軸
圧縮伸長法としては、たとえば、ポインタ移動制御によ
る重複加算法(Pointer Interval Control Overlap and
Add: PICOLA)、TDHS(Time Domain Harmonic Scaling)
法等がある。
【0032】PICOLAを用いて、入力信号(時間軸
圧縮伸長部51への入力音声データ)を圧縮率2/3で
圧縮する方法について、図3を用いて簡単に説明する。
まず、入力信号からピッチ周期が抽出される。抽出され
たピッチ周期をTpとする。波形Aに対しては、1から
0へ直線的に向かう重み(重み関数K1)がつけられ
て、波形A’が作成される。波形Bに対しては0から1
に向かう重み(重み関数K2)がつけられて、波形B’
が作成される。
【0033】そして、これらの波形A’およびB’が加
え合わされ、長さTpの波形A’*B’が作成される。
これらの重みは、波形A’*B’の前後の接続点での連
続性を保つためにつけられている。次に、ポインタが、
圧縮率に基づいて決定される長さである3Tp分だけ移
動され、同様な操作が行われる。これにより、3つの波
形A、B、Cから2つの波形A’*B’とCとが得られ
る。このようにして、3ピッチ周期分の信号が、2ピッ
チ周期分の信号に圧縮される。
【0034】信号処理部43の出力は、音声メモリ44
に一旦蓄積された後、音声信号出力部46に送られて出
力される。
【0035】図4に示すように、音楽判定部1によって
入力音声が音楽と判定された場合には、入力音声中の音
楽のレベルが所定値以上であるか否かを判定するレベル
判定部3を設け、入力音声中の音楽のレベルが所定値未
満である場合には、入力音声が音楽でないと判定される
ようにしてもよい。つまり、図4の場合には、音楽判定
部1によって入力音声が音楽と判定されかつ入力音声中
の音楽のレベルが所定値以上であると判定されたときの
み信号処理部43に入力音声が音楽であることを示す音
楽判定信号が入力し、その他の場合には信号処理部43
に入力音声が非音楽であることを示す非音楽判定信号が
入力する。
【0036】なお、話速変換装置がVTRに適応されて
おり、高速再生されている場合において、次のように時
間軸圧縮伸長部51の圧縮率を制御するようにしてもよ
い。つまり、入力音声が音楽であると判定されていない
場合には、音声メモリ44に蓄積されかつ未だ読み出さ
れていない蓄積量に応じて圧縮率を変更する。入力音声
が音楽であると判定されている場合には、予め定められ
た一定の圧縮率で圧縮する。つまり、入力音声が音楽で
あると判定されている場合には、圧縮率を一定とする。
これにより、音楽に対する出力音声の速度は一定とな
る。
【0037】また、音楽と非音楽とで話速を制御する方
法を変更するか否かを、使用者が選択できるようにして
もよい。
【0038】
【発明の効果】この発明は、入力音声が音楽である場合
に、違和感が生じなくなる。
【図面の簡単な説明】
【図1】話速変換装置の概略構成を示す構成図である。
【図2】図1の話速変換部の構成を示すブロック図であ
る。
【図3】PICOLAを用いた時間軸圧縮伸長法を説明
するための模式図である。
【図4】話速変換装置の他の例を示す構成図である。
【符号の説明】
1 音楽判定部 2 話速変換部 3 レベル判定部 41 音声信号入力部 42 区間判別部 43 信号処理部 44 音声メモリ 46 音声信号出力部 51 時間軸圧縮伸長部 52 削除部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号が音楽か否かを判定する判
    定手段、 入力音声信号が音楽であると判定されていない場合に
    は、入力音声信号を話速変換して出力する話速変換手
    段、 入力音声信号が音楽であると判定されている場合には、
    入力音声信号を話速変換することなくそのまま出力させ
    る手段、 を備えている話速変換装置。
  2. 【請求項2】 話速変換手段は、 入力音声信号が、音声区間の音声か無音区間の音声かを
    判別する判別手段、 入力音声信号が、音声区間の音声または継続長が所定値
    未満である無音区間の音声であるときには、上記音声信
    号を話速が遅くなるように時間軸圧縮伸長処理する手
    段、ならびに、 入力音声信号が、継続長が所定値以上の無音区間の音声
    であるときには、上記音声信号を削除する手段、 を備えている請求項1に記載の映像・音声再生装置。
JP7309175A 1995-11-28 1995-11-28 話速変換装置 Pending JPH09146587A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7309175A JPH09146587A (ja) 1995-11-28 1995-11-28 話速変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7309175A JPH09146587A (ja) 1995-11-28 1995-11-28 話速変換装置

Publications (1)

Publication Number Publication Date
JPH09146587A true JPH09146587A (ja) 1997-06-06

Family

ID=17989841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7309175A Pending JPH09146587A (ja) 1995-11-28 1995-11-28 話速変換装置

Country Status (1)

Country Link
JP (1) JPH09146587A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266571A (ja) * 2004-03-19 2005-09-29 Sony Corp 変速再生方法及び装置、並びにプログラム
JP2008058956A (ja) * 2006-07-31 2008-03-13 Matsushita Electric Ind Co Ltd 音声再生装置
JP2011055386A (ja) * 2009-09-04 2011-03-17 Sanyo Electric Co Ltd 音響信号処理装置及び電子機器
WO2021142035A1 (en) * 2020-01-07 2021-07-15 Dolby Laboratories Licensing Corporation A computer implemented method, device and computer program product for setting a playback speed of media content comprising audio

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266571A (ja) * 2004-03-19 2005-09-29 Sony Corp 変速再生方法及び装置、並びにプログラム
JP4542805B2 (ja) * 2004-03-19 2010-09-15 ソニー株式会社 変速再生方法及び装置、並びにプログラム
JP2008058956A (ja) * 2006-07-31 2008-03-13 Matsushita Electric Ind Co Ltd 音声再生装置
JP2011055386A (ja) * 2009-09-04 2011-03-17 Sanyo Electric Co Ltd 音響信号処理装置及び電子機器
WO2021142035A1 (en) * 2020-01-07 2021-07-15 Dolby Laboratories Licensing Corporation A computer implemented method, device and computer program product for setting a playback speed of media content comprising audio

Similar Documents

Publication Publication Date Title
US6226605B1 (en) Digital voice processing apparatus providing frequency characteristic processing and/or time scale expansion
JP2955247B2 (ja) 話速変換方法およびその装置
JP3630609B2 (ja) 音声情報再生方法ならびに装置
JPH10260694A (ja) 話速変換装置、話速変換方法及び記録媒体
JP3308567B2 (ja) ディジタル音声処理装置及びディジタル音声処理方法
WO1997026647A1 (fr) Changeur de vitesse de lecture
JPH09146587A (ja) 話速変換装置
JP3378672B2 (ja) 話速変換装置
JP2001184100A (ja) 話速変換装置
JPH09152889A (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
JP3373933B2 (ja) 話速変換装置
JP2009075280A (ja) コンテンツ再生装置
JPH09147472A (ja) 映像・音声再生装置
JPH08146985A (ja) 話速制御システム
JP3162945B2 (ja) ビデオテープレコーダ
JP3357742B2 (ja) 話速変換装置
JP2000099097A (ja) 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法
JP2002297200A (ja) 話速変換装置
JP2867744B2 (ja) 音声再生装置
JPH08292796A (ja) 再生装置
JP3201327B2 (ja) 録音再生装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JPH0854895A (ja) 再生装置
JPH08211894A (ja) 音声通信機および音声通信システム