JP3691304B2 - 話速変換装置 - Google Patents

話速変換装置 Download PDF

Info

Publication number
JP3691304B2
JP3691304B2 JP25185899A JP25185899A JP3691304B2 JP 3691304 B2 JP3691304 B2 JP 3691304B2 JP 25185899 A JP25185899 A JP 25185899A JP 25185899 A JP25185899 A JP 25185899A JP 3691304 B2 JP3691304 B2 JP 3691304B2
Authority
JP
Japan
Prior art keywords
speech speed
pitch period
speech
threshold
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP25185899A
Other languages
English (en)
Other versions
JP2001109499A (ja
Inventor
健生 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP25185899A priority Critical patent/JP3691304B2/ja
Publication of JP2001109499A publication Critical patent/JP2001109499A/ja
Application granted granted Critical
Publication of JP3691304B2 publication Critical patent/JP3691304B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、音声信号の話速を変える話速変換装置に関し、例えば、映像を伴うテレビ、レーザディスク、VTR等の音声の早聞きまたは遅聞きを行なう音声再生装置、聴覚障害者や高齢者のために、放送される音声信号をゆっくりした聞きやすい音声に変換する聴覚補助装置及び該装置を備えた電話機等の機器、さらにはネイティブスピードで話された英語音声をゆっくりした聞きやすい音声に変換する英語学習器等、種々の機器にて利用が可能な話速変換装置に関する。
【0002】
尚、話速変換とは、音声信号の時間軸を圧縮してその再生速度を本来の速度よりも速くしたり、あるいは逆に音声信号の時間軸を伸長してその再生速度を本来の速度よりも遅くしたりすることを言う。
【0003】
【従来の技術】
従来、例えば特開平7−192392号公報に開示されているように、入力音声信号が音声区間であるか無音区間であるかに応じて、入力音声信号に対して圧縮伸長処理または削除処理を行なうように成された話速変換装置が知られている。
【0004】
【発明が解決しようとする課題】
然し乍ら、上記従来の話速変換装置では、入力音声信号の話速に関わらず一様に話速を遅くしていたため、元々早口でなくゆっくりした話速であっても話速変換装置によってさらに遅くなったり、また、逆に元々早口で速い話速であっても話速変換装置によってさらに速くなったりして、大変煩わしいといった問題があった。
【0005】
【課題を解決するための手段】
上記の課題を解決するため本発明の話速変換装置では、音声信号よりピッチ周期を検出するピッチ周期検出手段と、該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、当該同一ピッチ波形の繰り返し回数を計数する計数手段と、前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の閾値と比較する比較判定手段と、前記積の値が前記所定の閾値を超えない場合には、今回のピッチ波形に対して、ゆっくりとした音声信号となるような話速変換処理を行い、前記積の値が前記所定の閾値を超える場合には、前記話速変換処理を行わないようにする話速変換手段と、を備えたことを特徴とする。
【0006】
また、本発明の話速変換装置では、音声信号よりピッチ周期を検出するピッチ周期検出手段と、該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、当該同一ピッチ波形の繰り返し回数を計数する計数手段と、前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の閾値と比較する比較判定手段と、前記所定の閾値を変更する閾値変更手段と、前記積の値が前記所定の閾値を超えない場合には、今回のピッチ波形に対して、ゆっくりとした音声信号となるような話速変換処理を行い、前記積の値が前記所定の閾値を超える場合には、前記話速変換処理を行わないようにする話速変換手段と、を備えたことを特徴とする。
【0007】
また、本発明の話速変換装置では、音声信号よりピッチ周期を検出するピッチ周期検出手段と、該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、当該同一ピッチ波形の繰り返し回数を計数する計数手段と、前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の閾値と比較する比較判定手段と、前記積の値が前記所定の閾値を超えない場合には、話速倍率を小さくし、前記積の値が前記所定の閾値を超える場合には、話速倍率を大きくして、話速変換処理を行う話速変換手段と、を備えたことを特徴とする。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
【0008】
また、本発明の話速変換装置では、音声信号よりピッチ周期を検出するピッチ周期検出手段と、該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、当該同一ピッチ波形の繰り返し回数を計数する計数手段と、前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の閾値と比較する比較判定手段と、前記所定の閾値を変更する閾値変更手段と、前記積の値が前記所定の閾値を超えない場合には、話速倍率を小さくし、前記積の値が前記所定の閾値を超える場合には、話速倍率を大きくして、話速変換処理を行う話速変換手段と、を備えたことを特徴とする。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
【0009】
また、本発明の話速変換装置では、音声信号よりピッチ周期を検出するピッチ周期検出手段と、該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、当該同一ピッチ波形の繰り返し回数を計数する計数手段と、前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の第1の閾値及び所定の第2の閾値と比較する比較判定手段と、前記積の値が、前記所定の第1の閾値より小さい場合には話速倍率を小さくし、前記所定の第2の閾値より大きい場合には話速倍率を大きくして、話速変換処理を行う話速変換手段と、を備えたことを特徴とする。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長、第1の閾値<第2の閾値)
【0010】
また、本発明の話速変換装置では、音声信号よりピッチ周期を検出するピッチ周期検出手段と、該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、当該同一ピッチ波形の繰り返し回数を計数する計数手段と、前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の第1の閾値及び所定の第2の閾値と比較する比較判定手段と、前記所定の第1の閾値または所定の第2の閾値を変更する閾値変更手段と、前記積の値が、前記所定の第1の閾値より小さい場合には話速倍率を小さくし、前記所定の第2の閾値より大きい場合には話速倍率を大きくして、話速変換処理を行う話速変換手段と、を備えたことを特徴とする。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長、第1の閾値<第2の閾値)
【0011】
また、前記話速変換手段は、前記比較判定手段において、前記積の値が、前記所定の第1の閾値以上であって前記所定の第2の閾値以下である場合には話速変換処理を行わないようにすることを特徴とする。
【0012】
また、前記話速変換手段は、前記比較判定手段において、前記積の値が前記所定の第1の閾値より小さい場合には話速倍率を1より小さくし、前記所定の第2の閾値より大きい場合には話速倍率を1より大きくして、話速変換処理を行うことを特徴とする。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
【0013】
また、前記話速変換手段は、前記比較判定手段において、前記積の値が前記所定の第1の閾値より小さい場合には、話速変換した音声信号を蓄積する蓄積手段の空容量が増加するのに応じて話速倍率を1より小さい所定の倍率に近づけるように変更し、前記積の値が前記所定の第2の閾値より大きい場合には、話速変換した音声信号を蓄積する蓄積手段の空容量が増加するのに応じて話速倍率を1より大きい所定の倍率に近づけるように変更することを特徴とする。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
【0014】
また、前記話速変換手段は、話速変換した音声信号を蓄積する蓄積手段の空容量が増加するのに応じて、話速倍率を1より小さい所定の倍率に近づけるように変更することを特徴とする。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
【0015】
また、前記話速変換手段は、話速変換した音声信号を蓄積する蓄積手段の空容量が減少するのに応じて、話速倍率を1に近づけるように変更することを特徴とする。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
【0021】
【発明の実施の形態】
以下、図面を参照しつつ本発明の話速変換装置について詳述する。
【0022】
先ず、図1は本発明の話速変換装置の構成を示す概略ブロック図である。同図において、1は、図示されないA/D変換器でデジタル信号に変換された音声信号が入力され、該入力された音声信号よりピッチ周期を抽出するピッチ周期抽出部であり、そのピッチ周期の抽出方法として例えば自己相関を利用する。
【0023】
自己相関を用いたピッチ周期抽出法には、信号は時間制限されていると仮定し、時間長Tsの区間内だけに信号が存在し、その時間長Tsの区間外では信号は常にゼロとして自己相関を求める短時間自己相関を用いる方法がある。これは、コロナ社発行「音声のディジタル信号処理」(上)−L.R.Rabiner&R.W.Schafer著、鈴木久喜訳−p152-p152にも記載されているように、いま、音声波形をディジタル音声データx(n)で表すと、前述の方法による短時間自己相関値Rn(k)は下記のようになる。
【0024】
【数1】
Figure 0003691304
【0025】
ここで、Tsは音声信号が存在すると仮定した時間区間、kは短時間自己相関値Rn(k)を算出するときに音声波形を遅延させる際の遅延時間であり、Ts≫kの関係にある。そして、前記数1において、短時間自己相関値Rn(k)が最大となるようなkの値を求めると、その値がピッチ周期である。
【0026】
次に、2は前記ピッチ周期抽出部1で抽出されたピッチ周期が記憶されるピッチ周期記憶部、3は前記ピッチ周期記憶部2に記憶されたピッチ周期と前記ピッチ周期抽出部1で新たに抽出したピッチ周期とを比較するピッチ周期比較部、4は前記ピッチ周期比較部3における比較結果に応じてインクリメントされるカウンタ、5は閾値(詳細は後述する)が予め設定された閾値設定部である。
【0027】
また、6は前記ピッチ周期抽出部1で抽出したピッチ周期と前記カウンタ4の値とを乗算した値と、前記閾値設定部5にて設定されている閾値とを比較し、その結果を出力する比較部、7は前記比較部6の出力する比較結果に基づいて、入力音声信号を所定のモードにて話速変換処理を行って出力する話速変換部、8は話速変換のモード(詳細は後述する)を選択するためのモード選択信号を出力するモード選択部である。
【0028】
さらに、図2は前記話速変換部7の構成を示す概略ブロック図である。
【0029】
同図において、11は入力された音声信号の時間軸を圧縮伸長処理する音声時間軸圧縮伸長部であり、ここで用いられる圧縮伸長法としては、例えば、ポインター移動量制御による重複加算法(Pointer Interval Control Overlap and Add :PICOLA)やTDHS(Time Domain Harmonic Scaling)法等の既知の方法が利用できるが、これら限られるものではなく、要するに音声信号の時間軸を圧縮伸長してその再生速度を変更できるものであれば構わない。
【0030】
次に、14は前記音声時間軸圧縮伸長部11で圧縮伸長処理された音声信号を既存のADPCM処理等によって符号化する音声符号化部、15は前記音声符号化部14で符号化された信号を蓄積するためのメモリ、16は前記メモリ15からの信号を既存のADPCM処理等によって復号する音声復号化部である。前記音声復号化部16で復号化された音声信号は、図示されないD/A変換回路でアナログの音声信号に変換されて出力される。
【0031】
また、12は入力音声信号における無音区間を検出し、その検出結果を前記音声時間軸圧縮伸長部へ伝送する無音区間検出部、13は前記音声時間軸圧縮伸長部に対して話速倍率N(倍速)を与える話速制御部、17は前記メモリ15の信号データの蓄積量jを検出する蓄積量検出部である。
【0032】
ここで、前記話速倍率Nは、[話速倍率N](倍速)=[入力音声信号の時間長]/[出力音声信号の時間長]で表され、入力音声信号の時間長とは、前記音声時間軸圧縮伸長部11に入力された圧縮伸長前の音声信号の時間長であり、前記出力音声信号の時間長とは、前記入力音声信号が音声復号化部16で復号化された圧縮伸長後の時間長である。
【0033】
次に、前記図1のモード選択部8によって選択され、該選択に基づいて前記話速制御部13にて話速変換処理される話速の各種モードについて説明する。話速のモードとしては、以下の表1に示すような、入力音声信号の時間軸を伸長してゆっくりした音声信号に話速変換する[ゆっくり再生モード]を備え、該[ゆっくり再生モード]は、表の如く話速倍率Nを1〜4段階にて細かく選択できるように構成されている。
【0034】
【表1】
Figure 0003691304
【0035】
また、前記蓄積量検出部17から与えられる前記メモリ15の蓄積量jに応じて、話速倍率Nの値がさらに細かく分類されているが、メモリ15の蓄積量jと話速倍率Nとの関係については後述する。
【0036】
各表において、話速倍率Nは、前記したように[入力音声信号の時間長]/[出力音声信号の時間長]で表されるので、よって話速倍率Nが1より小さい場合は話速が通常の速度よりも遅くなることを表しており、この値が小さいほど話速は遅い。逆に話速倍率Nが1より大きい場合は話速が通常の速度よりも速くなることを表しており、この値が大きいほど話速は速い。
【0037】
ところで、前記ゆっくり再生モードの選択は、例えば[50代]、[60代]、[70代]、[80代]というように、使用者の年代別のラベルが付けられた4つの操作ボタンで選択するように構成してもよい。
【0038】
補足すると、「高齢者を対象とした話速変換音声の評価実験:(今井篤、清山信正、都木徹、宮坂栄一、小野博)、日本音響学会講演論文集、1993年3月)には、話速変換された音声の話速と年代別の聞き易さの評価について述べられている。この論文に依れば、60代では話速が0.87倍速、70代では0.87〜0.73倍速、80代では0.73倍速が聞き易いという結果が出ており、聞き手の年代が高くなるにつれて聴き取り易いと感じる話速も遅くなることが判っている。
【0039】
上記のように構成された話速変換部において、前記話速制御部13は、前記図1に示したモード選択部8からのモード選択信号、前記比較部からの比較結果、さらに前記蓄積量検出部17からの蓄積量j等の情報に基づいて、話速倍率Nを決定し、前記音声時間軸圧縮伸長部11に対して出力する。
【0040】
前記音声時間軸圧縮伸長部11は、前記話速制御部13からの話速倍率Nに基づいて、音声信号の時間軸の圧縮または伸長の処理を行う。そして、前記音声時間軸圧縮伸長部11は、前記無音区間検出部12による音声信号の無音区間の検出結果を受け取り、これに基づいて無音部分を適宜削除しながら、音声信号の時間軸の圧縮または伸長処理を行う。
【0041】
続いて、上記の如く構成された話速変換装置の、第1の実施例の動作を、図4のフローチャートに基づいて説明する。
【0042】
先ず、使用者が前記モード選択部8の操作ボタン(図示せず)を操作してモードを選択する(S11)。ここでは、一例として、前記表1に示した[ゆっくり再生モード1]を選択したものとする。前記の操作よって、モード選択部8より話速変換部7の話速制御部13へモード選択信号が与えられる。
【0043】
次に、蓄積量検出部17がメモリ15の蓄積量をチェックして蓄積量jを求め、蓄積量jの値を話速制御部13に与える(S12)。
【0044】
この時点では、メモリ15への符号化された音声信号の蓄積量が0であるとすると、前記表1より、話速倍率Nとして0.6[倍速]を初期値として設定する(S13)。
【0045】
また、ピッチ周期記憶部2の記憶内容(以下、変数名としてピッチ周期Tn-1とする)は初期化(クリア)される。
【0046】
こうして初期値としての話速倍率N(=0.6[倍速])が設定された後、ピッチ周期抽出部1が、前記数1に基づいて、入力音声信号のピッチ周期(以下、変数名としてピッチ周期Tnとする)を抽出する(S14)。一例として、例えばピッチ周期Tn=60[サンプル]が求められたとする。尚、この「サンプル」とは、音声信号がディジタル信号である場合に、所望のサンプリング周波数に従ってサンプリングされた音声信号の数をいう。
【0047】
前記ピッチ周期抽出部1で抽出されたピッチ周期Tnとピッチ周期記憶部2に記憶されているピッチ周期Tn-1とをピッチ周期比較部3で比較する(S15)。
【0048】
然し乍ら、前記したようにピッチ周期記憶部2の記憶内容がクリアされているので、ステップS21へ進み、カウンタ4のカウント値Cを初期化(クリア)して0にし、さらに次のステップS19で[ゆっくり再生モード]に設定される(既に前記ステップS11にて[ゆっくり再生モード]が選択されていたので、実質的にモード変更は行われず、[ゆっくり再生モード]が維持されることになる)。
【0049】
また、ピッチ周期Tnの値(=60[サンプル])はピッチ周期記憶部2に記憶され、新たにピッチ周期Tn-1の値となり(S22)、さらに、前記ステップS13で設定した該話速倍率N=0.6[倍速]を音声時間軸圧縮伸長部11に与え、これを受けた時間軸圧縮伸長部11は、話速が0.6[倍速]となるように入力音声信号の時間軸を伸長する。前記時間軸圧縮伸長部11で時間軸が伸長された音声信号は、音声符号化部14で符号化され、一端、メモリ15に蓄積された後、音声復号化部16で復号されて出力音声信号となり、処理はステップS23を経てステップS12へ戻される。
【0050】
そして、再びメモリの蓄積量jのチェック(S12)、及び前記蓄積量jに基づく話速倍率Nの設定が行われる(S13)。
【0051】
そして、さらにピッチ周期Tnの抽出が行われ(S14)、例えばピッチ周期Tn=61[サンプル]が求められたとする。
【0052】
この抽出したピッチ周期Tn(=61)とピッチ周期記憶部2に記憶されているピッチ周期Tn-1(=60[サンプル])とをピッチ周期比較部3で比較する(S15)。
【0053】
ここで、新たに抽出したピッチ周期Tn(=61[サンプル])とピッチ周期記憶部2に記憶されているピッチ周期Tn-1(=60[サンプル])が、Tn≒Tn-1という条件(即ち、新たに抽出したピッチ周期Tnと前回に抽出したピッチ周期Tn-1とが略等しい)を満たすなら、カウンタ4のカウント値Cが1つインクリメント(カウント値C=1となる)される(S16)。
【0054】
そして、ピッチ周期抽出部1で抽出したピッチ周期Tn(=61[サンプル])とカウンタ4のカウント値C(=1)を積算して積算値M(=61)を求め、これを比較部6に与える(S17)。
【0055】
比較部6は、前記積算値Mと閾値設定部5で設定されている閾値S(=1500)とを比較する(S18)。
【0056】
前記したように、積算値M=61であって、閾値Sを越えておらず、よって話速制御部13は話速のモードを[ゆっくり再生モード]のまま維持し、メモリ蓄積量jに応じて設定された話速倍率Nを音声時間軸圧縮伸長部11に与え、これを受けた時間軸圧縮伸長部11は、与えられた話速倍率Nになるように入力音声信号の時間軸を伸長する。
【0057】
前述と同様に、前記時間軸圧縮伸長部11で時間軸が伸長された音声信号は、音声符号化部14で符号化され、一端、メモリ15に蓄積された後、音声復号化部16で復号されて出力音声信号となる。
【0058】
そして、新たにピッチ周期Tnの値はピッチ周期記憶部2に記憶され(S22)、処理はステップS23を経てステップS12へ戻る。
【0059】
上記の如きステップS12→・・・・・→ステップS23を経てステップ12へ戻るループ処理において、入力音声信号がゆっくり話した場合の音声信号の場合、前記ループ処理が繰り返され、やがてステップS18において、前記積算値Mが閾値Sを越えるようになる。
【0060】
図3(c)は、高い声で且つゆっくり話した場合の音声信号で、同じピッチ周期Tnが10回繰り返された波形であり、図3(d)は、低い声で且つゆっくり話した場合の音声信号で、同じピッチ周期Tnが4回繰り返された波形である。ゆっくり話した場合の音声信号は、声の高い低いに関わらず、1つ1つの音(”あ”,”い”,”う”・・・・)の持続時間が長い。そしてこのような波形の場合、カウンタ4のインクリメントが繰り返され、やがて積算値Mが閾値S(=1500)を越え、前記ステップS18を経てステップS20に至り、通常再生モード(話速倍率N=1.0)になり、実質的に話速変換されない。
【0061】
また、図3(a)は、高い声で且つ早口の音声信号で、同じピッチ周期Tnが4回繰り返された波形であり、図3(b)は、低い声で且つ早口の音声信号で、同じピッチ周期Tnが2回繰り返された波形である。入力音声信号が早口の音声信号(早口で喋った場合の音声信号)の場合、図3の(a)(b)に示すように、声の高い低いに関わらず、1つ1つの音(”あ”,”い”,”う”・・・・)の持続時間が短い。よって、前記ループ処理が繰り返されても、積算値Mが閾値Sを越える前に、ピッチ周期の抽出処理が次の音に対して行われ、前記ステップS15において、新たに抽出したピッチ周期Tn(例えば”い”という音のピッチ周期)と1つ前に抽出したピッチ周期Tn-1(例えば”あ”という音のピッチ周期)とが異なることなる。
【0062】
従って、前記ステップS15を経てステップ21へ移行し、ここでカウンタ4のカウント値Cがクリアされ、さらにステップS19に移行し、声の高い低いに関わらず、早口の音声信号が続く間は、[ゆっくり再生モード]が維持されることになる。
【0063】
上記のように本発明は、早口の音声信号は1つ1つの音の持続時間が短く、逆にゆっくり話した場合の音声信号は1つ1つの音の持続時間が長いという点に着目し、同じピッチ周期の波形の繰り返し回数とピッチ周期との積を所定の閾値と比較することで、声の高い低いの影響を受けることなく、早口で話した音声信号かゆっくり話した場合の音声信号かを判断し、早口の音声信号に対してのみゆっくりした音声信号となるように話速変換処理を施すものである。
これを利用して話速変換の話速倍率を変更することを特徴とするものである。
【0064】
ところで、前記ステップS15におけるピッチ周期比較部3での比較条件がTn≒Tn-1等となっているが、以下、この理由を説明する。
【0065】
人の音声は、電子回路で発生する安定した正弦波等の信号とは異なり、ピッチ等が揺らいでいることが多い。このため、同じ音について順次ピッチ周期を求めても、求めた時によってその値が若干異なることがある。このような場合に、同じ音が持続しているにも関わらず、違う音に変わったという誤った判断をしてしまうのを防ぐために、上記のような比較条件に設定している。
【0066】
尚、新たに抽出したピッチ周期Tnと1つ前のピッチ周期Tn-1とが略同じと判断する許容範囲は、サンプリング周波数にも影響され、サンプリング周波数が高いほど許容範囲は広く設定する必要がある。本実施例では、サンプリング周波数fs=12.8KHzであり、前記許容範囲は3以内とした。
【0068】
次に、前記ステップS12における処理に関して、蓄積量検出部17で求めたメモリ15の蓄積量jと話速倍率Nとの関係について説明する。
【0069】
話速変換部7における話速変換の処理が続くにつれて、符号化された音声信号がメモリ15に蓄積されていくとメモリ15の空容量が減少する。メモリ15は符号化されたデジタルの音声信号を一定量分保持するように構成されているが、入力音声信号において削除する無音区間が少ない場合、メモリ15に音声信号を蓄積しきれなくなり、蓄積しきれなかった音声信号が欠落するなどの不都合を生じる恐れがある。このような不都合を回避するために、メモリ15の蓄積量をチェックし、メモリ15の残量が少なくなるにつれて、話速倍率Nを補正するように構成されている。
【0070】
上記の例において、話速倍率Nの初期値は0.6[倍速]に設定されていたが、表1に示すように、メモリ15の蓄積量jが増えるにつれて、話速倍率Nの値を右へシフトする。具体的には、前記ループ処理が繰り返される中で、前記ステップ12において、蓄積量jが20≦k<40[%]の範囲の値になると、話速倍率Nを0.6[倍速]から0.7[倍速]へ変更する。以後、蓄積量jに応じて表に示す値に変更し、メモリ15がオーバーフローする前に話速倍率N=1.0[倍速](時間軸の圧縮伸長の無い通常の再生=[通常モード]での再生と同じ)になる。
【0071】
一方、入力音声信号に削除できる無音区間が多く含まれている場合、メモリ15の蓄積量jが徐々に減少し、前記表1において、話速倍率Nの値を前記とは逆に左へシフトし、やがて話速倍率Nの値が初期値に達すると、話速倍率Nの値のシフトは停止するように構成されている。
【0072】
尚、使用者によって停止の指示が与えられると装置は停止する(S23)。
【0073】
まとめると、この実施例においては、積算値Mが閾値Sより大きいときは[通常再生モード]が自動的に選択され、積算値Mが閾値S以下のときは[ゆっくり再生モード]が自動的に選択されるものである。
【0074】
続いて、図5のフローチャートに基づいて本発明の第2の実施例について説明する。尚、装置の基本構成は前記図1及び図2に示したものと同じであり、その詳細な説明は割愛し、動作についてのみ説明する。
【0075】
先ず、前記の実施例と同様に使用者が前記モード選択部8の操作ボタン(図示せず)を操作してモードを選択する(S31)。一例として、前記表1に示した[ゆっくり再生モード1]を選択したものとする。これによって、モード選択部8より話速変換部7の話速制御部13へモード選択信号が与えられ、話速制御部13は与えられたモード選択信号に基づいて[ゆっくり再生モード1]に設定される。
【0076】
次に、蓄積量検出部17がメモリ15の蓄積量をチェックして蓄積量jを求め、蓄積量jの値を話速制御部13に与える(S32)。
【0077】
この時点では、メモリ15への符号化された音声信号の蓄積量が0であるとすると、前記表1より、話速倍率Nとして0.6[倍速]が初期値として設定される(S33)。
【0078】
また、ピッチ周期記憶部2の記憶内容(以下、変数名としてピッチ周期Tn-1とする)は初期化(クリア)される。
【0079】
こうして初期値としての話速倍率N(=0.6[倍速])が設定された後、ピッチ周期抽出部1が、前記数1に基づいて、入力音声信号のピッチ周期(以下、変数名としてピッチ周期Tnとする)を抽出する(S34)。一例として、例えばピッチ周期Tn=60[サンプル]が求められたとする。
【0080】
前記ピッチ周期抽出部1で抽出されたピッチ周期Tnとピッチ周期記憶部2に記憶されているピッチ周期Tn-1とをピッチ周期比較部3で比較する(S35)。
【0081】
然し乍ら、前記したようにピッチ周期記憶部2の記憶内容がクリアされているので、ステップS41へ進み、カウンタ4のカウント値Cを初期化(クリア)して0にする。
【0082】
また、ピッチ周期Tnの値(=60[サンプル])はピッチ周期記憶部2に記憶されて新たにピッチ周期Tn-1の値となり(S42)、さらに、前記ステップS33で設定した該話速倍率N=0.6[倍速]を音声時間軸圧縮伸長部11に与え、これを受けた時間軸圧縮伸長部11は、話速が0.6[倍速]となるように入力音声信号の時間軸を伸長する。前記時間軸圧縮伸長部11で時間軸が伸長された音声信号は、音声符号化部14で符号化され、一端、メモリ15に蓄積された後、音声復号化部16で復号されて出力音声信号となり、処理はステップS43を経てステップS32へ戻される。
【0083】
そして、再びメモリの蓄積量jのチェック(S32)、及び前記蓄積量jに基づく話速倍率Nの設定が行われる(S33)。
【0084】
そして、再びピッチ周期Tnの抽出が行われ(S34)、例えばピッチ周期Tn=61[サンプル]が求められたとする。この抽出したピッチ周期Tn(=61[サンプル])とピッチ周期記憶部2に記憶されているピッチ周期Tn-1(=60[サンプル])とをピッチ周期比較部3で比較する(S35)。
【0085】
ここで、新たに抽出したピッチ周期Tn(=61[サンプル])とピッチ周期記憶部2に記憶されているピッチ周期Tn-1(=60[サンプル])が、Tn≒Tn-1という条件を満たすなら、カウンタ4のカウント値Cが1つインクリメントされる(S36)。
【0086】
そして、ピッチ周期抽出部1で抽出したピッチ周期Tn(=61[サンプル])とカウンタ4のカウント値C(=1)を積算して積算値M(=61)を求め(S37)、これを比較部6に与える。
【0087】
比較部6は、前記積算値Mと閾値設定部5で設定されている閾値S(=1500)とを比較する(S38)。前記したように、積算値M=61であって、閾値Sを越えておらず、よって話速制御部13は話速のモードを[ゆっくり再生モード]のまま維持し、メモリ蓄積量jに応じて設定された話速倍率Nを音声時間軸圧縮伸長部11に与え、これを受けた時間軸圧縮伸長部11は、話速倍率Nに応じた倍速となるように入力音声信号の時間軸を伸長する。
【0088】
前述と同様に、前記時間軸圧縮伸長部11で時間軸が伸長された音声信号は、音声符号化部14で符号化され、一端、メモリ15に蓄積された後、音声復号化部16で復号されて出力音声信号となる。
【0089】
そして、新たにピッチ周期Tnの値はピッチ周期記憶部2に記憶され(S42)、処理はステップS43を経てステップS32へ戻る。
【0090】
上記の如きステップS32→・・・・→ステップS43を経てステップ32へ戻るループ処理において、入力音声信号がゆっくり話した場合の音声信号の場合、前記ループ処理が繰り返され、やがてステップS38において、前記積算値Mが閾値設定部5で設定されている閾値Sを越え、ステップS40に至る。該ステップ40では、前記表1において、話速倍率Nを現在の値から1つ右へシフトする。これによって、入力音声信号の時間軸の伸長率が以前より少し小さくなり、話速は以前より少し速くなる。即ち、前記表1における値(話速倍率N)が、現時の値から1つ右の値にシフトされて設定される。
【0091】
逆に、入力音声信号が早口の音声信号の場合、前記積算値Mが閾値設定部5で設定されている閾値Sを越えないので、ステップS38よりステップ39に至る。該ステップ39では、前記表1において、話速倍率Nを現在の値から1つ左へシフトする。これによって、入力音声信号の時間軸の伸長率が以前より少し大きくなり、話速は以前より少し遅くなる。
【0092】
尚、メモリの蓄積量kによっても話速倍率Nが変更されることは既に説明した通りである。
【0093】
また、使用者によって停止の指示が与えられると装置は停止する(S43)。
【0094】
まとめると、この実施例においては、積算値Mが閾値Sより小さいときは[ゆっくり再生モード]における伸長率が少し大きくなるように自動的に選択され、積算値Mが閾値Sより大きいときは[ゆっくり再生モード]における伸長率が少し小さくなるように自動的に選択されるものである。
【0095】
次に、図6のフローチャートに基づいて本発明の第3の実施例について説明する。尚、装置の基本構成は前記図1及び図2に示したものと同じであり、その詳細な説明は割愛するが、本実施例では、閾値設定部5において、第1閾値S1と、これより大きい値に設定された第2閾値S2とを有している。
【0096】
上記図6において、先ず、前記の実施例と同様に使用者が前記モード選択部8の操作ボタン(図示せず)を操作してモードを選択する(S51)。一例として、前記表1に示した[ゆっくり再生モード1]を選択したものとする。これによって、モード選択部8より話速変換部7の話速制御部13へモード選択信号が与えられ、話速制御部13は与えられたモード選択信号に基づいて[ゆっくり再生モード1]に設定される。
【0097】
次に、蓄積量検出部17がメモリ15の蓄積量をチェックして蓄積量jを求め、蓄積量jの値を話速制御部13に与える(S52)。
【0098】
この時点では、メモリ15への符号化された音声信号の蓄積量が0であるとすると、前記表1より、話速倍率Nとして0.6[倍速]が初期値として設定され(S53)、該話速倍率N=0.6[倍速]にて話速変換処理が行われる。前記時間軸圧縮伸長部11で時間軸が伸長された音声信号は、音声符号化部14で符号化され、一端、メモリ15に蓄積された後、音声復号化部16で復号されて出力音声信号となる。
【0099】
また、ピッチ周期記憶部2の記憶内容(以下、変数名としてピッチ周期Tn-1とする)は初期化(クリア)される。
【0100】
こうして初期値としての話速倍率N(=0.6[倍速])が設定された後、ピッチ周期抽出部1が、前記数1に基づいて、入力音声信号のピッチ周期(以下、変数名としてピッチ周期Tnとする)を抽出する(S54)。一例として、例えばピッチ周期Tn=60[サンプル]が求められたとする。
【0101】
前記ピッチ周期抽出部1で抽出されたピッチ周期Tnとピッチ周期記憶部2に記憶されているピッチ周期Tn-1とをピッチ周期比較部3で比較する(S55)。
【0102】
然し乍ら、前記したようにピッチ周期記憶部2の記憶内容がクリアされているので、ステップS62へ進み、そしてカウンタ4のカウント値Cを初期化(クリア)して0にし、さらにピッチ周期Tnの値(=60[サンプル])はピッチ周期記憶部2に記憶されて新たにピッチ周期Tn-1の値となり(S63)、処理はステップS63を経てステップS52へ戻される。
【0103】
そして、再びメモリの蓄積量jのチェック(S52)、及び前記蓄積量jに基づく話速倍率Nの設定が行われる(S53)。
【0104】
そして、再びピッチ周期Tnの抽出が行われ(S54)、例えばピッチ周期Tn=61[サンプル]が求められたとする。この抽出したピッチ周期Tn(=61[サンプル])とピッチ周期記憶部2に記憶されているピッチ周期Tn-1(=60[サンプル])とをピッチ周期比較部3で比較する(S55)。
【0105】
ここで、新たに抽出したピッチ周期Tn(=61[サンプル])とピッチ周期記憶部2に記憶されているピッチ周期Tn-1(=60[サンプル])が、Tn≒Tn-1という条件を満たすなら、カウンタ4のカウント値Cが1つインクリメントされる(S56)。
【0106】
そして、前記ピッチ周期抽出部1で抽出したピッチ周期Tn(=61[サンプル])とカウンタ4のカウント値C(=1)を積算して積算値M(=61)を求め(S57)、これを比較部6に与える。
【0107】
比較部6は、前記積算値Mと閾値設定部5で設定されている第1閾値S1(例えば1000とする)及び第2閾値S2(例えば2000とする)とを比較する(S58)。前記したように、積算値M=61であるので、第1閾値S1よりも小さく、よって話速制御部13は入力信号の伸長率を少し大きくするように変更する(S59)。即ち、前記表1において、現在の値(話速倍率N)を1つ左の値にシフトして設定する。
【0108】
上記の各実施例と同様に、前記時間軸圧縮伸長部11で時間軸が伸長された音声信号は、音声符号化部14で符号化され、一端、メモリ15に蓄積された後、音声復号化部16で復号されて出力音声信号となる。
【0109】
そして、新たにピッチ周期Tnの値はピッチ周期記憶部2に記憶され(S63)、処理はステップS63を経てステップS52へ戻る。
【0110】
上記の如きステップS52→・・・・→ステップS64を経てステップ52へ戻るループ処理において、前記ループ処理が繰り返され、積算値Mが第1閾値S1と第2閾値S2の間になった場合、ステップS60に至るが、この場合は話速倍率Nの値の変更は行われない。
【0111】
上記の如きステップS52→・・・・→ステップS64を経てステップ52へ戻るループ処理において、入力音声信号がゆっくり話した場合の音声信号の場合、前記ループ処理が繰り返され、やがてステップS58において、前記積算値Mが閾値設定部5で設定されている第2閾値S2を越え、ステップS61に至る。該ステップ61では、前記表1において、話速倍率Nを現在の値から1つ右へシフトする。これによって、入力音声信号の時間軸の伸長率が以前より少し小さくなり、話速は以前より少し速くなる。
【0112】
逆に、入力音声信号が早口の音声信号の場合、前記積算値Mが閾値設定部5で設定されている第1閾値S1より小さくなるので、ステップS58よりステップ59に至る。該ステップ59では、前記表1において、話速倍率Nを現在の値から1つ左へシフトする。これによって、入力音声信号の時間軸の伸長率が以前より少し大きくなり、話速は以前より少し遅くなる。
【0113】
尚、メモリの蓄積量kによっても話速倍率Nが変更されることは既に説明した通りである。
【0114】
また、使用者によって停止の指示が与えられると装置は停止する(S64)。
【0115】
まとめると、この実施例においては、積算値Mが第1閾値S1より小さいときは[ゆっくり再生モード]における伸長率が少し大きくなるように自動的に選択され、積算値Mが第2閾値S2(但し、第1閾値S1<第2閾値S2)より大きいときは[ゆっくり再生モード]における伸長率が少し小さくなるように自動的に選択され、積算値Mが第1閾値S1と第2閾値との間にあるときには[ゆっくり再生モード]における伸長率を変更しないものである。
【0116】
さらに、図7のフローチャートに基づいて本発明の第4の実施例について説明する。尚、装置の基本構成は前記図1及び図2に示したものと同じであり、その詳細な説明は割愛するが、本実施例では、前記第3の実施例と同様に、閾値設定部5において、第1閾値S1と、これより大きい値に設定された第2閾値S2とを有している。
【0117】
それに加えて、以下の表2に示すように、前記表1に示した[ゆっくり再生モード]の他に[早口再生モード]が追加されている。この[早口再生モード]も、[ゆっくり再生モード]と同様に、1〜4の4つのモードを備えている。
【0118】
【表2】
Figure 0003691304
【0119】
前記図7において、先ず、前記の実施例と同様に使用者が前記モード選択部8の操作ボタン(図示せず)を操作してモードを選択する(S71)。この実施例では、[ゆっくり再生モード]と[早口再生モード]とを有しているので、夫々のモードについて、4つのモードの中から1つずつ選択する。ここでは一例として、前記表1に示した[ゆっくり再生モード1]及び前記表2に示した[早口再生モード1]を選択したものとする。これによって、モード選択部8より話速変換部7の話速制御部13へモード選択信号が与えられ、話速制御部13は与えられたモード選択信号に基づいて、[ゆっくり再生モード1]及び[早口再生モード1]に対する設定情報が与えられる。
【0120】
次に、蓄積量検出部17がメモリ15の蓄積量をチェックして蓄積量jを求め、蓄積量jの値を話速制御部13に与えるが(S72)、前記の各実施例とは異なり、この時点では、話速倍率Nとして1.0[倍速](即ち、[通常再生モード])が初期値として設定される(S73)。
【0121】
また、ピッチ周期記憶部2の記憶内容(以下、変数名としてピッチ周期Tn-1とする)は初期化(クリア)される。
【0122】
こうして初期値としての話速倍率N(=1.0[倍速])が設定された後、ピッチ周期抽出部1が、前記数1に基づいて、入力音声信号のピッチ周期(以下、変数名としてピッチ周期Tnとする)を抽出する(S74)。一例として、例えばピッチ周期Tn=60[サンプル]が求められたとする。
【0123】
前記ピッチ周期抽出部1で抽出されたピッチ周期Tnとピッチ周期記憶部2に記憶されているピッチ周期Tn-1とをピッチ周期比較部3で比較する(S75)。
【0124】
然し乍ら、前記したようにピッチ周期記憶部2の記憶内容がクリアされているので、ステップS82へ進み、カウンタ4のカウント値Cを初期化(クリア)して0にし、ステップS80で[通常再生モード]が選択される(既にステップS73で[通常再生モード]が設定されているので、実質的にはモードの変更は無し)。
【0125】
また、ピッチ周期Tnの値(=60[サンプル])はピッチ周期記憶部2に記憶され、新たにピッチ周期Tn-1の値となり(S83)、処理はステップ84を経てステップS72へ戻される。
【0126】
そして、再びメモリの蓄積量jのチェック(S72)、及び前記蓄積量jに基づく話速倍率Nの設定が行われる(S73)。
【0127】
そして、再びピッチ周期Tnの抽出が行われ(S74)、例えばピッチ周期Tn=61[サンプル]が求められたとする。この抽出したピッチ周期Tn(=61[サンプル])とピッチ周期記憶部2に記憶されているピッチ周期Tn-1(=60[サンプル])とをピッチ周期比較部3で比較する(S75)。
【0128】
ここで、新たに抽出したピッチ周期Tn(=61[サンプル])とピッチ周期記憶部2に記憶されているピッチ周期Tn-1(=60[サンプル])が、Tn≒Tn-1という条件を満たすなら、カウンタ4のカウント値Cが1つインクリメントされる(S56)。
【0129】
そして、ピッチ周期抽出部1で抽出したピッチ周期Tn(=61[サンプル])とカウンタ4のカウント値C(=1)を積算して積算値M(=61)を求め(S77)、これを比較部6に与える。
【0130】
この実施例においても、前記第3の実施例と同様に、第1閾値S1と、これより大きい値に設定された第2閾値S2とを有している。そして、入力音声信号のピッチ周期Tnとカウンタ4のカウント値Cとの積算値Mが、前記第1閾値S1と第2閾値S2との間にある場合は標準的な話速の音声であると判断し、積算値Mが第1閾値S1より小さい場合は早口の音声であると判断し、積算値Mが第2閾値S1より大きい場合はゆっくり話した場合の音声であると判断するものである。
【0131】
比較部6は、前記積算値Mと閾値設定部5で設定されている第1閾値S1(例えば1000とする)及び第2閾値S2(例えば2000とする)とを比較する(S78)。前記したように、積算値M=61であるので、第1閾値S1よりも小さく、よって[ゆっくり再生モード]が選択される(S79)。尚、前記ステップS71において、[ゆっくり再生モード1]が[ゆっくり再生モード]における初期モードとして設定してあったので、[ゆっくり再生モード1]が次に変更すべきモードとして設定される。
【0132】
上記の各実施例と同様に、前記時間軸圧縮伸長部11で時間軸が伸長された音声信号は、音声符号化部14で符号化され、一端、メモリ15に蓄積された後、音声復号化部16で復号されて出力音声信号となる。
【0133】
そして、新たにピッチ周期Tnの値はピッチ周期記憶部2に記憶され(S83)、処理はステップ84を経てステップS72へ戻る。
【0134】
上記の如きステップS72→・・・・→ステップS84を経てステップ72へ戻るループ処理において、前記ループ処理が繰り返され、積算値Mが第1閾値S1と第2閾値S2の間になると、
ステップS80に至るが、この場合、話速倍率Nの値の変更は行われない。
【0135】
また、上記の如きステップS72→・・・・→ステップS84を経てステップ72へ戻るループ処理において、入力音声信号がゆっくり話した音声信号の場合、前記ループ処理が繰り返され、やがてステップS78において、前記積算値Mが閾値設定部5で設定されている第2閾値S2を越え、ステップS81に至る。該ステップ81では、次に変更すべきモードとして[早口再生モード]を選択する。前記ステップS71において、[早口再生モード1]が[早口再生モード]における初期モードとして設定してあったので、[早口再生モード1]が次に変更すべきモードとして設定される。
【0136】
モードの設定後、前記と同様にピッチ周期Tnの値(=61[サンプル])はピッチ周期記憶部2に記憶され、新たにピッチ周期Tn-1の値となり(S83)、処理はステップS72へ戻される。
【0137】
そして、再びメモリの蓄積量jのチェック(S72)、及び前記蓄積量jに基づく話速倍率Nの設定が行われる(S73)。該ステップS73において、メモリの蓄積量jに応じて、前記表2の話速倍率Nの値が適宜変更される。
【0138】
逆に、入力音声信号が早口の音声信号の場合、前記積算値Mが閾値設定部5で設定されている第1閾値S1より小さくなるので、ステップS78よりステップ79に至る。該ステップ79では、次に変更すべきモードとして[ゆっくり再生モード]を選択する。前記ステップS71において、[ゆっくり再生モード1]が[ゆっくり再生モード]における初期モードとして設定してあったので、[ゆっくり再生モード1]が次に変更すべきモードとして設定される。
【0139】
前記のようにモードの設定後、前記と同様にピッチ周期Tnの値はピッチ周期記憶部2に記憶され、新たにピッチ周期Tn-1の値となり(S83)、さらに時間軸の圧縮も伸長も成されていない音声信号が前記時間軸圧縮伸長部11より出力され、音声符号化部14で符号化され、一端、メモリ15に蓄積された後、音声復号化部16で復号されて出力音声信号となる。そして、その後処理はステップS72へ戻される。
【0140】
そして、再びメモリの蓄積量jのチェック(S72)、及び前記蓄積量jに基づく話速倍率Nの設定が行われる(S73)。該ステップS73において、メモリの蓄積量jに応じて、前記表1の話速倍率Nの値が適宜変更される。
【0141】
尚、メモリの蓄積量kによっても話速倍率Nが変更されることは既に説明した通りである。
【0142】
また、使用者によって停止の指示が与えられると装置は停止する(S33)。
【0143】
まとめると、この実施例においては、積算値Mが第1閾値S1より小さいときは[ゆっくり再生モード]が自動的に選択され、積算値Mが第2閾値S2(但し、第1閾値S1<第2閾値S2)より大きいときは[早口再生モード]が自動的に選択され、積算値Mが第1閾値S1と第2閾値との間にあるときには[通常再生モード]が自動的に選択されるものである。
【0144】
さらに、図8は、前記図1に示した話速変換装置に閾値設定部5で設定される閾値を使用者が変更するための閾値変更操作部18を設けたものである。音声を聴いたときに、早口で聴き取り難いと感じたり、逆にゆっくりすぎると感じる感覚には個人差がある。従って、使用者は前記閾値変更操作部18によって、自動的に話速を変更するための判断の基準となる前記閾値S、もしくは第1閾値S1及び第2閾値S2を変更し、自動的に自分に適した話速に設定されるように調整することができる。尚、閾値変更操作部18は、[+]操作キー及び[−]操作キー、あるいは[up]操作キー及び[down]操作キーなど、種々の操作キーや、ジョグダイヤルやスライドレバーなど、種々の形態で構成することができる。さらには、複数のボタン等([速く]、[少し速く]、[普通]、[少し遅く]、[遅く]等)を設け、これらに閾値を設定しておき、使用者がその中から選択するようにしてもよい。
【0145】
続いて図9は、本発明の第5の実施例の動作を示すフローチャートであり、これは前記図4に示した話速変換装置の動作を示すフローチャートに閾値Sを使用者が変更・設定する処理であるステップS24を追加したものである。また、前記図4に示した処理と同一の部分には同一の符号を付し、その詳細な説明は割愛する。
【0146】
ステップ11において使用者がモード(前記表1に示したゆっくり再生モード1〜4のいずれか)を選択した後、続く次のステップ24において閾値変更操作部18を操作して閾値Sを変更することができる。
【0147】
また、図10は、本発明の第6の実施例の動作を示すフローチャートであり、前記図5に示した話速変換装置の動作を示すフローチャートに閾値Sを使用者が変更・設定する処理であるステップS44を追加したものである。また、前記図5に示した処理と同一の部分には同一の符号を付し、その詳細な説明は割愛する。
【0148】
ステップ31において使用者がモード(前記表1に示したゆっくり再生モード1〜4のいずれか)を選択した後、続く次のステップ44において閾値変更操作部18を操作して閾値Sを変更することができる。
【0149】
次に、図11は、本発明の第7の実施例の動作を示すフローチャートであり、前記図6に示した話速変換装置の動作を示すフローチャートに第1閾値S1及び第2閾値S2を使用者が変更・設定する処理であるステップS64を追加したものである。また、前記図6に示した処理と同一の部分には同一の符号を付し、その詳細な説明は割愛する。
【0150】
ステップ51において使用者がモード(前記表1に示したゆっくり再生モード1〜4のいずれか)を選択した後、続く次のステップ64において閾値変更操作部18を操作して第1閾値S1及び第2閾値S2を変更することができる。
【0151】
さらに、図12は、本発明の第8の実施例の動作を示すフローチャートであり、前記図7に示した話速変換装置の動作を示すフローチャートに第1閾値S1及び第2閾値S2を使用者が変更・設定する処理であるステップS85を追加したものである。また、前記図7に示した処理と同一の部分には同一の符号を付し、その詳細な説明は割愛する。
【0152】
ステップ71において使用者がモード(前記表1に示したゆっくり再生モード1〜4のいずれか、あるいは前記表2に示した早口再生モード1〜4のいずれか)を選択した後、続く次のステップ85において閾値変更操作部18を操作して第1閾値S1及び第2閾値S2を変更することができる。
【0153】
尚、前記各実施例においては、作図の都合上、モード選択や閾値設定の処理がフローチャートの冒頭部分にのみ存在するが、これらは話速変換処理中においても適宜変更できるように構成してもよい.
さらに、上記の各実施例においては、第1の閾値及び第2の閾値の両方を変更するように構成しているが、いずれか一方を変更できるように構成してもよい。
【0154】
【発明の効果】
以上、詳述した如く本発明に依れば、入力された音声信号が早口で話した時の音声信号かどうかを判断し、早口で話した時の音声信号に対してのみ話速変換処理によってゆっくりした音声信号に変換することができるので、入力された音声信号がゆっくり話した音声信号の場合に話速変換処理されてさらにゆっくり話した音声信号に話速変換されるということがない。
【0155】
また、本発明に依れば、話速に応じて話速変換処理の倍率が適宜変更される。
【0156】
さらに、本発明に依れば、話速に応じて話速変換処理の倍率が適宜変更されるだけでなく、標準的な速度で話した音声信号に対しては話速変換処理が成されない。
【0157】
そして、本発明に依れば、早口の音声信号に対してはゆっくり話した音声信号に変換するべく話速変換処理が行われ、ゆっくり話した音声信号に対しては早口の音声信号にするべく話速変換処理が行われ、さらに標準的な速度で話した音声信号に対しては話速変換処理が成されない。
【図面の簡単な説明】
【図1】本発明の話速変換装置の構成を示す概略ブロック図である。
【図2】本発明の話速変換装置における話速変換部の構成を示す概略ブロック図である。
【図3】本発明の話速変換装置の動作を説明するための図である。
【図4】本発明の話速変換装置の動作を説明するためのフローチャートである。
【図5】本発明の第2の実施例の動作を説明するためのフローチャートである。
【図6】本発明の第3の実施例の動作を説明するためのフローチャートである。
【図7】本発明の第4の実施例の動作を説明するためのフローチャートである。
【図8】本発明の他の実施例の話速変換装置の構成を示す概略ブロック図である。
【図9】本発明の第5の実施例の動作を説明するためのフローチャートである。
【図10】本発明の第6の実施例の動作を説明するためのフローチャートである。
【図11】本発明の第7の実施例の動作を説明するためのフローチャートである。
【図12】本発明の第8の実施例の動作を説明するためのフローチャートである。
【符号の説明】
1 ピッチ周期抽出部
2 ピッチ周期記憶部
3 ピッチ周期比較部
4 カウンタ
5 閾値設定部
6 比較部
7 話速変換部
8 モード選択部
11 音声時間軸圧縮伸長部
12 無音区間検出部
13 話速制御部
14 音声符号化部
15 メモリ
16 音声復号化部
17 蓄積量検出部
18 閾値変更操作部

Claims (11)

  1. 音声信号よりピッチ周期を検出するピッチ周期検出手段と、
    該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、
    当該同一ピッチ波形の繰り返し回数を計数する計数手段と、
    前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の閾値と比較する比較判定手段と、
    前記積の値が前記所定の閾値を超えない場合には、今回のピッチ波形に対して、ゆっくりとした音声信号となるような話速変換処理を行い、
    前記積の値が前記所定の閾値を超える場合には、前記話速変換処理を行わないようにする話速変換手段と、
    を備えたことを特徴とする話速変換装置。
  2. 音声信号よりピッチ周期を検出するピッチ周期検出手段と、
    該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、
    当該同一ピッチ波形の繰り返し回数を計数する計数手段と、
    前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の閾値と比較する比較判定手段と、
    前記所定の閾値を変更する閾値変更手段と、
    前記積の値が前記所定の閾値を超えない場合には、今回のピッチ波形に対して、ゆっくりとした音声信号となるような話速変換処理を行い、
    前記積の値が前記所定の閾値を超える場合には、前記話速変換処理を行わないようにする話速変換手段と、
    を備えたことを特徴とする話速変換装置。
  3. 音声信号よりピッチ周期を検出するピッチ周期検出手段と、
    該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、
    当該同一ピッチ波形の繰り返し回数を計数する計数手段と、
    前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の閾値と比較する比較判定手段と、
    前記積の値が前記所定の閾値を超えない場合には、話速倍率を小さくし、前記積の値が前記所定の閾値を超える場合には、話速倍率を大きくして、話速変換処理を行う話速変換手段と、
    を備えたことを特徴とする話速変換装置。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
  4. 音声信号よりピッチ周期を検出するピッチ周期検出手段と、
    該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、
    当該同一ピッチ波形の繰り返し回数を計数する計数手段と、
    前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の閾値と比較する比較判定手段と、
    前記所定の閾値を変更する閾値変更手段と、
    前記積の値が前記所定の閾値を超えない場合には、話速倍率を小さくし、前記積の値が前記所定の閾値を超える場合には、話速倍率を大きくして、話速変換処理を行う話速変換手段と、
    を備えたことを特徴とする話速変換装置。(但し、話速倍率=入力音声信号の時間長/ 出力音声信号の時間長)
  5. 音声信号よりピッチ周期を検出するピッチ周期検出手段と、
    該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、
    当該同一ピッチ波形の繰り返し回数を計数する計数手段と、
    前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の第1の閾値及び所定の第2の閾値と比較する比較判定手段と、
    前記積の値が、前記所定の第1の閾値より小さい場合には話速倍率を小さくし、前記所定の第2の閾値より大きい場合には話速倍率を大きくして、話速変換処理を行う話速変換手段と、
    を備えたことを特徴とする話速変換装置。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長、第1の閾値<第2の閾値)
  6. 音声信号よりピッチ周期を検出するピッチ周期検出手段と、
    該ピッチ周期検出手段が抽出した今回のピッチ周期と、1つ前に抽出したピッチ周期との同一性の判断によって、同一ピッチ波形が繰り返されているかどうかを判断し、繰り返されていると判断された場合に、
    当該同一ピッチ波形の繰り返し回数を計数する計数手段と、
    前記ピッチ周期検出手段が抽出した今回のピッチ周期と前記計数手段で計数されている繰り返し回数との積を、所定の第1の閾値及び所定の第2の閾値と比較する比較判定手段と、
    前記所定の第1の閾値または所定の第2の閾値を変更する閾値変更手段と、
    前記積の値が、前記所定の第1の閾値より小さい場合には話速倍率を小さくし、前記所定の第2の閾値より大きい場合には話速倍率を大きくして、話速変換処理を行う話速変換手段と、
    を備えたことを特徴とする話速変換装置。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長、第1の閾値<第2の閾値)
  7. 前記話速変換手段は、前記比較判定手段において、
    前記積の値が、前記所定の第1の閾値以上であって前記所定の第2の閾値以下である場合には話速変換処理を行わないようにすることを特徴とする請求項5又は6記載の話速変換装置。
  8. 前記話速変換手段は、前記比較判定手段において、
    前記積の値が前記所定の第1の閾値より小さい場合には話速倍率を1より小さくし、前記所定の第2の閾値より大きい場合には話速倍率を1より大きくして、話速変換処理を行うことを特徴とする請求項5乃至請求項7記載の話速変換装置。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
  9. 前記話速変換手段は、前記比較判定手段において、
    前記積の値が前記所定の第1の閾値より小さい場合には、話速変換した音声信号を蓄積する蓄積手段の空容量が増加するのに応じて話速倍率を1より小さい所定の倍率に近づけるように変更し、
    前記積の値が前記所定の第2の閾値より大きい場合には、話速変換した音声信号を蓄積する蓄積手段の空容量が増加するのに応じて話速倍率を1より大きい所定の倍率に近づけるように変更することを特徴とする請求項8記載の話速変換装置。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
  10. 前記話速変換手段は、話速変換した音声信号を蓄積する蓄積手段の空容量が増加するのに応じて、話速倍率を1より小さい所定の倍率に近づけるように変更することを特徴とする請求項1乃至請求項7記載の話速変換装置。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
  11. 前記話速変換手段は、話速変換した音声信号を蓄積する蓄積手段の空 容量が減少するのに応じて、話速倍率を1に近づけるように変更することを特徴とする請求項1乃至請求項10記載の話速変換装置。(但し、話速倍率=入力音声信号の時間長/出力音声信号の時間長)
JP25185899A 1999-08-03 1999-09-06 話速変換装置 Expired - Lifetime JP3691304B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25185899A JP3691304B2 (ja) 1999-08-03 1999-09-06 話速変換装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP21995399 1999-08-03
JP11-219953 1999-08-03
JP25185899A JP3691304B2 (ja) 1999-08-03 1999-09-06 話速変換装置

Publications (2)

Publication Number Publication Date
JP2001109499A JP2001109499A (ja) 2001-04-20
JP3691304B2 true JP3691304B2 (ja) 2005-09-07

Family

ID=26523429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25185899A Expired - Lifetime JP3691304B2 (ja) 1999-08-03 1999-09-06 話速変換装置

Country Status (1)

Country Link
JP (1) JP3691304B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001255894A (ja) * 2000-03-13 2001-09-21 Sony Corp 再生速度変換装置及び方法
WO2006008810A1 (ja) 2004-07-21 2006-01-26 Fujitsu Limited 速度変換装置、速度変換方法及びプログラム
US9032472B2 (en) 2008-06-02 2015-05-12 Koninklijke Philips N.V. Apparatus and method for adjusting the cognitive complexity of an audiovisual content to a viewer attention level

Also Published As

Publication number Publication date
JP2001109499A (ja) 2001-04-20

Similar Documents

Publication Publication Date Title
JP4146489B2 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JP3017715B2 (ja) 音声再生装置
WO1998041976A1 (fr) Procede et dispositif permettant de modifier la vitesse des sons vocaux
EP1692799B1 (en) Automatic extraction of musical portions of an audio stream
JP4523257B2 (ja) 音声データ処理方法、プログラム及び音声信号処理システム
US8457322B2 (en) Information processing apparatus, information processing method, and program
US6999922B2 (en) Synchronization and overlap method and system for single buffer speech compression and expansion
JP3402748B2 (ja) 音声信号のピッチ周期抽出装置
JP3691304B2 (ja) 話速変換装置
JP3220043B2 (ja) 話速変換方法およびその装置
JP3378672B2 (ja) 話速変換装置
US20040267524A1 (en) Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
JP2001255894A (ja) 再生速度変換装置及び方法
JP3803302B2 (ja) 映像要約装置
JP3373933B2 (ja) 話速変換装置
JP3162945B2 (ja) ビデオテープレコーダ
JP3422716B2 (ja) 話速変換方法および装置および話速変換プログラムを格納した記録媒体
JPH10301594A (ja) 有音検出装置
JP3081469B2 (ja) 話速変換装置
JP4442239B2 (ja) 音声速度変換装置と音声速度変換方法
JPH0962298A (ja) 音声信号時間軸圧縮装置及び音声信号時間軸伸長装置並びに該装置を用いた音声符号・復号化装置
JP3357742B2 (ja) 話速変換装置
JP3941421B2 (ja) 音響機器及び携帯電話並びにそれらの制御方法
JPH09146587A (ja) 話速変換装置
JP2002297200A (ja) 話速変換装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050127

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050615

R151 Written notification of patent or utility model registration

Ref document number: 3691304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080624

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090624

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090624

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100624

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110624

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110624

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120624

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130624

Year of fee payment: 8

EXPY Cancellation because of completion of term