JP2001134299A

JP2001134299A - 話速変換装置

Info

Publication number: JP2001134299A
Application number: JP31767799A
Authority: JP
Inventors: Naoya Iwasaki; 直哉岩崎; Tatsuo Inoue; 健生井上
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1999-11-09
Filing date: 1999-11-09
Publication date: 2001-05-18

Abstract

(57)【要約】【課題】入力された音声信号をゆっくりした聞きやす
い話速に変換する話速変換装置において、元々早口でな
く、ゆっくりした話速であってもさらに遅く話速変換さ
れて、煩わしいといった問題を解決する。【解決手段】入力された音声信号に基づいて、話速検
出部６にて音声認識し、認識した音声信号の時間長を求
め、さらにこの時間長と標準パターンの時間長を比較し
て時間長比Ｓを求め、これを適応話速変換制御部８へ与
える。与えられた時間長比Ｓに基づいて、適応話速変換
制御部８が適切な話速情報Ｎを求め、これを時間軸伸長
部２へ与える。時間軸伸長部２は、与えられた話速情報
Ｎ基づいて、入力音声信号の時間軸長を変換し、話速変
換が行われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声信号の話速
を変える話速変換装置に関し、例えば、映像を伴うテレ
ビ、レーザディスク、ＶＴＲ等の音声の早聞きまたは遅
聞きを行なう音声再生装置、聴覚障害者や高齢者のため
に、放送される音声信号をゆっくりした聞きやすい音声
に変換する聴覚補助装置及び該装置を備えた電話機等の
機器、さらにはネイティブスピードで話された英語音声
をゆっくりした聞きやすい音声に変換する英語学習器
等、種々の機器にて利用が可能な話速変換装置に関す
る。

【０００２】尚、一般に、話速変換とは、音声信号の時
間軸を圧縮してその再生速度を本来の速度よりも速くし
たり、あるいは逆に音声信号の時間軸を伸長してその再
生速度を本来の速度よりも遅くしたりすることを言う。

【０００３】

【従来の技術】従来、例えば特開平７−１９２３９２号
公報に開示されているように、入力音声信号が音声区間
であるか無音区間であるかに応じて、入力音声信号に対
して時間軸の伸長処理または無音区間削除処理を行なう
ように成された話速変換装置が知られている。

【０００４】

【発明が解決しようとする課題】然し乍ら、上記従来の
話速変換装置では、入力音声信号の話速に関わらず一様
に話速を遅くしていたため、元々早口でなく、ゆっくり
した話速であっても話速変換装置によって、さらに遅く
なったりして、大変煩わしいといった問題があった。

【０００５】

【課題を解決するための手段】上記課題を解決するため
本発明では、入力音声信号に基づいて音声認識する音声
認識手段と、該音声認識手段で音声認識した入力音声信
号の時間長を検出する時間長検出手段と、該時間長検出
手段が検出した時間長と所定の基準時間長とを比較する
比較手段と、該比較手段の比較結果に基づいて前記入力
音声信号の時間軸長を所定の時間軸長へ変換する時間軸
長変換手段とを備えたことを特徴とする。

【０００６】また本発明では、入力音声信号に基づいて
音声認識する音声認識手段と、該音声認識手段で音声認
識した入力音声信号の時間長を検出する時間長検出手段
と、該時間長検出手段が検出した時間長と所定の基準時
間長とを比較する比較手段と、該比較手段の比較結果に
基づいて前記入力音声信号の話速を所定の話速へ変換す
る話速変換手段と、該話速変換手段によって話速変換さ
れた音声信号のデータを蓄積する蓄積手段と、該蓄積手
段に蓄積された前記音声信号データの蓄積量を検出する
蓄積量検出手段と、前記比較手段の比較結果及び前記蓄
積量検出手段の検出結果に基づいて前記入力音声信号の
時間軸長を所定の時間軸長へ変換する時間軸長変換手段
とを備えたことを特徴とする。

【０００７】また本発明では、前記時間軸長変換手段
は、前記蓄積手段における空き容量の変化に応じて入力
音声信号の時間軸長の変換の度合いを変更することを特
徴とする。

【０００８】また本発明では、前記時間軸長変換手段
は、前記蓄積手段の空き容量が所定量以下になったとき
には時間軸長の変換を行わないことを特徴とする。

【０００９】また本発明では、前記音声認識手段は、音
声信号の標準パターンが登録された標準パターンデータ
ベースを備え、前記入力音声信号と前記標準パターンデ
ータベースに登録された標準パターンとの比較に基づい
て音声認識することを特徴とする。

【００１０】また本発明では、前記音声認識手段は、動
的計画法によって音声認識することを特徴とする。

【００１１】また本発明では、前記比較手段は、前記音
声認識手段によって音声認識された入力音声信号の時間
長と前記標準パターンデータベースに登録された標準パ
ターンの時間長とを比較することを特徴とする。

【００１２】

【発明の実施の形態】以下、図面に基づいて本発明の一
実施形態について詳述する。

【００１３】先ず、図1は本発明の話速変換装置の構成
を示すブロック図である。同図において、１は入力され
たアナログの音声信号をディジタルの音声信号へ変換す
るＡ／Ｄ変換部、２は前記Ａ／Ｄ変換部２で変換された
ディジタルの音声信号に対して時間軸伸長の処理を行っ
て出力する時間軸伸長部、３は前記時間軸伸長部２より
出力される時間軸伸長されたディジタルの音声信号を蓄
積する音声データメモリ、４は前記音声データメモリに
蓄積されたディジタルの音声信号をアナログの音声信号
へ変換するＤ／Ａ変換部である。

【００１４】また、５は前記Ａ／Ｄ変換部１が出力する
ディジタルの音声信号中の無音区間を検出し、無音区間
情報を出力する無音区間検出部、６は前記Ａ／Ｄ変換部
１が出力するディジタルの音声信号に基づいて、後述す
る時間長比Ｓを出力する話速検出部、７は前記音声デー
タメモリ３における音声データの蓄積量をチェックし、
蓄積量情報を出力する蓄積量検出部、８は前記話速検出
部６からの時間長比Ｓ及び前記蓄積量検出部からの蓄積
量情報に基づいて、後述する話速情報Ｎを演算する適応
話速制御部である。

【００１５】そして、前記無音区間検出部５からの無音
区間情報は、前記音声時間軸伸長部２へ与えられ、該音
声時間軸伸長部２において、前記無音区間情報に基づい
て、音声信号より無音区間を適宜削除する。

【００１６】さらに、前記時間軸伸長部２で用いられる
音声信号の時間軸圧縮伸長処理としては、例えば、ポイ
ンター移動量制御による重複加算法（ＰＩＣＯＬＡ：Po
inter Interval Control Overlap and Add ）やＴＤＨ
Ｓ(Time Domain Harmonic Scaling)法等の既知の方法が
利用できるが、これら限られるものではなく、要するに
音声信号の時間軸を伸長してその話速（再生速度）をゆ
っくりした話速に変換できるものであればよい。

【００１７】続いて、図２は前記話速検出部６の構成を
示すブロック図である。同図に示すように、話速検出部
６は、標準パターンデータベース２１を備えており、該
標準パターンデータベース２１には、「もしもし」、
「こんにちわ」、「おはようございます」、「いつもお
せわになっております」等の各種標準パターン（の音声
信号データ）が登録されている。尚、各種標準パターン
は、予めＲＯＭ等に登録されていてもよいし、使用者が
適宜登録を行えるようにしておいてもよい。この場合、
使用者が登録した標準パターンの話速に基づいて話速の
判定（詳細は後述）が行えるため、予め自分の好みの話
速で登録しておけばよい。

【００１８】次に、２２は前記Ａ／Ｄ変換部１を介して
入力された音声信号と前記標準パターンデータベース２
１に登録された各種標準パターンとを比較し、各種標準
パターンのいずれかに一致する音声信号があるか検出す
る音声認識部である。

【００１９】ここで、各種標準パターンと入力された音
声信号との比較は、例えば音声認識技術の１つである動
的計画法（一般にＤＰマッチングと呼ばれる、ＤＰ：Dy
namic Programming）によって行われる。動的計画法の
場合、入力される音声信号と標準パターンとの時間長が
異なっていても音声認識がある程度可能なため、本発明
では動的計画法を採用した。然し乍ら、これに限定され
ず他の方法であっても構わない。

【００２０】そして、２３は前記音声認識部２２で各種
標準パターンのいずれかに一致する音声信号が検出され
た場合に時間長比Ｓを求める時間長比演算部である。前
記時間長比Ｓは、ある標準パターンの時間長をＴ１、こ
の標準パターンに一致した音声信号の時間長をＴ２とす
ると、下記の式１で求められる。

【００２１】

【数１】

【００２２】従って、求められた時間長比Ｓが１よりも
小さい値の場合は、標準パターンよりも音声信号の話速
が早いものと判断でき、逆に時間長比Ｓが１よりも大き
い値の場合は、標準パターンよりも音声信号の話速が遅
いものと判断できる。

【００２３】一例をあげると、ある標準パターンの時間
長Ｔ１が１．０秒、これに一致した音声信号の時間長Ｔ
２が０．８秒だった場合、時間長比Ｓ＝０．８／１．０
＝０．８となる。この値を前記図１に示した適応話速制
御部８に与える。

【００２４】然し乍ら、聴き易い話速には個人差がある
ため、基準となる標準パターンの時間長に係数αを乗算
し、基準となる標準パターンの実質的な時間長を使用者
が適宜変更できるようにしてもよい。この場合、時間長
比Ｓは下記の式２によって求められる。

【００２５】

【数２】

【００２６】尚、上記式２において、係数αの値を１に
すれば前記式１と同等になる。よって、使用者によって
特に係数の変更の指示が無い場合には係数αの初期値と
してα＝１に設定しても良い。

【００２７】また、標準パターンに一致した音声信号の
時間長Ｔ２＞標準パターンの時間長Ｔ１（もしくはＴ１
・α）の場合は、前記式１及び式２によって求められた
時間長比Ｓが１より大きくなる。この場合、入力音声信
号が標準よりも遅いのであって、これ以上遅くする必要
が無い。従って、時間長比Ｓが１より大きい場合は、時
間長比Ｓ＝１に設定（話速変換しないことを意味する）
する。

【００２８】さらに、時間長比Ｓは、過去に求めた最新
の１０回分の時間長比Ｓの平均値を求め、この平均値を
用いるようにしてもい。この場合、入力される音声信号
の部分的な変動の影響を受けにくくなる。

【００２９】前記図１に戻って、８は前記話速検出部６
からの時間長比Ｓ及び前記蓄積量検出部７からの蓄積量
情報とに基づいて話速を決定し、話速情報Ｎとして出力
する適応話速制御部であり、該適応話速制御部８が出力
する話速情報Ｎは前記時間軸伸長部２へ与えられ、該与
えられた話速情報Ｎに基づいて時間軸伸長部２は音声信
号の時間軸の伸長の処理を行う。

【００３０】前記話速情報Ｎは、時間軸の伸長処理を行
う前の音声信号の時間長をＶ１、伸長処理後の音声信号
の時間長をＶ２とすると、以下の式３のように定義され
る。

【００３１】

【数３】

【００３２】従って、話速情報Ｎが１よりも大きい値の
ときは本来の音声信号（時間軸の伸長処理を行う前の音
声信号）よりも速い話速に変更したことを意味し、逆に
話速情報Ｎが１よりも小さい値のときは本来の音声信号
よりも遅い話速に変更したことを意味する。

【００３３】一例をあげると、時間長が５秒の音声信号
を時間軸伸長処理して１０秒にした場合、話速情報Ｎ＝
５／１０＝０．５（倍速）に変更したことを意味する。

【００３４】さらに、蓄積量検出部７からの蓄積量情報
に応じて決定される係数をβとすると、話速情報Ｎは下
記式４によって求められる。

【００３５】

【数４】

【００３６】ここで係数βについて補足すると、蓄積量
検出部７からの蓄積量情報により音声データメモリ３の
空き容量が所定量より多いと判断されたときは係数βの
値は１とする。これによって話速検出部６からの時間長
比Ｓの値がそのまま話速情報Ｎの値となる。一例とし
て、係数βの値は下表のように設定される。

【００３７】

【表１】

【００３８】尚、上記表１において、ａ及びｂの値は、
１〜［１／Ｓ］の間を略均等分割するような値になるべ
く、求められたＳの値に応じて都度決定される。

【００３９】然し乍ら、音声データメモリ３の空き容量
が減少するにつれて、前記表１に示したように、係数β
の値が時間長比１／Ｓの値に近づくように変更される。
これによって話速情報Ｎが徐々に１に近づくようにな
る。そして、音声データメモリ３の空き容量が０に至る
と、βの値が時間長比１／Ｓの値と等しくなり、よって
話速情報Ｎ＝１となって、時間軸伸長部２での話速変換
は行われなくなる。

【００４０】即ち、音声信号の時間軸の伸長の処理に必
要なだけの音声データメモリ３の空き容量が無い場合に
は、話速情報Ｎを１に近づけるように話速情報Ｎを１に
徐々に補正するように構成されている。

【００４１】尚、音声データメモリ３の空き容量が増え
るにつれて、係数βの値が１に近づくように徐々に補正
し、これによって徐々に話速情報Ｎが本来の補正前の値
に戻され、適切な話速変換処理が行われるようにする。

【００４２】続いて、図３のフローチャートに基づいて
本発明の話速変換装置の動作について説明する。

【００４３】先ず、音声信号の入力が開始されると（Ｓ
１）、前記蓄積量検出部７による音声データメモリ３に
おけるデータ蓄積量のチェックの処理（Ｓ２）及び、前
記話速検出部６における音声認識処理（ステップＳ３〜
ステップＳ５）が共に開始される。

【００４４】前記ステップＳ２において、蓄積量検出部
７が音声データメモリ３におけるデータ蓄積量をチェッ
クし、適応話速制御部８に対して蓄積量情報を出力す
る。該蓄積量情報は随時出力され、後述のステップＳ１
０で音声入力の終了が確認されるまで継続される。

【００４５】前記音声認識処理は、前記図２に示した標
準パターンデータベース２１より標準パターンの１つを
選択し（Ｓ３）、その後段の音声認識部２２が前記選択
された標準パターンと入力された音声信号との比較処理
（前述したようにＤＰマッチングが用いられる）を行い
（Ｓ４）、登録されている全ての標準パターンとの比較
が終了するまで比較処理が繰り返される（Ｓ５）。

【００４６】こうして入力された音声信号と全ての標準
パターンとの比較処理が行われると、入力された音声信
号と一致する標準パターンが決定され（Ｓ６）、時間長
比演算部２３が前記式（１）または式（２）に基づいて
時間長比Ｓを演算し（Ｓ７）、こうして求められた時間
長比Ｓを適応話速制御部８に与える。

【００４７】そして、適応話速制御部８は、前記蓄積量
検出部７からの蓄積量情報及び話速検出部６からの時間
長比Ｓを用いて、前記図１に示した適応話速制御部８が
前記式４に基づいて話速情報Ｎを演算する（Ｓ８）。
尚、前述したように音声データメモリ３の空き容量に応
じて係数βの値は適宜変更される。こうして求められた
話速情報Ｎは時間軸伸長部２へ与えられる。

【００４８】次に、時間軸伸長部２では、適応話速制御
部８から与えられた話速情報Ｎに基づき、入力音声信号
の時間軸を伸長処理し、後段の音声データメモリ３へ音
声信号データを順次格納する。そして音声データメモリ
３に格納された音声信号データは順次出力され、後段の
Ｄ／Ａ変換部でアナログの音声信号として出力される。
このようにして話速変換処理が行われる（Ｓ９）。

【００４９】尚、前述したように、入力音声信号中の無
音区間は無音区間検出部５からの無音区間情報に基づい
て適宜削除される。

【００５０】そして、音声信号の入力が終了すると話速
変換装置は処理を停止する（Ｓ１０）。

【００５１】

【発明の効果】以上、詳述した如く本発明に依れば、入
力音声信号に基づいて音声認識する音声認識手段と、該
音声認識手段で音声認識した入力音声信号の時間長を検
出する時間長検出手段と、該時間長検出手段が検出した
時間長と所定の基準時間長とを比較する比較手段と、該
比較手段の比較結果に基づいて前記入力音声信号の時間
軸長を所定の時間軸長へ変換する時間軸長変換手段とを
備えたので、比較手段の比較結果によって入力音声信号
が早口であるか、あるいはゆっくりした音声信号である
かがわかり、これに応じて時間軸長変換手段が入力音声
信号の時間軸長を所定の時間軸長へ変換して入力音声信
号を聞きやすい話速へ変換することができる。

【００５２】また、本発明に依れば、入力音声信号に基
づいて音声認識する音声認識手段と、該音声認識手段で
音声認識した入力音声信号の時間長を検出する時間長検
出手段と、該時間長検出手段が検出した時間長と所定の
基準時間長とを比較する比較手段と、該比較手段の比較
結果に基づいて前記入力音声信号の話速を所定の話速へ
変換する話速変換手段と、該話速変換手段によって話速
変換された音声信号のデータを蓄積する蓄積手段と、該
蓄積手段に蓄積された前記音声信号データの蓄積量を検
出する蓄積量検出手段と、前記比較手段の比較結果及び
前記蓄積量検出手段の検出結果に基づいて前記入力音声
信号の時間軸長を所定の時間軸長へ変換する時間軸長変
換手段とを備えたので、比較手段の比較結果によって入
力音声信号が早口であるか、あるいはゆっくりした音声
信号であるかがわかり、さらに蓄積手段の空き容量をも
考慮し、これらに応じて時間軸長変換手段が入力音声信
号の時間軸長を所定の時間軸長へ変換して入力音声信号
を聞きやすい話速へ変換することができる。

【図面の簡単な説明】

【図１】本発明の話速変換装置の構成を示す回路ブロッ
ク図。

【図２】話速検出部の構成を示す回路ブロック図。

【図３】本発明の話速変換装置の動作を示すフローチャ
ート。

【符号の説明】

１Ａ／Ｄ変換部２時間軸伸長部３音声データメモリ４Ｄ／Ａ変換部５無音区間検出部６話速検出部７蓄積量検出部８適応話速制御部２１標準パターンデータベース２２音声認識部２３時間長比演算部

Claims

【特許請求の範囲】

【請求項１】入力音声信号に基づいて音声認識する音
声認識手段と、該音声認識手段で音声認識した入力音声
信号の時間長を検出する時間長検出手段と、該時間長検
出手段が検出した時間長と所定の基準時間長とを比較す
る比較手段と、該比較手段の比較結果に基づいて前記入
力音声信号の時間軸長を所定の時間軸長へ変換する時間
軸長変換手段とを備えたことを特徴とする話速変換装
置。
【請求項２】入力音声信号に基づいて音声認識する音
声認識手段と、該音声認識手段で音声認識した入力音声
信号の時間長を検出する時間長検出手段と、該時間長検
出手段が検出した時間長と所定の基準時間長とを比較す
る比較手段と、該比較手段の比較結果に基づいて前記入
力音声信号の話速を所定の話速へ変換する話速変換手段
と、該話速変換手段によって話速変換された音声信号の
データを蓄積する蓄積手段と、該蓄積手段に蓄積された
前記音声信号データの蓄積量を検出する蓄積量検出手段
と、前記比較手段の比較結果及び前記蓄積量検出手段の
検出結果に基づいて前記入力音声信号の時間軸長を所定
の時間軸長へ変換する時間軸長変換手段とを備えたこと
を特徴とする話速変換装置。
【請求項３】前記時間軸長変換手段は、前記蓄積手段
における空き容量の変化に応じて入力音声信号の時間軸
長の変換の度合いを変更することを特徴とする請求項２
記載の話速変換装置。
【請求項４】前記時間軸長変換手段は、前記蓄積手段
の空き容量が所定量以下になったときには時間軸長の変
換を行わないことを特徴とする請求項２記載の話速変換
装置。
【請求項５】前記音声認識手段は、音声信号の標準パ
ターンが登録された標準パターンデータベースを備え、
前記入力音声信号と前記標準パターンデータベースに登
録された標準パターンとの比較に基づいて音声認識する
ことを特徴とする請求項１乃至請求項４記載の話速変換
装置。
【請求項６】前記音声認識手段は、動的計画法によっ
て音声認識することを特徴とする請求項１乃至請求項５
記載の話速変換装置。
【請求項７】前記比較手段は、前記音声認識手段によ
って音声認識された入力音声信号の時間長と前記標準パ
ターンデータベースに登録された標準パターンの時間長
とを比較することを特徴とする請求項１乃至請求項６記
載の話速変換装置。