JP2001134299A - 話速変換装置 - Google Patents

話速変換装置

Info

Publication number
JP2001134299A
JP2001134299A JP31767799A JP31767799A JP2001134299A JP 2001134299 A JP2001134299 A JP 2001134299A JP 31767799 A JP31767799 A JP 31767799A JP 31767799 A JP31767799 A JP 31767799A JP 2001134299 A JP2001134299 A JP 2001134299A
Authority
JP
Japan
Prior art keywords
speech
time length
length
time
time axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31767799A
Other languages
English (en)
Inventor
Naoya Iwasaki
直哉 岩崎
Tatsuo Inoue
健生 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP31767799A priority Critical patent/JP2001134299A/ja
Publication of JP2001134299A publication Critical patent/JP2001134299A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力された音声信号をゆっくりした聞きやす
い話速に変換する話速変換装置において、元々早口でな
く、ゆっくりした話速であってもさらに遅く話速変換さ
れて、煩わしいといった問題を解決する。 【解決手段】 入力された音声信号に基づいて、話速検
出部6にて音声認識し、認識した音声信号の時間長を求
め、さらにこの時間長と標準パターンの時間長を比較し
て時間長比Sを求め、これを適応話速変換制御部8へ与
える。与えられた時間長比Sに基づいて、適応話速変換
制御部8が適切な話速情報Nを求め、これを時間軸伸長
部2へ与える。時間軸伸長部2は、与えられた話速情報
N基づいて、入力音声信号の時間軸長を変換し、話速変
換が行われる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声信号の話速
を変える話速変換装置に関し、例えば、映像を伴うテレ
ビ、レーザディスク、VTR等の音声の早聞きまたは遅
聞きを行なう音声再生装置、聴覚障害者や高齢者のため
に、放送される音声信号をゆっくりした聞きやすい音声
に変換する聴覚補助装置及び該装置を備えた電話機等の
機器、さらにはネイティブスピードで話された英語音声
をゆっくりした聞きやすい音声に変換する英語学習器
等、種々の機器にて利用が可能な話速変換装置に関す
る。
【0002】尚、一般に、話速変換とは、音声信号の時
間軸を圧縮してその再生速度を本来の速度よりも速くし
たり、あるいは逆に音声信号の時間軸を伸長してその再
生速度を本来の速度よりも遅くしたりすることを言う。
【0003】
【従来の技術】従来、例えば特開平7−192392号
公報に開示されているように、入力音声信号が音声区間
であるか無音区間であるかに応じて、入力音声信号に対
して時間軸の伸長処理または無音区間削除処理を行なう
ように成された話速変換装置が知られている。
【0004】
【発明が解決しようとする課題】然し乍ら、上記従来の
話速変換装置では、入力音声信号の話速に関わらず一様
に話速を遅くしていたため、元々早口でなく、ゆっくり
した話速であっても話速変換装置によって、さらに遅く
なったりして、大変煩わしいといった問題があった。
【0005】
【課題を解決するための手段】上記課題を解決するため
本発明では、入力音声信号に基づいて音声認識する音声
認識手段と、該音声認識手段で音声認識した入力音声信
号の時間長を検出する時間長検出手段と、該時間長検出
手段が検出した時間長と所定の基準時間長とを比較する
比較手段と、該比較手段の比較結果に基づいて前記入力
音声信号の時間軸長を所定の時間軸長へ変換する時間軸
長変換手段とを備えたことを特徴とする。
【0006】また本発明では、入力音声信号に基づいて
音声認識する音声認識手段と、該音声認識手段で音声認
識した入力音声信号の時間長を検出する時間長検出手段
と、該時間長検出手段が検出した時間長と所定の基準時
間長とを比較する比較手段と、該比較手段の比較結果に
基づいて前記入力音声信号の話速を所定の話速へ変換す
る話速変換手段と、該話速変換手段によって話速変換さ
れた音声信号のデータを蓄積する蓄積手段と、該蓄積手
段に蓄積された前記音声信号データの蓄積量を検出する
蓄積量検出手段と、前記比較手段の比較結果及び前記蓄
積量検出手段の検出結果に基づいて前記入力音声信号の
時間軸長を所定の時間軸長へ変換する時間軸長変換手段
とを備えたことを特徴とする。
【0007】また本発明では、前記時間軸長変換手段
は、前記蓄積手段における空き容量の変化に応じて入力
音声信号の時間軸長の変換の度合いを変更することを特
徴とする。
【0008】また本発明では、前記時間軸長変換手段
は、前記蓄積手段の空き容量が所定量以下になったとき
には時間軸長の変換を行わないことを特徴とする。
【0009】また本発明では、前記音声認識手段は、音
声信号の標準パターンが登録された標準パターンデータ
ベースを備え、前記入力音声信号と前記標準パターンデ
ータベースに登録された標準パターンとの比較に基づい
て音声認識することを特徴とする。
【0010】また本発明では、前記音声認識手段は、動
的計画法によって音声認識することを特徴とする。
【0011】また本発明では、前記比較手段は、前記音
声認識手段によって音声認識された入力音声信号の時間
長と前記標準パターンデータベースに登録された標準パ
ターンの時間長とを比較することを特徴とする。
【0012】
【発明の実施の形態】以下、図面に基づいて本発明の一
実施形態について詳述する。
【0013】先ず、図1は本発明の話速変換装置の構成
を示すブロック図である。同図において、1は入力され
たアナログの音声信号をディジタルの音声信号へ変換す
るA/D変換部、2は前記A/D変換部2で変換された
ディジタルの音声信号に対して時間軸伸長の処理を行っ
て出力する時間軸伸長部、3は前記時間軸伸長部2より
出力される時間軸伸長されたディジタルの音声信号を蓄
積する音声データメモリ、4は前記音声データメモリに
蓄積されたディジタルの音声信号をアナログの音声信号
へ変換するD/A変換部である。
【0014】また、5は前記A/D変換部1が出力する
ディジタルの音声信号中の無音区間を検出し、無音区間
情報を出力する無音区間検出部、6は前記A/D変換部
1が出力するディジタルの音声信号に基づいて、後述す
る時間長比Sを出力する話速検出部、7は前記音声デー
タメモリ3における音声データの蓄積量をチェックし、
蓄積量情報を出力する蓄積量検出部、8は前記話速検出
部6からの時間長比S及び前記蓄積量検出部からの蓄積
量情報に基づいて、後述する話速情報Nを演算する適応
話速制御部である。
【0015】そして、前記無音区間検出部5からの無音
区間情報は、前記音声時間軸伸長部2へ与えられ、該音
声時間軸伸長部2において、前記無音区間情報に基づい
て、音声信号より無音区間を適宜削除する。
【0016】さらに、前記時間軸伸長部2で用いられる
音声信号の時間軸圧縮伸長処理としては、例えば、ポイ
ンター移動量制御による重複加算法(PICOLA:Po
inter Interval Control Overlap and Add )やTDH
S(Time Domain Harmonic Scaling)法等の既知の方法が
利用できるが、これら限られるものではなく、要するに
音声信号の時間軸を伸長してその話速(再生速度)をゆ
っくりした話速に変換できるものであればよい。
【0017】続いて、図2は前記話速検出部6の構成を
示すブロック図である。同図に示すように、話速検出部
6は、標準パターンデータベース21を備えており、該
標準パターンデータベース21には、「もしもし」、
「こんにちわ」、「おはようございます」、「いつもお
せわになっております」等の各種標準パターン(の音声
信号データ)が登録されている。尚、各種標準パターン
は、予めROM等に登録されていてもよいし、使用者が
適宜登録を行えるようにしておいてもよい。この場合、
使用者が登録した標準パターンの話速に基づいて話速の
判定(詳細は後述)が行えるため、予め自分の好みの話
速で登録しておけばよい。
【0018】次に、22は前記A/D変換部1を介して
入力された音声信号と前記標準パターンデータベース2
1に登録された各種標準パターンとを比較し、各種標準
パターンのいずれかに一致する音声信号があるか検出す
る音声認識部である。
【0019】ここで、各種標準パターンと入力された音
声信号との比較は、例えば音声認識技術の1つである動
的計画法(一般にDPマッチングと呼ばれる、DP:Dy
namic Programming)によって行われる。動的計画法の
場合、入力される音声信号と標準パターンとの時間長が
異なっていても音声認識がある程度可能なため、本発明
では動的計画法を採用した。然し乍ら、これに限定され
ず他の方法であっても構わない。
【0020】そして、23は前記音声認識部22で各種
標準パターンのいずれかに一致する音声信号が検出され
た場合に時間長比Sを求める時間長比演算部である。前
記時間長比Sは、ある標準パターンの時間長をT1、こ
の標準パターンに一致した音声信号の時間長をT2とす
ると、下記の式1で求められる。
【0021】
【数1】
【0022】従って、求められた時間長比Sが1よりも
小さい値の場合は、標準パターンよりも音声信号の話速
が早いものと判断でき、逆に時間長比Sが1よりも大き
い値の場合は、標準パターンよりも音声信号の話速が遅
いものと判断できる。
【0023】一例をあげると、ある標準パターンの時間
長T1が1.0秒、これに一致した音声信号の時間長T
2が0.8秒だった場合、時間長比S=0.8/1.0
=0.8となる。この値を前記図1に示した適応話速制
御部8に与える。
【0024】然し乍ら、聴き易い話速には個人差がある
ため、基準となる標準パターンの時間長に係数αを乗算
し、基準となる標準パターンの実質的な時間長を使用者
が適宜変更できるようにしてもよい。この場合、時間長
比Sは下記の式2によって求められる。
【0025】
【数2】
【0026】尚、上記式2において、係数αの値を1に
すれば前記式1と同等になる。よって、使用者によって
特に係数の変更の指示が無い場合には係数αの初期値と
してα=1に設定しても良い。
【0027】また、標準パターンに一致した音声信号の
時間長T2>標準パターンの時間長T1(もしくはT1
・α)の場合は、前記式1及び式2によって求められた
時間長比Sが1より大きくなる。この場合、入力音声信
号が標準よりも遅いのであって、これ以上遅くする必要
が無い。従って、時間長比Sが1より大きい場合は、時
間長比S=1に設定(話速変換しないことを意味する)
する。
【0028】さらに、時間長比Sは、過去に求めた最新
の10回分の時間長比Sの平均値を求め、この平均値を
用いるようにしてもい。この場合、入力される音声信号
の部分的な変動の影響を受けにくくなる。
【0029】前記図1に戻って、8は前記話速検出部6
からの時間長比S及び前記蓄積量検出部7からの蓄積量
情報とに基づいて話速を決定し、話速情報Nとして出力
する適応話速制御部であり、該適応話速制御部8が出力
する話速情報Nは前記時間軸伸長部2へ与えられ、該与
えられた話速情報Nに基づいて時間軸伸長部2は音声信
号の時間軸の伸長の処理を行う。
【0030】前記話速情報Nは、時間軸の伸長処理を行
う前の音声信号の時間長をV1、伸長処理後の音声信号
の時間長をV2とすると、以下の式3のように定義され
る。
【0031】
【数3】
【0032】従って、話速情報Nが1よりも大きい値の
ときは本来の音声信号(時間軸の伸長処理を行う前の音
声信号)よりも速い話速に変更したことを意味し、逆に
話速情報Nが1よりも小さい値のときは本来の音声信号
よりも遅い話速に変更したことを意味する。
【0033】一例をあげると、時間長が5秒の音声信号
を時間軸伸長処理して10秒にした場合、話速情報N=
5/10=0.5(倍速)に変更したことを意味する。
【0034】さらに、蓄積量検出部7からの蓄積量情報
に応じて決定される係数をβとすると、話速情報Nは下
記式4によって求められる。
【0035】
【数4】
【0036】ここで係数βについて補足すると、蓄積量
検出部7からの蓄積量情報により音声データメモリ3の
空き容量が所定量より多いと判断されたときは係数βの
値は1とする。これによって話速検出部6からの時間長
比Sの値がそのまま話速情報Nの値となる。一例とし
て、係数βの値は下表のように設定される。
【0037】
【表1】
【0038】尚、上記表1において、a及びbの値は、
1〜[1/S]の間を略均等分割するような値になるべ
く、求められたSの値に応じて都度決定される。
【0039】然し乍ら、音声データメモリ3の空き容量
が減少するにつれて、前記表1に示したように、係数β
の値が時間長比1/Sの値に近づくように変更される。
これによって話速情報Nが徐々に1に近づくようにな
る。そして、音声データメモリ3の空き容量が0に至る
と、βの値が時間長比1/Sの値と等しくなり、よって
話速情報N=1となって、時間軸伸長部2での話速変換
は行われなくなる。
【0040】即ち、音声信号の時間軸の伸長の処理に必
要なだけの音声データメモリ3の空き容量が無い場合に
は、話速情報Nを1に近づけるように話速情報Nを1に
徐々に補正するように構成されている。
【0041】尚、音声データメモリ3の空き容量が増え
るにつれて、係数βの値が1に近づくように徐々に補正
し、これによって徐々に話速情報Nが本来の補正前の値
に戻され、適切な話速変換処理が行われるようにする。
【0042】続いて、図3のフローチャートに基づいて
本発明の話速変換装置の動作について説明する。
【0043】先ず、音声信号の入力が開始されると(S
1)、前記蓄積量検出部7による音声データメモリ3に
おけるデータ蓄積量のチェックの処理(S2)及び、前
記話速検出部6における音声認識処理(ステップS3〜
ステップS5)が共に開始される。
【0044】前記ステップS2において、蓄積量検出部
7が音声データメモリ3におけるデータ蓄積量をチェッ
クし、適応話速制御部8に対して蓄積量情報を出力す
る。該蓄積量情報は随時出力され、後述のステップS1
0で音声入力の終了が確認されるまで継続される。
【0045】前記音声認識処理は、前記図2に示した標
準パターンデータベース21より標準パターンの1つを
選択し(S3)、その後段の音声認識部22が前記選択
された標準パターンと入力された音声信号との比較処理
(前述したようにDPマッチングが用いられる)を行い
(S4)、登録されている全ての標準パターンとの比較
が終了するまで比較処理が繰り返される(S5)。
【0046】こうして入力された音声信号と全ての標準
パターンとの比較処理が行われると、入力された音声信
号と一致する標準パターンが決定され(S6)、時間長
比演算部23が前記式(1)または式(2)に基づいて
時間長比Sを演算し(S7)、こうして求められた時間
長比Sを適応話速制御部8に与える。
【0047】そして、適応話速制御部8は、前記蓄積量
検出部7からの蓄積量情報及び話速検出部6からの時間
長比Sを用いて、前記図1に示した適応話速制御部8が
前記式4に基づいて話速情報Nを演算する(S8)。
尚、前述したように音声データメモリ3の空き容量に応
じて係数βの値は適宜変更される。こうして求められた
話速情報Nは時間軸伸長部2へ与えられる。
【0048】次に、時間軸伸長部2では、適応話速制御
部8から与えられた話速情報Nに基づき、入力音声信号
の時間軸を伸長処理し、後段の音声データメモリ3へ音
声信号データを順次格納する。そして音声データメモリ
3に格納された音声信号データは順次出力され、後段の
D/A変換部でアナログの音声信号として出力される。
このようにして話速変換処理が行われる(S9)。
【0049】尚、前述したように、入力音声信号中の無
音区間は無音区間検出部5からの無音区間情報に基づい
て適宜削除される。
【0050】そして、音声信号の入力が終了すると話速
変換装置は処理を停止する(S10)。
【0051】
【発明の効果】以上、詳述した如く本発明に依れば、入
力音声信号に基づいて音声認識する音声認識手段と、該
音声認識手段で音声認識した入力音声信号の時間長を検
出する時間長検出手段と、該時間長検出手段が検出した
時間長と所定の基準時間長とを比較する比較手段と、該
比較手段の比較結果に基づいて前記入力音声信号の時間
軸長を所定の時間軸長へ変換する時間軸長変換手段とを
備えたので、比較手段の比較結果によって入力音声信号
が早口であるか、あるいはゆっくりした音声信号である
かがわかり、これに応じて時間軸長変換手段が入力音声
信号の時間軸長を所定の時間軸長へ変換して入力音声信
号を聞きやすい話速へ変換することができる。
【0052】また、本発明に依れば、入力音声信号に基
づいて音声認識する音声認識手段と、該音声認識手段で
音声認識した入力音声信号の時間長を検出する時間長検
出手段と、該時間長検出手段が検出した時間長と所定の
基準時間長とを比較する比較手段と、該比較手段の比較
結果に基づいて前記入力音声信号の話速を所定の話速へ
変換する話速変換手段と、該話速変換手段によって話速
変換された音声信号のデータを蓄積する蓄積手段と、該
蓄積手段に蓄積された前記音声信号データの蓄積量を検
出する蓄積量検出手段と、前記比較手段の比較結果及び
前記蓄積量検出手段の検出結果に基づいて前記入力音声
信号の時間軸長を所定の時間軸長へ変換する時間軸長変
換手段とを備えたので、比較手段の比較結果によって入
力音声信号が早口であるか、あるいはゆっくりした音声
信号であるかがわかり、さらに蓄積手段の空き容量をも
考慮し、これらに応じて時間軸長変換手段が入力音声信
号の時間軸長を所定の時間軸長へ変換して入力音声信号
を聞きやすい話速へ変換することができる。
【図面の簡単な説明】
【図1】本発明の話速変換装置の構成を示す回路ブロッ
ク図。
【図2】話速検出部の構成を示す回路ブロック図。
【図3】本発明の話速変換装置の動作を示すフローチャ
ート。
【符号の説明】
1 A/D変換部 2 時間軸伸長部 3 音声データメモリ 4 D/A変換部 5 無音区間検出部 6 話速検出部 7 蓄積量検出部 8 適応話速制御部 21 標準パターンデータベース 22 音声認識部 23 時間長比演算部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号に基づいて音声認識する音
    声認識手段と、該音声認識手段で音声認識した入力音声
    信号の時間長を検出する時間長検出手段と、該時間長検
    出手段が検出した時間長と所定の基準時間長とを比較す
    る比較手段と、該比較手段の比較結果に基づいて前記入
    力音声信号の時間軸長を所定の時間軸長へ変換する時間
    軸長変換手段とを備えたことを特徴とする話速変換装
    置。
  2. 【請求項2】 入力音声信号に基づいて音声認識する音
    声認識手段と、該音声認識手段で音声認識した入力音声
    信号の時間長を検出する時間長検出手段と、該時間長検
    出手段が検出した時間長と所定の基準時間長とを比較す
    る比較手段と、該比較手段の比較結果に基づいて前記入
    力音声信号の話速を所定の話速へ変換する話速変換手段
    と、該話速変換手段によって話速変換された音声信号の
    データを蓄積する蓄積手段と、該蓄積手段に蓄積された
    前記音声信号データの蓄積量を検出する蓄積量検出手段
    と、前記比較手段の比較結果及び前記蓄積量検出手段の
    検出結果に基づいて前記入力音声信号の時間軸長を所定
    の時間軸長へ変換する時間軸長変換手段とを備えたこと
    を特徴とする話速変換装置。
  3. 【請求項3】 前記時間軸長変換手段は、前記蓄積手段
    における空き容量の変化に応じて入力音声信号の時間軸
    長の変換の度合いを変更することを特徴とする請求項2
    記載の話速変換装置。
  4. 【請求項4】 前記時間軸長変換手段は、前記蓄積手段
    の空き容量が所定量以下になったときには時間軸長の変
    換を行わないことを特徴とする請求項2記載の話速変換
    装置。
  5. 【請求項5】 前記音声認識手段は、音声信号の標準パ
    ターンが登録された標準パターンデータベースを備え、
    前記入力音声信号と前記標準パターンデータベースに登
    録された標準パターンとの比較に基づいて音声認識する
    ことを特徴とする請求項1乃至請求項4記載の話速変換
    装置。
  6. 【請求項6】 前記音声認識手段は、動的計画法によっ
    て音声認識することを特徴とする請求項1乃至請求項5
    記載の話速変換装置。
  7. 【請求項7】 前記比較手段は、前記音声認識手段によ
    って音声認識された入力音声信号の時間長と前記標準パ
    ターンデータベースに登録された標準パターンの時間長
    とを比較することを特徴とする請求項1乃至請求項6記
    載の話速変換装置。
JP31767799A 1999-11-09 1999-11-09 話速変換装置 Pending JP2001134299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31767799A JP2001134299A (ja) 1999-11-09 1999-11-09 話速変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31767799A JP2001134299A (ja) 1999-11-09 1999-11-09 話速変換装置

Publications (1)

Publication Number Publication Date
JP2001134299A true JP2001134299A (ja) 2001-05-18

Family

ID=18090801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31767799A Pending JP2001134299A (ja) 1999-11-09 1999-11-09 話速変換装置

Country Status (1)

Country Link
JP (1) JP2001134299A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010028570A (ja) * 2008-07-22 2010-02-04 Panasonic Electric Works Co Ltd 対話型ハンズフリー話速変換通話装置
JP2011048205A (ja) * 2009-08-27 2011-03-10 Kyocera Corp 電子機器
CN105679296A (zh) * 2015-12-28 2016-06-15 百度在线网络技术(北京)有限公司 乐器演奏评判的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010028570A (ja) * 2008-07-22 2010-02-04 Panasonic Electric Works Co Ltd 対話型ハンズフリー話速変換通話装置
JP2011048205A (ja) * 2009-08-27 2011-03-10 Kyocera Corp 電子機器
CN105679296A (zh) * 2015-12-28 2016-06-15 百度在线网络技术(北京)有限公司 乐器演奏评判的方法和装置

Similar Documents

Publication Publication Date Title
JPH10257596A (ja) 話速変換方法およびその装置
JP4523257B2 (ja) 音声データ処理方法、プログラム及び音声信号処理システム
JP2780676B2 (ja) 音声認識装置及び音声認識方法
US20040078195A1 (en) Device for normalizing voice pitch for voice recognition
JP2002535708A (ja) 音声認識方法及び音声認識装置
JP4752516B2 (ja) 音声対話装置および音声対話方法
JPH10254475A (ja) 音声認識方法
JPH08106296A (ja) 単語認識システム
JP2001134299A (ja) 話速変換装置
JP3249567B2 (ja) 話速変換方法および装置
JP2002091487A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2008116643A (ja) 音声生成装置
JP2001056696A (ja) 音声蓄積再生方法および音声蓄積再生装置
JP3432443B2 (ja) 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体
JP3219892B2 (ja) リアルタイム話速変換装置
JP2002073061A (ja) 音声認識装置及びその方法
JP3373933B2 (ja) 話速変換装置
JP3357742B2 (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
KR100322202B1 (ko) 신경망을 이용한 음성인식장치 및 그 방법
JP6759370B2 (ja) 呼出音認識装置および呼出音認識方法
JPH06337696A (ja) 速度変換制御装置と速度変換制御方法
JPH08254992A (ja) 話速変換装置
JP2010211122A (ja) 音声認識装置及び方法
JPH0538700U (ja) 音声応答装置