JP2000200100A - アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 - Google Patents

アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置

Info

Publication number
JP2000200100A
JP2000200100A JP11001630A JP163099A JP2000200100A JP 2000200100 A JP2000200100 A JP 2000200100A JP 11001630 A JP11001630 A JP 11001630A JP 163099 A JP163099 A JP 163099A JP 2000200100 A JP2000200100 A JP 2000200100A
Authority
JP
Japan
Prior art keywords
data
similarity
window width
data string
similar waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11001630A
Other languages
English (en)
Other versions
JP3266124B2 (ja
Inventor
Katsufumi Kondo
克文 近藤
Yoshinori Hayashi
好典 林
Akira Miki
晃 三木
Koji Tanitaka
幸司 谷高
Hiroshi Owaki
浩 大脇
Koichi Kawamoto
晃一 河本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP00163099A priority Critical patent/JP3266124B2/ja
Publication of JP2000200100A publication Critical patent/JP2000200100A/ja
Application granted granted Critical
Publication of JP3266124B2 publication Critical patent/JP3266124B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】非常に少ない演算量で、アナログ信号中の時系
列方向に連続して存在する類似波形を検出する装置を提
供する。 【解決手段】音声信号2をデジタル化してメモリ4に記
憶し、データ列切り出し手段5によって各窓幅Wa、W
b毎の2つのデータ列を時系列方向に連続して切り出し
ていく。類似度演算・類似波形検出部6では切り出した
2つのデータ列の類似度を各窓幅毎に単純積和演算によ
りDSPチップによりリアルタイムで算出し、その中の
最大値の類似度に対応する窓幅で切り出したデータ列を
類似波形のデータ列Sa、Sbとして検出し伸長圧縮部
7に出力する。伸長圧縮部7では、このデータ列Sa、
Sbに基づいて信号の時間軸伸長圧縮処理を行い、出力
端子8に話速変換された音声信号を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声信号の話速
変換等に使用されるアナログ信号内の類似波形検出装置
および同信号の伸張圧縮装置に関する。
【0002】
【従来の技術】音程(ピッチ)はそのままで、発声速度
を任意に制御できる話速変換技術は、音声再生の各分野
において応用されている。例えば、聴覚にハンディキャ
ップを持つ人を支援するために、話速変換によって音声
を引き伸ばす処理を行う装置がある。
【0003】図18は入力音声を伸長処理することによ
って話速変換を行う従来の方法を示している。入力音声
のピッチ周期Tをまず検出し、このピッチ周期Tの波形
を少なくとも1波形以上加える。この操作を適宜行うこ
とにより、音声のピッチを変えずに発声速度を遅くする
ことができる。また、伸長処理ではなく、少なくとも1
波形以上入力音声から切り出す圧縮処理を行うことによ
り、発声速度を早くすることも可能である。圧縮処理
は、例えば、VTRの高速再生時に音声ピッチを保持し
た再生を可能にする。
【0004】このように、音声信号の時間軸上の伸長圧
縮処理は、従来は、もとの入力音声のピッチTをまず検
出し、次いでこのピッチTの追加操作または切出操作を
行うものである。周期的波形を含む入力音声のピッチT
を検出する手法として、従来は、いわゆる自己相関法が
専ら用いられていた。自己相関関数RXX(k)は、一般
に、次の数式で示される。
【0005】
【数2】 Nはサンプルデータ数であり、kの値を順次変えながら
自己相関関数RXX(k)のうち、最大の値を持つ時の時
間差kに標本化間隔Δtを掛けた値から、その信号のピ
ッチを求めることができる。自己相関法によって音声の
母音部等の周期的アナログ信号のピッチを求める技術と
しては、特開平6−161494号公報等に示されてい
る。また、検出したピッチに基づいて波形の伸長圧縮を
行って話速変換を行う技術については、例えば特開平7
−77999号公報等に示されている。
【0006】
【発明が解決しようとする課題】ところが、自己相関法
では、すべてのkについてサンプル数Nの積和演算を行
うために演算量が膨大なものとなってしまう。このた
め、リアルタイム話速変換等を行う必要のある場合に
は、このような演算方法では間に合わなくなってしまう
問題があり、また、演算量を減らすためにkの間隔を減
らすなどの間引き処理を行ったり補間処理を行うと、ひ
ずみが生じたりするなど出力品質が低下してしまう問題
がある。また、波形挿入(伸長処理)による話速変換を
行う場合、時系列方向に2つの連続したピッチ波形を抽
出する必要があるが、自己相関法でこれを行うと、1番
目のピッチ波形と2番目のピッチ波形をそれぞれ独立し
て抽出することになるために(自己相関法では複数のピ
ッチ波形を同時に抽出することはできない)演算量がさ
らに増大する問題があった。更に、図19(A)、
(B)に示すように、自己相関法によって時系列方向に
2つの連続するピッチ波形を抽出した場合、前の波形の
ピッチ周期T1と後ろの波形のピッチT2とが一致しな
い場合があり、このような場合2つのピッチT1、T2
の差分を修正するための調整処理が必要となり、そのた
めの演算量が更に増大すると共に、処理が不適当である
と話速変換による波形の伸長や圧縮が適切なものとなら
ず、出力結果にひずみとなって現れる不都合があった。
【0007】この発明の目的は、非常に少ない演算量
で、アナログ信号中の時系列方向に連続して存在する類
似波形を検出する装置を提供することにある。
【0008】また、この発明の他の目的はアナログ信号
が音声信号の場合、ピッチ波形を抽出しなくても非常に
少ない演算量で話速変換を可能にする装置を提供するこ
とにある。
【0009】
【課題を解決するための手段】請求項1の発明は、アナ
ログ信号をデジタル化して一定時間蓄積記憶するメモリ
と、該メモリのデータから窓幅を変えながら各窓幅毎の
2つのデータ列を時系列方向に連続して切り出すデータ
列切り出し手段と、切り出した2つのデータ列の類似度
を各窓幅毎に算出する類似度算出手段と、算出した窓幅
毎の類似度のうち略最大値の類似度に対応する窓幅で切
り出したデータ列をメモリのデータ内の類似波形のデー
タ列として検出する類似波形検出手段と、を備えてい
る。
【0010】図1は、この発明に係る類似波形検出装置
を適応した話速変換装置の概略構成図である。
【0011】入力端子1に入力する音声信号2は、A/
D変換器3でデジタル化されて一定時間分の容量を持つ
メモリ4に順次蓄積記憶される。このメモリ4に蓄積記
憶されたデータからは、データ列切出部5によって、窓
幅を変えながら各窓幅毎の2つのデータ列が時系列方向
に連続して切り出される。すなわち、時系列方向に連続
して切り出す窓幅を、WaiとWbiとして、系列1で
は、Wa1、Wb1の窓幅で時系列方向に連続してデー
タ列を切り出し、系列2では、Wa2、Wb2の2つの
窓幅でデータ列を切り出す。各窓幅は、系列1から順に
少しずつ一定のピッチで増加していき所定の窓幅までこ
のデータ列切出しを繰り返す。データ列切出部5で切り
出された各系列(各窓幅)の2つのデータ列は、それぞ
れ類似度演算・類似波形検出部6に出力される。類似度
演算・類似波形検出部6は、切り出した2つのデータ列
の類似度を各系列毎(窓幅毎)に算出する。類似度R
は、式(2)により求めることができる。
【0012】
【数3】 ただし、Sa(n)は、1番目データ列のn番目データ Sb(n)は、2番目データ列のn番目データ Nは、各データ列のデータ数 類似度演算・類似波形検出部6は、上記式(2)によっ
て各系列毎の類似度Rを求め、各Rのうち最大値のRに
対応する窓幅Wa、Wbで切り出したデータ列を類似波
形のデータ列として検出し、これを伸長圧縮部7に出力
する。伸長圧縮部7は、この最大値の類似度Rに対応す
る窓幅Sa、Sbを用いて、元の信号に対して時間軸上
の伸長または圧縮処理を行うことによって話速変換を行
い出力端子8に出力する。類似度Rのうち最大値はもっ
とも望ましいが、実用的な話速変換を行う上においては
最大値近辺のものを選択することでも差し支えはない。
【0013】上記式(2)は積和演算であるが、一般に
このような積和演算は汎用のDSPで高速に行うことが
出来る。この発明では汎用のDSPチップでの高速演算
が可能な式(2)による類似度を求めるようにしている
ため、信号処理のリアルタイムオペレーションが可能で
ある。このため、信号の伸長・圧縮処理による話速変換
を行う場合等には、このような式(2)による積和演算
による類似度演算が必須となる。類似度を求める他の方
法も考えられるが、式(2)による積和演算法以外の方
法は演算が複雑化し、高速演算能力を必要とし、消費電
力を増大させるので小型化やリアルタイム処理に適さな
いと思われる。
【0014】上記のように、類似度演算・類似波形検出
部6での演算内容は、データ列切出部5で切り出した各
系列毎の2つのデータ列だけを対象とするために、式
(1)に比較して演算量は極めて少ない。そして、2つ
の処理区間が同時に決定でき、しかも、WaとWbは同
じ長さであるために、図19に示すようなピッチ長の違
いによる調整のための処理を必要としない。更に、メモ
リ4に記憶されるデータは母音、子音、雑音といった区
分けが不要であり、記憶データ内に連続する類似波形部
が存在すれば、それを用いて伸長圧縮処理を簡単に行う
ことができる。
【0015】この出願の請求項2の発明は、前記アナロ
グ信号が複数種類の信号である場合に、前記類似波形算
出手段は、最大値の次に大きい類似度に対応する窓幅が
最大値の類似度に対応する窓幅よりも大きいとき、最大
値の次に大きい類似度に対応する窓幅で切り出したデー
タ列をメモリのデータ内の類似波形のデータ列として検
出することを特徴とする。
【0016】この請求項2の発明では、例えば、2種類
のアナログ信号(音声信号など)が同時に入力した場合
に、何れか1つのアナログ信号が選択されて、その信号
に対してデータ列切り出しと類似度演算が行われること
になるが(例えば、レベルの大きなアナログ信号が選択
されることが考えられる)、このような場合に、無条件
に類似度が最大の窓幅のデータ列を選択すると、そのデ
ータ列を伸長圧縮によって話速変換を行った場合には選
択されなかった信号がひずんでしまう可能性が出てく
る。そこで、複数のアナログ信号が入力している時に
は、最大値の次に大きい類似度に対応する窓幅が最大値
の類似度に対応する窓幅よりも大きい場合、前者の窓幅
で切り出したデータ列を類似波形のデータ列として検出
する。すなわち、2番目の類似度の窓幅で切り出したデ
ータ列を類似波形のデータ列として検出する。このよう
にすると、複数の信号が入力した場合にも、伸長圧縮し
た時に、いずれかの信号がひずんでしまうのを防ぐこと
ができる。この理由については後述する。
【0017】この出願の請求項3の発明は、前記データ
列切り出し手段は、時系列方向の任意の点を基点として
前後に設定した窓幅から2つのデータ列を切り出すこと
を特徴とする。
【0018】すなわち、請求項3の発明では、メモリ4
に記憶されているデータの任意の点を基点として前後の
設定した窓幅から2つのデータ列を切り出すものであ
り、このようにすると、類似度演算に過去のデータを利
用出来るようになりポインタでデータを読み出すための
時間を短くすることが出来、その分処理時間を短縮化で
きる。すなわち、ポインタをメモリの先頭番地において
おけば、系列毎に常にポインタを先頭番地からWaとW
bの2つの窓幅間を移動させてその間のデータを読み出
す必要があるが、ポインタを、メモリの任意の位置にお
いておくと、メモリの先頭番地からそのポインタまでの
データを1度読んでおけば、後は系列毎にそのポインタ
位置から前方向にWbの窓幅のデータだけを読んでいけ
ばよくなる(Waのデータについては過去のデータとな
るから読み出す必要がない。)。例えば、ポインタをメ
モリの真中のアドレスに設定しておけば、各系列毎のデ
ータ読み出し時間を半分にすることが出来る。
【0019】この出願の請求項4の発明は、前記類似波
形検出手段で検出した類似波形を全波形に加える伸長操
作、又は、全波形から切り出す圧縮操作を行う時間軸操
作手段を備えてなることを特徴とする。
【0020】図1の伸長圧縮部7において、音声信号に
対し上記切り出した類似波形を1波分以上加える伸長操
作または、1波分以上前波形から切り出す圧縮操作を行
う。このようにすることによって、出力端子8に、アナ
ログ信号の時間軸を伸長圧縮した信号を出力することが
できる。
【0021】この出願の請求項5の発明は、前記メモリ
は音声信号をデジタル化したデータを記憶するものであ
り、前記時間軸操作手段は伸長操作により話速変換を行
うことを特徴とする。
【0022】図1の入力端子1に入力されるアナログ信
号が音声信号2である時、伸長圧縮7においてその信号
の時間軸の伸長圧縮処理を行うことにより、話速変換が
行われることになる。すなわち、出力端子8には、音声
ピッチを変えずに話す速度を変えた信号が出力される。
【0023】
【発明の実施の形態】図2は、この発明の実施形態であ
る話速変換装置の構成図を示している。
【0024】音声信号は、量子化に伴うエリアシングを
防止するためのアンチエリアシングフィルタ10を通過
し、A/D変換器11によってデジタルデータに変換さ
れる。A/D変換されたデータは信号処理部12に送ら
れ、メモリ13に対して時系列に書き込まれていく。メ
モリ13に予め設定したサンプル数(1フレーム分)の
データが蓄積されると、信号処理部12によって波形類
似度の高い2つのデータ列(データ列ペア)が選択さ
れ、このデータ列ペアによって入力信号の時間軸伸長圧
縮処理が行われた後、メモリ14に書き込まれる。メモ
リ14のデータは一定時間間隔で制御部15によって読
み出され、D/A変換器17でデジタル信号から再度ア
ナログ信号に変換された後、ベースバンド帯域だけを取
り出すためのスムージングフィルタ17によって滑らか
なアナログ信号に変換されて出力される。
【0025】信号処理部12において波形類似度の高い
データ列ペアの選択は次のようにして行われる。
【0026】図3は、メモリ13に記憶されているデー
タから窓幅を変えながら各窓幅毎のデータ列ペアを時系
列方向に連続して切り出していく方法を説明する図であ
る。同図において、Wa、Wbはそれぞれ窓幅を示し、
Wa=Wbである。ポインタptは初期状態ではメモリ
13の先頭番地に位置している。最初に、窓幅をWa
1、Wb1に設定した系列1においてデータ列ペアの切
り出しを行う。なお、この実施形態では、音声信号を1
1KHz でサンプリングしており、概ね80〜400Hzの
波形を検出できるように、窓幅を、サンプル数にして6
0個〜120個の範囲で変えるようにしている。すなわ
ち、11KHz のサンプリング周波数で窓幅のサンプルデ
ータ数を60個とすれば、その窓幅は11KHz /60≒
180Hzとなり、窓幅のサンプルデータ数を120個と
すれば、その窓幅は11KHz /120≒90Hzとなるか
ら、サンプル数にして60個〜120個の範囲で窓幅を
変化させることにより、直接的には90Hz〜180Hzの
波形について類似度のサーチを行うことができる。実際
には、話速変換を行う場合母音部において波形の周期性
が認められるから、この母音部でのピッチを検出できる
ようにした方が望ましいと考えられ、一方、人間の音声
の母音部でのピッチは、通常、80〜400Hzの範囲内
に含まれるから、本実施形態では、窓幅のサンプルデー
タ数を60個〜120個で可変することにより、90〜
180Hz程度までしか波形類似度をダイレクトに検出す
ることができなくなる。しかし、180〜400Hzのピ
ッチについてはダブルピッチによってデータ列ペアの切
出しが可能である。図4は、ダブルピッチによるデータ
列ペアの切り出し法を示している。窓幅Wa、Wbとも
2波分を含むダブルピッチの長さとなっている。
【0027】図3において、系列1の窓幅Wa1、Wb
1のサンプルデータ数は、それぞれ60個である。従っ
て、メモリ13の先頭番地からポインタptを60回移
動させて窓幅Wa1の60サンプル分のデータ列を入力
データから抽出してメモリ13に記憶し、更にポインタ
ptを60回移動させて窓幅Wb1の60サンプル分の
データ列を入力データから抽出してメモリ13に記憶す
る。このようにして抽出した窓幅Wa1、Wb1からな
る系列1のデータ列ペアに対して、その類似度R(n
1)を式(3)により求める。
【0028】
【数4】 ただし、Wa=Wb=n1 Sb(1)=Sa(1+n1) 上記式(3)は、単純な積和演算であり、類似度Rを求
める上で最も演算量が少ないものと考えられる。また、
汎用のDSPチップは、一般にこのような単純な積和演
算を高速処理するのに適した構造にあり、DSPを利用
してかかる積和演算を行うことでリアルタイム処理が可
能となる。これ以外の類似度演算を行う方法も考えられ
なくはないが、演算量が増大し、DSP演算にも不適当
となり、リアルタイム処理が出来なくなってしまう。例
えば、上記式(3)に代えて、Σ(減算式)n のような
式は演算量が相対的に増大し、且つ、単純積和構造では
なくなるため、高速演算能力を必要とし消費電力も増大
するので、小型化やリアルタイム処理には不向きであ
る。
【0029】なお、データ列ペアと窓幅Wa、Wbの関
係は図5に示すようになる。
【0030】次に、系列2において上記と同じ動作を繰
り返す。系列2においては、窓幅Wa2、Wb2を系列
1の窓幅よりも各々+1のサンプルデータ数だけ長い窓
幅とする。したがって、ポインタptを時系列方向に+
2だけ移動させて2サンプル分のデータを入力データよ
り読み出して記憶する。なお、本実施形態のように、系
列を1つ増やす毎に増やすサンプル数を+2とする(W
a、Wbとも1ステップ増加)のが望ましいが、演算量
を少なくするために適当なステップ増加数とすることも
可能である。サンプル数の増加ステップ数を+1とした
場合は、Wa2=Wb2=n2=n1+1となり、ま
た、Sb(1)=Sa(1)+n2となる。そして、こ
の場合の、類似度R(n2)は、次の式(4)によって
求められる。
【0031】
【数5】 ここで、上記式(3)および式(4)に示すように、デ
ータ列ペアの類似度Rは、データ列間の要素を積算し、
その積算値を要素数で除すことによって得られる平均値
としている。したがって、波形が類似するに応じてRも
大きくなっていく。このようにして、各系列についての
類似度を求めていき、最後に、窓幅を、メモリ13に記
憶出来る全サンプル数Nの半分(R/2)にした時の類
似度R(N/2)を、次式(5)によって求める。な
お、この時には、Wa=Wb=N/2、Sb(1)=S
a(1)+N/2となる。
【0032】
【数6】 次に、求めた全ての類似度Rのうちの最大値を示す類似
度に対応する窓幅のデータ列ペアSa、Sbを最適値と
して選択し、信号処理部12は、このデータ列ペアを用
いて時間軸の伸長圧縮処理、すなわち話速変換処理を行
う。図6(A)は圧縮処理をする場合、同図(B)は伸
長処理をする場合の波形の削除、挿入方法について示す
図である。
【0033】図6(A)では、データ列Sa、Sbにそ
れぞれ窓関数k1、k2で積和処理(k1*Sa+k2
*Sb)を行い、この積和演算結果を、データ列ペアS
a、Sbに置き換える。窓関数k1はデータ列Saの最
初の位置では1であり、最後の位置では0の値をとる一
次関数であり、また、窓関数k2は、データ列Sbの最
初の位置で0、最後の位置で1となる一次関数である。
したがって、上記積和演算結果の最初の値はデータ列S
aの最初の位置の値に等しく、積和演算結果の最後の値
はデータ列Sbの最後の位置の値に等しい。この結果、
上記積和演算によって得られる結果をデータ列ペアS
a、Sbに置き換えても、その前後の波形(データ列S
aの後ろの波形およびデータ列Sbの前の波形Sc)と
の間で信号の不連続が生じるのをなくすことができる。
【0034】図6(B)は、波形を挿入して時間軸の伸
長を行う。すなわち、データ列Saには最初の位置で
0、最後の位置で1の値をとる一次関数の窓関数k3を
掛け、データ列Sbに対しては最初の位置で1、最後の
位置で0となる一次関数の窓関数k4を掛け、その結果
をデータ列SaとSb間に挿入する。この場合も、窓関
数k3、k4を上記のような傾きを持つ一次関数として
いるため、信号の不連続性が生じることはない。
【0035】なお、図6(A)、図6(B)では1つの
波形の削除および挿入による圧縮、伸長処理を示した
が、通常は、複数個の波形の圧縮、伸長処理が行われて
話速変換が実現される。
【0036】図7は、データ列ペアを切り出す他の方法
について説明するための図である。図3に示す方法で
は、系列1のデータ列ペア120サンプル分を読み出し
て類似演算をした後、更に+2サンプル分読み出して系
列2のデータ列ペアの類似演算を行い、更に、+2サン
プル分読み出して系列3の類似演算を行うようにしてい
くなど、系列が1つ進む毎に+2サンプル分を読み出し
て類似度の演算を行うようにしていくが、サンプリング
周波数は11KHz であるために1サンプル分の読み出し
時間に0.09×10-3(sec) の時間を必要とすること
になり、全体としてこの時間の累積が無視できなくな
る。そこで、図7に示すように、ポインタptの位置を
メモリ13の中心番地に持ってくることにより、窓幅W
aのデータは過去のデータとしてすでにメモリ13内に
記憶されていることになり、新たに読み出すデータは窓
幅Wbに対応する分だけとなる。すなわち、系列1につ
いてはWb1の窓幅の60サンプル分のデータを読み出
した後類似演算を行い、系列2については、更に+1サ
ンプル分のデータを読み出して類似演算を行い、系列3
については、更に+1サンプル分のデータを読み出して
類似演算を行うことでよい。 すなわち、系列1につい
ては60サンプル分、系列2以下については+1サンプ
ル分(合計61サンプル分)のデータを読み出して行く
だけで各系列毎の類似演算を行うことができる。図3に
示す方法では、系列1で120サンプル分のデータ列を
読み出した後、系列が1つ進む毎に+2サンプル分のデ
ータを順次読み出して行くが、図7の方法では系列1で
60サンプル分のデータを読み出した後、系列が1つ進
む毎に+1サンプル分のデータを読み出していくだけで
類似度の演算を各窓幅毎に行うことができるため、全体
としての演算時間を非常に短くすることができる。実
際、類似演算そのものはDSP等で行うために10-9(s
ec) 単位で演算を行うが、これに比べて1つのデータを
読み出す時間(0.09×10-3)(sec) はかなり長
い。したがって、全体の処理時間を短縮するのに図7に
示す方法を採用することは極めて効果的である。なお、
信号処理のスタート時点ではポインタptから過去分に
遡ったデータ(Waの窓幅のデータ)がまだ記憶されて
いないためにその過去のデータが揃うまでに時間を必要
とするが、一旦揃えば、以後の連続信号処理においては
常にポインタptを基点とした時の過去分のデータをそ
のまま利用することができるために、上記の理由によっ
て演算時間を非常に短くすることができる。
【0037】図8は、周期の異なる2つのsin波の合
成信号に対してA/D変換を行い、図3に示す方法によ
ってデータ列ペアを切り出し、更に式(2)によって各
系列の類似度を算出し、その類似度を波形と共に示した
図である。ここでは、sin波合成信号Sとしては、 S=sin(2πft)+sin(3πft) を用いた。なお、横軸の数字はサンプル数(時間)を示
し、縦軸は信号の大きさと類似度をそれぞれ正規化して
示している。sin波合成信号Aは、そのピッチはサン
プル数にして21となるが、類似度Bのピーク値Bma
xも21を示している。したがって、入力信号として2
つの周期の信号の合成信号が入力した場合であっても、
最大の類似度に対応する窓幅を元の信号の周期(ピッ
チ)とみなすことができる。
【0038】このように、2つの波形の合成信号であっ
てもこの発明の装置によって類似波形を検出することが
できるから、図2に示す話速変換装置において音声信号
として2種類の信号が合成された合成信号が入力された
場合でも最大値を持つ類似度を算出することで類似波形
を検出することが可能である。ただし、信号処理部12
においては、2種類の音声信号のうち、音声信号のレベ
ルの大きな方についての類似度が音声信号のレベルの小
さな方のそれよりも大きくなる。このことは、類似度の
計算が式(2)によって行われることからも推定でき
る。また、図8からもピーク値Bmaxはレベルの大き
なsin(3πft)に対してのものであり、その次に
大きい値Bmax′はレベルの小さなsin(2πf
t)に対してのものであることがわかる。このような理
由から、例えば、男性の声と女性の声が混ざった合成音
声信号が入力した場合は、男性の声のレベルが大きい場
合には最大の類似度に対応する窓幅で切り出したデータ
列は男性の音声信号の類似波形のデータ列となり、反対
に女性の声のレベルが大きい場合には最大類似度に対応
する窓幅で切り出したデータ列は女性の音声信号の類似
波形のデータ列となる。一方、もし、前者のように男性
信号のレベルが大きい場合は、最大類似度に対応する窓
幅は男性の音声信号に対応するから、この窓幅で切り出
したデータ列によって伸長圧縮処理、すなわち話速変換
が、女性の音声信号に対しても行われることになる。図
9(A)はこの状態を示している。同図では、Sa、S
bが男性の音声信号において最大類似度を示した窓幅の
データ列である。また、一般に、男性の音声信号よりも
女性の音声信号の方がピッチが高いから、このデータ列
Saの中に女性の音声信号の中で最大類似度を示す窓幅
のデータ列Sa′が含まれるものと考えられる。すなわ
ち、図9(A)においてSa′、Sb′が女性の音声信
号の最大類似度を示すデータ列である。Srは、Saか
らSa′の整数倍を引いた残り、または、SbからS
b′の整数倍を差し引いた残りを示している。この残り
のデータ列Srは圧縮処理の場合そのまま残るから、こ
れが1波形分に相当しないために出力信号のひずみ、ノ
イズ成分となってくる。
【0039】これに対し、女性の音声信号のレベルの方
が男性の音声信号のレベルよりも大きい場合には、図9
(B)に示すようになる。同図において、Sa、Sbは
女性の音声信号の最大類似度に対応する窓幅で切り出し
たデータ列を示し、Sa′、Sb′は男性の音声信号の
最大類似度に対応する窓幅のデータ列を示す。またSr
はSa’からSaを差し引いた残りの部分である。この
例では、圧縮処理を行った場合女性の音声信号が正しく
出力されるが、男性の音声信号についてはSrの分が欠
けるために1波形分全体がひずみ、ノイズ成分となって
くる。
【0040】図9(A)と図9(B)を対比してみる
と、図9(A)では圧縮処理を行った時にSa′のいく
つかの波形はSaに含まれるのに対し、図9(B)では
SaにSa′が含まれないから、図9(A)の場合の方
がより聴きやすくなるものと推定される。したがって、
女性の声の音声レベルが大きい場合であっても、男性の
音声信号の最大類似度に対応する窓幅で切り出したデー
タ列で圧縮処理を行うようにすれば、常にどのような場
合でも図9(A)に示すような処理が行われるようにな
って、ノイズやひずみの少ない話速変換を行うことがで
きるようになる。図10〜図17は、一声または二声
(男女)の音声信号が図2の話速変換装置に入力された
場合の音声信号波形と演算によって求めた類似度をそれ
ぞれ示す図である。これらの図の横軸はサンプル数(時
間)を示し、縦軸は音声信号については音声レベル、類
似度については類似度の大きさを示している。図10、
図11について説明すると、図10は、一般の大人の男
性が“あ”を発声した時の音声信号の一部を示してい
る。サンプル周波数は前述のように11KHz であり、図
10では、メモリ13に記憶される240サンプル数の
データを示している。この男性の音声信号に対してデー
タ列切り出しと類似度の算出を行った結果、類似度は図
11に示すように変化した。具体的には、図3の最初の
系列窓幅Wa1、Wb1を50サンプル数に設定し、以
後1サンプル数ずつ増やしていきながらサンプル数が1
20になるまで各系列毎に類似度演算を行っていった。
図11に示すように、類似度の最大値はサンプル数が1
10付近の時である。したがって、図10に示す男性の
“あ”の音声信号では、サンプル数にして110の窓幅
で切り出したデータ列が類似波形のデータ列として検出
され、これに基づいて話速変換が行われることになる。
なお、図10では第1回目のピークと第2回目のピーク
のレベル差があるが、類似波形を検出する場合にはピー
ク値は大きな問題とはならない。この例では、第1回目
のピークと第2回目のピークの間が、図1で示される類
似度の最大値のサンプル数にほぼ等しい。
【0041】図12は、女性が“あ”を発声した時の音
声信号を示している。また図13は、その場合の類似度
を示している。この例では、類似度の最大値を示すサン
プル数は約60程度である。したがって、サンプル数6
0の窓幅で切り出したデータ列を類似波形のデータ列と
して検出し、話速変換を行う。なお、図12では、ピー
ク間のサンプル数がほぼ60サンプル数に相当してい
る。
【0042】図14は、男女が同時に“あ”を発声した
時の音声信号を示し、男性の音声信号と女性の音声信号
のレベル比が3対2の場合を示している。図15はその
場合の類似度を示す。この例では、最大値の類似度に対
応する窓幅のサンプル数は約110である。この場合、
図9(A)に示す圧縮処理を行うために、最大値の類似
度に対応する窓幅のサンプル数110を選び、この窓幅
で切り出したデータ列を類似波形のデータ列として話速
変換に使用することになる。
【0043】図16は、女性の音声信号のレベルと男性
の音声信号のレベル比が3対2の場合の音声信号を示し
ている。また、図17はその場合の類似度を示す。この
場合、女性の音声信号のレベルが大きいために、最大値
の類似度に対応する窓幅は60サンプル数であり、最大
値の次に大きい類似度に対応する窓幅は110サンプル
数程度である。したがって、この場合には、110サン
プル数が60サンプル数よりも大きいから、最大値の次
に大きい類似度に対応する窓幅である110サンプル数
を選択し、この窓幅で切り出したデータ列を類似波形の
データ列として話速変換を行う。
【0044】したがって、図17に示すように、最大値
の次に大きい類似度に対応する窓幅が最大値の類似度に
対応する窓幅よりも大きいときは、最大値の次に大きい
類似度に対応する窓幅で切り出したデータ列をメモリの
データ内の類似波形のデータ列として検出する。このよ
うにすることで、図9で説明した理由から、二声のひず
み、ノイズを最小限に抑えることが出来る。
【0045】以上の実施形態では、入力信号を音声信号
とする話速変換装置について説明したが、アナログ信号
中の類似波形を検出する装置であれば話速変換装置に限
らずどのような装置であってもかまわない。また、話速
変換装置では、入力される音声信号は上記実施形態で示
したように生の信号で良く、周期性を持つ母音信号であ
る必然はないし、また、周期性のない子音信号であって
も、あるいはノイズ信号であってもかまわない。本実施
形態では、どの信号形態であっても、類似波形が検出さ
れることにより、その波形を使用して時間軸の圧縮伸長
処理による話速変換が可能である。
【0046】
【発明の効果】請求項1の発明によれば、従来のような
自己相関手法によらなくてもアナログ信号中の類似波形
を検出できるため、演算量が非常に少なくなる利点があ
る。また、単純積和構造の式により類似度演算を行うた
め、汎用のDSPに適合し、リアルタイム処理が可能に
なる。
【0047】請求項2の発明によれば、女性と男性の混
声信号等、2つの信号が混ざったアナログ信号が入力さ
れる場合、どちらの信号レベルが小さくても、波形の伸
長圧縮処理を行う場合に、よりひずみの小さくなる類似
波形を検出することができる。
【0048】請求項3の発明によれば、データ列を切り
出す時の基点を任意の点に設定することで、過去のデー
タを用いながら類似度演算を行うことができるため、過
去分のデータを新たに読み出す時間を省略できその分処
理時間を短縮することができる。
【0049】請求項4の発明によれば、以上の操作によ
ってアナログ信号の伸長圧縮処理を容易に行えるという
効果がある。
【0050】請求項5の発明によれば、音声信号に対し
て母音、子音等を予め分離しなくても容易に、且つ高速
に話速変換を行うことができる。
【図面の簡単な説明】
【図1】この発明が適用される話速変換装置の概略構成
【図2】この発明の実施形態である話速変換装置のブロ
ック図
【図3】データ列ペアを切り出す方法について説明する
【図4】ダブルピッチによるデータ列ペアの切り出し方
法について説明する図
【図5】データ列と窓幅を示す図
【図6】(A)、(B)圧縮処理例と伸長処理例をそれ
ぞれ示す図
【図7】データ列ペアを切り出す他の方法について説明
する図
【図8】sin波合成信号と類似度を示す図
【図9】(A)、(B)二声混合信号の圧縮処理例1、
圧縮処理例2についてそれぞれ説明するための図
【図10】男性音声、女性音声、男性女性混合音声それ
ぞれについての音声信号波形と類似度を示す図
【図11】男性音声、女性音声、男性女性混合音声それ
ぞれについての音声信号波形と類似度を示す図
【図12】男性音声、女性音声、男性女性混合音声それ
ぞれについての音声信号波形と類似度を示す図
【図13】男性音声、女性音声、男性女性混合音声それ
ぞれについての音声信号波形と類似度を示す図
【図14】男性音声、女性音声、男性女性混合音声それ
ぞれについての音声信号波形と類似度を示す図
【図15】男性音声、女性音声、男性女性混合音声それ
ぞれについての音声信号波形と類似度を示す図
【図16】男性音声、女性音声、男性女性混合音声それ
ぞれについての音声信号波形と類似度を示す図
【図17】男性音声、女性音声、男性女性混合音声それ
ぞれについての音声信号波形と類似度を示す図
【図18】話速変換処理について説明するための図
【図19】従来の自己相関法によるピッチ抽出法につい
て説明するための図
───────────────────────────────────────────────────── フロントページの続き (72)発明者 三木 晃 静岡県浜松市中沢町10番1号 ヤマハ株式 会社内 (72)発明者 谷高 幸司 静岡県浜松市中沢町10番1号 ヤマハ株式 会社内 (72)発明者 大脇 浩 静岡県浜松市中沢町10番1号 ヤマハ株式 会社内 (72)発明者 河本 晃一 静岡県浜松市中沢町10番1号 ヤマハ株式 会社内 Fターム(参考) 5D015 DD03 5D045 BA02 5J064 AA02 BA18 BB03 BB13 BC01 BC06 BC07 BC11

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 アナログ信号をデジタル化して一定時間
    蓄積記憶するメモリと、該メモリのデータから窓幅を変
    えながら各窓幅毎の2つのデータ列を時系列方向に連続
    して切り出すデータ列切り出し手段と、切り出した2つ
    のデータ列の類似度を各窓幅毎に算出する類似度算出手
    段と、算出した窓幅毎の類似度のうち略最大値の類似度
    に対応する窓幅で切り出したデータ列をメモリのデータ
    内の類似波形のデータ列として検出する類似波形検出手
    段と、を備え、 前記類似度算出手段は、類似度Rを各窓幅毎に次式で算
    出することを特徴とする、アナログ信号中の類似波形検
    出装置。 【数1】 但し、 Sa(n)は、1番目データ列のn番目データ Sb(n)は、2番目データ列のn番目データ Nは、各データ列のデータ数
  2. 【請求項2】 前記アナログ信号が複数種類の信号であ
    る場合に、前記類似波形算出手段は、最大値の次に大き
    い類似度に対応する窓幅が最大値の類似度に対応する窓
    幅よりも大きいとき、最大値の次に大きい類似度に対応
    する窓幅で切り出したデータ列をメモリのデータ内の類
    似波形のデータ列として検出することを特徴とする、請
    求項1記載のアナログ信号中の類似波形検出装置。
  3. 【請求項3】 前記データ列切り出し手段は、時系列方
    向の任意の点を基点として前後に設定した窓幅から2つ
    のデータ列を切り出す、請求項1または2のいずれかに
    記載のアナログ信号中の類似波形検出装置。
  4. 【請求項4】 前記類似波形検出手段で検出した類似波
    形を全波形に加える伸長操作、又は、全波形から切り出
    す圧縮操作を行う時間軸操作手段を備えてなる、請求項
    1〜3のいずれかに記載のアナログ信号の伸長圧縮装
    置。
  5. 【請求項5】 前記メモリは音声信号をデジタル化した
    データを記憶するものであり、前記時間軸操作手段は伸
    長操作により話速変換を行う請求項4記載のアナログ信
    号の伸長圧縮装置。
JP00163099A 1999-01-07 1999-01-07 アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 Expired - Fee Related JP3266124B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00163099A JP3266124B2 (ja) 1999-01-07 1999-01-07 アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00163099A JP3266124B2 (ja) 1999-01-07 1999-01-07 アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置

Publications (2)

Publication Number Publication Date
JP2000200100A true JP2000200100A (ja) 2000-07-18
JP3266124B2 JP3266124B2 (ja) 2002-03-18

Family

ID=11506864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00163099A Expired - Fee Related JP3266124B2 (ja) 1999-01-07 1999-01-07 アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置

Country Status (1)

Country Link
JP (1) JP3266124B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002086866A1 (fr) * 2001-04-16 2002-10-31 Sakai, Yasue Procede et dispositif de compression, procede et dispositif de decompression, systeme de compression/decompression, procede de detection de crete, programme et support d'enregistrement
JP2005275010A (ja) * 2004-03-25 2005-10-06 Casio Comput Co Ltd 音声伸張装置、音声伸張方法及びプログラム
WO2007080764A1 (ja) * 2006-01-12 2007-07-19 Matsushita Electric Industrial Co., Ltd. 対象音分析装置、対象音分析方法および対象音分析プログラム
JP2009053618A (ja) * 2007-08-29 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2011095509A (ja) * 2009-10-29 2011-05-12 Jvc Kenwood Holdings Inc 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2021071729A (ja) * 2016-10-12 2021-05-06 アドバンスド ニュー テクノロジーズ カンパニー リミテッド 音声信号検出方法及び装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4940888B2 (ja) * 2006-10-23 2012-05-30 ソニー株式会社 オーディオ信号伸張圧縮装置及び方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002086866A1 (fr) * 2001-04-16 2002-10-31 Sakai, Yasue Procede et dispositif de compression, procede et dispositif de decompression, systeme de compression/decompression, procede de detection de crete, programme et support d'enregistrement
US6785644B2 (en) 2001-04-16 2004-08-31 Yasue Sakai Alternate window compression/decompression method, apparatus, and system
JP2005275010A (ja) * 2004-03-25 2005-10-06 Casio Comput Co Ltd 音声伸張装置、音声伸張方法及びプログラム
WO2007080764A1 (ja) * 2006-01-12 2007-07-19 Matsushita Electric Industrial Co., Ltd. 対象音分析装置、対象音分析方法および対象音分析プログラム
JPWO2007080764A1 (ja) * 2006-01-12 2009-06-11 パナソニック株式会社 対象音分析装置、対象音分析方法および対象音分析プログラム
US8223978B2 (en) 2006-01-12 2012-07-17 Panasonic Corporation Target sound analysis apparatus, target sound analysis method and target sound analysis program
JP2009053618A (ja) * 2007-08-29 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
US8214211B2 (en) 2007-08-29 2012-07-03 Yamaha Corporation Voice processing device and program
JP2011095509A (ja) * 2009-10-29 2011-05-12 Jvc Kenwood Holdings Inc 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2021071729A (ja) * 2016-10-12 2021-05-06 アドバンスド ニュー テクノロジーズ カンパニー リミテッド 音声信号検出方法及び装置
JP6999012B2 (ja) 2016-10-12 2022-01-18 アドバンスド ニュー テクノロジーズ カンパニー リミテッド 音声信号検出方法及び装置

Also Published As

Publication number Publication date
JP3266124B2 (ja) 2002-03-18

Similar Documents

Publication Publication Date Title
CN110503976B (zh) 音频分离方法、装置、电子设备及存储介质
US8315856B2 (en) Identify features of speech based on events in a signal representing spoken sounds
CN101625858A (zh) 语音端点检测中短时能频值的提取方法
JP3266124B2 (ja) アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
JP3219868B2 (ja) 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置
JP3379348B2 (ja) ピッチ変換器
JP3500690B2 (ja) オーディオピッチ抽出装置及びオーディオ処理装置
WO2009055701A1 (en) Processing of a signal representing speech
KR100359988B1 (ko) 실시간 화속 변환 장치
JPH03114100A (ja) 音声区間検出装置
JP2006038956A (ja) 音声速度遅延装置及び方法
JPH0193799A (ja) 音声ピッチ変換方法
JPH08254992A (ja) 話速変換装置
JPH0883095A (ja) 話速変換方法および装置
JPH0731506B2 (ja) 音声認識方法
JPS5995597A (ja) 音声特徴パラメ−タ作成方式
JPS62174798A (ja) 音声分析装置
JPS61177000A (ja) 音声パタ−ン登録方式
JPS625298A (ja) 音声認識装置
JPH07104675B2 (ja) 音声認識方法
JPS6043697A (ja) 子音と母音の境界検出装置
JPS6155700A (ja) ピッチ抽出処理方式
JPS63234299A (ja) 音声分析合成方式
JP2003241792A (ja) 音声認識装置及び方法
JPH02226300A (ja) 音韻区間情報形成装置

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100111

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees