JP2000200100A - アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 - Google Patents
アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置Info
- Publication number
- JP2000200100A JP2000200100A JP11001630A JP163099A JP2000200100A JP 2000200100 A JP2000200100 A JP 2000200100A JP 11001630 A JP11001630 A JP 11001630A JP 163099 A JP163099 A JP 163099A JP 2000200100 A JP2000200100 A JP 2000200100A
- Authority
- JP
- Japan
- Prior art keywords
- data
- similarity
- window width
- data string
- similar waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
列方向に連続して存在する類似波形を検出する装置を提
供する。 【解決手段】音声信号2をデジタル化してメモリ4に記
憶し、データ列切り出し手段5によって各窓幅Wa、W
b毎の2つのデータ列を時系列方向に連続して切り出し
ていく。類似度演算・類似波形検出部6では切り出した
2つのデータ列の類似度を各窓幅毎に単純積和演算によ
りDSPチップによりリアルタイムで算出し、その中の
最大値の類似度に対応する窓幅で切り出したデータ列を
類似波形のデータ列Sa、Sbとして検出し伸長圧縮部
7に出力する。伸長圧縮部7では、このデータ列Sa、
Sbに基づいて信号の時間軸伸長圧縮処理を行い、出力
端子8に話速変換された音声信号を出力する。
Description
変換等に使用されるアナログ信号内の類似波形検出装置
および同信号の伸張圧縮装置に関する。
を任意に制御できる話速変換技術は、音声再生の各分野
において応用されている。例えば、聴覚にハンディキャ
ップを持つ人を支援するために、話速変換によって音声
を引き伸ばす処理を行う装置がある。
って話速変換を行う従来の方法を示している。入力音声
のピッチ周期Tをまず検出し、このピッチ周期Tの波形
を少なくとも1波形以上加える。この操作を適宜行うこ
とにより、音声のピッチを変えずに発声速度を遅くする
ことができる。また、伸長処理ではなく、少なくとも1
波形以上入力音声から切り出す圧縮処理を行うことによ
り、発声速度を早くすることも可能である。圧縮処理
は、例えば、VTRの高速再生時に音声ピッチを保持し
た再生を可能にする。
縮処理は、従来は、もとの入力音声のピッチTをまず検
出し、次いでこのピッチTの追加操作または切出操作を
行うものである。周期的波形を含む入力音声のピッチT
を検出する手法として、従来は、いわゆる自己相関法が
専ら用いられていた。自己相関関数RXX(k)は、一般
に、次の数式で示される。
自己相関関数RXX(k)のうち、最大の値を持つ時の時
間差kに標本化間隔Δtを掛けた値から、その信号のピ
ッチを求めることができる。自己相関法によって音声の
母音部等の周期的アナログ信号のピッチを求める技術と
しては、特開平6−161494号公報等に示されてい
る。また、検出したピッチに基づいて波形の伸長圧縮を
行って話速変換を行う技術については、例えば特開平7
−77999号公報等に示されている。
では、すべてのkについてサンプル数Nの積和演算を行
うために演算量が膨大なものとなってしまう。このた
め、リアルタイム話速変換等を行う必要のある場合に
は、このような演算方法では間に合わなくなってしまう
問題があり、また、演算量を減らすためにkの間隔を減
らすなどの間引き処理を行ったり補間処理を行うと、ひ
ずみが生じたりするなど出力品質が低下してしまう問題
がある。また、波形挿入(伸長処理)による話速変換を
行う場合、時系列方向に2つの連続したピッチ波形を抽
出する必要があるが、自己相関法でこれを行うと、1番
目のピッチ波形と2番目のピッチ波形をそれぞれ独立し
て抽出することになるために(自己相関法では複数のピ
ッチ波形を同時に抽出することはできない)演算量がさ
らに増大する問題があった。更に、図19(A)、
(B)に示すように、自己相関法によって時系列方向に
2つの連続するピッチ波形を抽出した場合、前の波形の
ピッチ周期T1と後ろの波形のピッチT2とが一致しな
い場合があり、このような場合2つのピッチT1、T2
の差分を修正するための調整処理が必要となり、そのた
めの演算量が更に増大すると共に、処理が不適当である
と話速変換による波形の伸長や圧縮が適切なものとなら
ず、出力結果にひずみとなって現れる不都合があった。
で、アナログ信号中の時系列方向に連続して存在する類
似波形を検出する装置を提供することにある。
が音声信号の場合、ピッチ波形を抽出しなくても非常に
少ない演算量で話速変換を可能にする装置を提供するこ
とにある。
ログ信号をデジタル化して一定時間蓄積記憶するメモリ
と、該メモリのデータから窓幅を変えながら各窓幅毎の
2つのデータ列を時系列方向に連続して切り出すデータ
列切り出し手段と、切り出した2つのデータ列の類似度
を各窓幅毎に算出する類似度算出手段と、算出した窓幅
毎の類似度のうち略最大値の類似度に対応する窓幅で切
り出したデータ列をメモリのデータ内の類似波形のデー
タ列として検出する類似波形検出手段と、を備えてい
る。
を適応した話速変換装置の概略構成図である。
D変換器3でデジタル化されて一定時間分の容量を持つ
メモリ4に順次蓄積記憶される。このメモリ4に蓄積記
憶されたデータからは、データ列切出部5によって、窓
幅を変えながら各窓幅毎の2つのデータ列が時系列方向
に連続して切り出される。すなわち、時系列方向に連続
して切り出す窓幅を、WaiとWbiとして、系列1で
は、Wa1、Wb1の窓幅で時系列方向に連続してデー
タ列を切り出し、系列2では、Wa2、Wb2の2つの
窓幅でデータ列を切り出す。各窓幅は、系列1から順に
少しずつ一定のピッチで増加していき所定の窓幅までこ
のデータ列切出しを繰り返す。データ列切出部5で切り
出された各系列(各窓幅)の2つのデータ列は、それぞ
れ類似度演算・類似波形検出部6に出力される。類似度
演算・類似波形検出部6は、切り出した2つのデータ列
の類似度を各系列毎(窓幅毎)に算出する。類似度R
は、式(2)により求めることができる。
て各系列毎の類似度Rを求め、各Rのうち最大値のRに
対応する窓幅Wa、Wbで切り出したデータ列を類似波
形のデータ列として検出し、これを伸長圧縮部7に出力
する。伸長圧縮部7は、この最大値の類似度Rに対応す
る窓幅Sa、Sbを用いて、元の信号に対して時間軸上
の伸長または圧縮処理を行うことによって話速変換を行
い出力端子8に出力する。類似度Rのうち最大値はもっ
とも望ましいが、実用的な話速変換を行う上においては
最大値近辺のものを選択することでも差し支えはない。
このような積和演算は汎用のDSPで高速に行うことが
出来る。この発明では汎用のDSPチップでの高速演算
が可能な式(2)による類似度を求めるようにしている
ため、信号処理のリアルタイムオペレーションが可能で
ある。このため、信号の伸長・圧縮処理による話速変換
を行う場合等には、このような式(2)による積和演算
による類似度演算が必須となる。類似度を求める他の方
法も考えられるが、式(2)による積和演算法以外の方
法は演算が複雑化し、高速演算能力を必要とし、消費電
力を増大させるので小型化やリアルタイム処理に適さな
いと思われる。
部6での演算内容は、データ列切出部5で切り出した各
系列毎の2つのデータ列だけを対象とするために、式
(1)に比較して演算量は極めて少ない。そして、2つ
の処理区間が同時に決定でき、しかも、WaとWbは同
じ長さであるために、図19に示すようなピッチ長の違
いによる調整のための処理を必要としない。更に、メモ
リ4に記憶されるデータは母音、子音、雑音といった区
分けが不要であり、記憶データ内に連続する類似波形部
が存在すれば、それを用いて伸長圧縮処理を簡単に行う
ことができる。
グ信号が複数種類の信号である場合に、前記類似波形算
出手段は、最大値の次に大きい類似度に対応する窓幅が
最大値の類似度に対応する窓幅よりも大きいとき、最大
値の次に大きい類似度に対応する窓幅で切り出したデー
タ列をメモリのデータ内の類似波形のデータ列として検
出することを特徴とする。
のアナログ信号(音声信号など)が同時に入力した場合
に、何れか1つのアナログ信号が選択されて、その信号
に対してデータ列切り出しと類似度演算が行われること
になるが(例えば、レベルの大きなアナログ信号が選択
されることが考えられる)、このような場合に、無条件
に類似度が最大の窓幅のデータ列を選択すると、そのデ
ータ列を伸長圧縮によって話速変換を行った場合には選
択されなかった信号がひずんでしまう可能性が出てく
る。そこで、複数のアナログ信号が入力している時に
は、最大値の次に大きい類似度に対応する窓幅が最大値
の類似度に対応する窓幅よりも大きい場合、前者の窓幅
で切り出したデータ列を類似波形のデータ列として検出
する。すなわち、2番目の類似度の窓幅で切り出したデ
ータ列を類似波形のデータ列として検出する。このよう
にすると、複数の信号が入力した場合にも、伸長圧縮し
た時に、いずれかの信号がひずんでしまうのを防ぐこと
ができる。この理由については後述する。
列切り出し手段は、時系列方向の任意の点を基点として
前後に設定した窓幅から2つのデータ列を切り出すこと
を特徴とする。
に記憶されているデータの任意の点を基点として前後の
設定した窓幅から2つのデータ列を切り出すものであ
り、このようにすると、類似度演算に過去のデータを利
用出来るようになりポインタでデータを読み出すための
時間を短くすることが出来、その分処理時間を短縮化で
きる。すなわち、ポインタをメモリの先頭番地において
おけば、系列毎に常にポインタを先頭番地からWaとW
bの2つの窓幅間を移動させてその間のデータを読み出
す必要があるが、ポインタを、メモリの任意の位置にお
いておくと、メモリの先頭番地からそのポインタまでの
データを1度読んでおけば、後は系列毎にそのポインタ
位置から前方向にWbの窓幅のデータだけを読んでいけ
ばよくなる(Waのデータについては過去のデータとな
るから読み出す必要がない。)。例えば、ポインタをメ
モリの真中のアドレスに設定しておけば、各系列毎のデ
ータ読み出し時間を半分にすることが出来る。
形検出手段で検出した類似波形を全波形に加える伸長操
作、又は、全波形から切り出す圧縮操作を行う時間軸操
作手段を備えてなることを特徴とする。
対し上記切り出した類似波形を1波分以上加える伸長操
作または、1波分以上前波形から切り出す圧縮操作を行
う。このようにすることによって、出力端子8に、アナ
ログ信号の時間軸を伸長圧縮した信号を出力することが
できる。
は音声信号をデジタル化したデータを記憶するものであ
り、前記時間軸操作手段は伸長操作により話速変換を行
うことを特徴とする。
号が音声信号2である時、伸長圧縮7においてその信号
の時間軸の伸長圧縮処理を行うことにより、話速変換が
行われることになる。すなわち、出力端子8には、音声
ピッチを変えずに話す速度を変えた信号が出力される。
る話速変換装置の構成図を示している。
防止するためのアンチエリアシングフィルタ10を通過
し、A/D変換器11によってデジタルデータに変換さ
れる。A/D変換されたデータは信号処理部12に送ら
れ、メモリ13に対して時系列に書き込まれていく。メ
モリ13に予め設定したサンプル数(1フレーム分)の
データが蓄積されると、信号処理部12によって波形類
似度の高い2つのデータ列(データ列ペア)が選択さ
れ、このデータ列ペアによって入力信号の時間軸伸長圧
縮処理が行われた後、メモリ14に書き込まれる。メモ
リ14のデータは一定時間間隔で制御部15によって読
み出され、D/A変換器17でデジタル信号から再度ア
ナログ信号に変換された後、ベースバンド帯域だけを取
り出すためのスムージングフィルタ17によって滑らか
なアナログ信号に変換されて出力される。
データ列ペアの選択は次のようにして行われる。
タから窓幅を変えながら各窓幅毎のデータ列ペアを時系
列方向に連続して切り出していく方法を説明する図であ
る。同図において、Wa、Wbはそれぞれ窓幅を示し、
Wa=Wbである。ポインタptは初期状態ではメモリ
13の先頭番地に位置している。最初に、窓幅をWa
1、Wb1に設定した系列1においてデータ列ペアの切
り出しを行う。なお、この実施形態では、音声信号を1
1KHz でサンプリングしており、概ね80〜400Hzの
波形を検出できるように、窓幅を、サンプル数にして6
0個〜120個の範囲で変えるようにしている。すなわ
ち、11KHz のサンプリング周波数で窓幅のサンプルデ
ータ数を60個とすれば、その窓幅は11KHz /60≒
180Hzとなり、窓幅のサンプルデータ数を120個と
すれば、その窓幅は11KHz /120≒90Hzとなるか
ら、サンプル数にして60個〜120個の範囲で窓幅を
変化させることにより、直接的には90Hz〜180Hzの
波形について類似度のサーチを行うことができる。実際
には、話速変換を行う場合母音部において波形の周期性
が認められるから、この母音部でのピッチを検出できる
ようにした方が望ましいと考えられ、一方、人間の音声
の母音部でのピッチは、通常、80〜400Hzの範囲内
に含まれるから、本実施形態では、窓幅のサンプルデー
タ数を60個〜120個で可変することにより、90〜
180Hz程度までしか波形類似度をダイレクトに検出す
ることができなくなる。しかし、180〜400Hzのピ
ッチについてはダブルピッチによってデータ列ペアの切
出しが可能である。図4は、ダブルピッチによるデータ
列ペアの切り出し法を示している。窓幅Wa、Wbとも
2波分を含むダブルピッチの長さとなっている。
1のサンプルデータ数は、それぞれ60個である。従っ
て、メモリ13の先頭番地からポインタptを60回移
動させて窓幅Wa1の60サンプル分のデータ列を入力
データから抽出してメモリ13に記憶し、更にポインタ
ptを60回移動させて窓幅Wb1の60サンプル分の
データ列を入力データから抽出してメモリ13に記憶す
る。このようにして抽出した窓幅Wa1、Wb1からな
る系列1のデータ列ペアに対して、その類似度R(n
1)を式(3)により求める。
める上で最も演算量が少ないものと考えられる。また、
汎用のDSPチップは、一般にこのような単純な積和演
算を高速処理するのに適した構造にあり、DSPを利用
してかかる積和演算を行うことでリアルタイム処理が可
能となる。これ以外の類似度演算を行う方法も考えられ
なくはないが、演算量が増大し、DSP演算にも不適当
となり、リアルタイム処理が出来なくなってしまう。例
えば、上記式(3)に代えて、Σ(減算式)n のような
式は演算量が相対的に増大し、且つ、単純積和構造では
なくなるため、高速演算能力を必要とし消費電力も増大
するので、小型化やリアルタイム処理には不向きであ
る。
係は図5に示すようになる。
り返す。系列2においては、窓幅Wa2、Wb2を系列
1の窓幅よりも各々+1のサンプルデータ数だけ長い窓
幅とする。したがって、ポインタptを時系列方向に+
2だけ移動させて2サンプル分のデータを入力データよ
り読み出して記憶する。なお、本実施形態のように、系
列を1つ増やす毎に増やすサンプル数を+2とする(W
a、Wbとも1ステップ増加)のが望ましいが、演算量
を少なくするために適当なステップ増加数とすることも
可能である。サンプル数の増加ステップ数を+1とした
場合は、Wa2=Wb2=n2=n1+1となり、ま
た、Sb(1)=Sa(1)+n2となる。そして、こ
の場合の、類似度R(n2)は、次の式(4)によって
求められる。
ータ列ペアの類似度Rは、データ列間の要素を積算し、
その積算値を要素数で除すことによって得られる平均値
としている。したがって、波形が類似するに応じてRも
大きくなっていく。このようにして、各系列についての
類似度を求めていき、最後に、窓幅を、メモリ13に記
憶出来る全サンプル数Nの半分(R/2)にした時の類
似度R(N/2)を、次式(5)によって求める。な
お、この時には、Wa=Wb=N/2、Sb(1)=S
a(1)+N/2となる。
度に対応する窓幅のデータ列ペアSa、Sbを最適値と
して選択し、信号処理部12は、このデータ列ペアを用
いて時間軸の伸長圧縮処理、すなわち話速変換処理を行
う。図6(A)は圧縮処理をする場合、同図(B)は伸
長処理をする場合の波形の削除、挿入方法について示す
図である。
れぞれ窓関数k1、k2で積和処理(k1*Sa+k2
*Sb)を行い、この積和演算結果を、データ列ペアS
a、Sbに置き換える。窓関数k1はデータ列Saの最
初の位置では1であり、最後の位置では0の値をとる一
次関数であり、また、窓関数k2は、データ列Sbの最
初の位置で0、最後の位置で1となる一次関数である。
したがって、上記積和演算結果の最初の値はデータ列S
aの最初の位置の値に等しく、積和演算結果の最後の値
はデータ列Sbの最後の位置の値に等しい。この結果、
上記積和演算によって得られる結果をデータ列ペアS
a、Sbに置き換えても、その前後の波形(データ列S
aの後ろの波形およびデータ列Sbの前の波形Sc)と
の間で信号の不連続が生じるのをなくすことができる。
長を行う。すなわち、データ列Saには最初の位置で
0、最後の位置で1の値をとる一次関数の窓関数k3を
掛け、データ列Sbに対しては最初の位置で1、最後の
位置で0となる一次関数の窓関数k4を掛け、その結果
をデータ列SaとSb間に挿入する。この場合も、窓関
数k3、k4を上記のような傾きを持つ一次関数として
いるため、信号の不連続性が生じることはない。
波形の削除および挿入による圧縮、伸長処理を示した
が、通常は、複数個の波形の圧縮、伸長処理が行われて
話速変換が実現される。
について説明するための図である。図3に示す方法で
は、系列1のデータ列ペア120サンプル分を読み出し
て類似演算をした後、更に+2サンプル分読み出して系
列2のデータ列ペアの類似演算を行い、更に、+2サン
プル分読み出して系列3の類似演算を行うようにしてい
くなど、系列が1つ進む毎に+2サンプル分を読み出し
て類似度の演算を行うようにしていくが、サンプリング
周波数は11KHz であるために1サンプル分の読み出し
時間に0.09×10-3(sec) の時間を必要とすること
になり、全体としてこの時間の累積が無視できなくな
る。そこで、図7に示すように、ポインタptの位置を
メモリ13の中心番地に持ってくることにより、窓幅W
aのデータは過去のデータとしてすでにメモリ13内に
記憶されていることになり、新たに読み出すデータは窓
幅Wbに対応する分だけとなる。すなわち、系列1につ
いてはWb1の窓幅の60サンプル分のデータを読み出
した後類似演算を行い、系列2については、更に+1サ
ンプル分のデータを読み出して類似演算を行い、系列3
については、更に+1サンプル分のデータを読み出して
類似演算を行うことでよい。 すなわち、系列1につい
ては60サンプル分、系列2以下については+1サンプ
ル分(合計61サンプル分)のデータを読み出して行く
だけで各系列毎の類似演算を行うことができる。図3に
示す方法では、系列1で120サンプル分のデータ列を
読み出した後、系列が1つ進む毎に+2サンプル分のデ
ータを順次読み出して行くが、図7の方法では系列1で
60サンプル分のデータを読み出した後、系列が1つ進
む毎に+1サンプル分のデータを読み出していくだけで
類似度の演算を各窓幅毎に行うことができるため、全体
としての演算時間を非常に短くすることができる。実
際、類似演算そのものはDSP等で行うために10-9(s
ec) 単位で演算を行うが、これに比べて1つのデータを
読み出す時間(0.09×10-3)(sec) はかなり長
い。したがって、全体の処理時間を短縮するのに図7に
示す方法を採用することは極めて効果的である。なお、
信号処理のスタート時点ではポインタptから過去分に
遡ったデータ(Waの窓幅のデータ)がまだ記憶されて
いないためにその過去のデータが揃うまでに時間を必要
とするが、一旦揃えば、以後の連続信号処理においては
常にポインタptを基点とした時の過去分のデータをそ
のまま利用することができるために、上記の理由によっ
て演算時間を非常に短くすることができる。
成信号に対してA/D変換を行い、図3に示す方法によ
ってデータ列ペアを切り出し、更に式(2)によって各
系列の類似度を算出し、その類似度を波形と共に示した
図である。ここでは、sin波合成信号Sとしては、 S=sin(2πft)+sin(3πft) を用いた。なお、横軸の数字はサンプル数(時間)を示
し、縦軸は信号の大きさと類似度をそれぞれ正規化して
示している。sin波合成信号Aは、そのピッチはサン
プル数にして21となるが、類似度Bのピーク値Bma
xも21を示している。したがって、入力信号として2
つの周期の信号の合成信号が入力した場合であっても、
最大の類似度に対応する窓幅を元の信号の周期(ピッ
チ)とみなすことができる。
てもこの発明の装置によって類似波形を検出することが
できるから、図2に示す話速変換装置において音声信号
として2種類の信号が合成された合成信号が入力された
場合でも最大値を持つ類似度を算出することで類似波形
を検出することが可能である。ただし、信号処理部12
においては、2種類の音声信号のうち、音声信号のレベ
ルの大きな方についての類似度が音声信号のレベルの小
さな方のそれよりも大きくなる。このことは、類似度の
計算が式(2)によって行われることからも推定でき
る。また、図8からもピーク値Bmaxはレベルの大き
なsin(3πft)に対してのものであり、その次に
大きい値Bmax′はレベルの小さなsin(2πf
t)に対してのものであることがわかる。このような理
由から、例えば、男性の声と女性の声が混ざった合成音
声信号が入力した場合は、男性の声のレベルが大きい場
合には最大の類似度に対応する窓幅で切り出したデータ
列は男性の音声信号の類似波形のデータ列となり、反対
に女性の声のレベルが大きい場合には最大類似度に対応
する窓幅で切り出したデータ列は女性の音声信号の類似
波形のデータ列となる。一方、もし、前者のように男性
信号のレベルが大きい場合は、最大類似度に対応する窓
幅は男性の音声信号に対応するから、この窓幅で切り出
したデータ列によって伸長圧縮処理、すなわち話速変換
が、女性の音声信号に対しても行われることになる。図
9(A)はこの状態を示している。同図では、Sa、S
bが男性の音声信号において最大類似度を示した窓幅の
データ列である。また、一般に、男性の音声信号よりも
女性の音声信号の方がピッチが高いから、このデータ列
Saの中に女性の音声信号の中で最大類似度を示す窓幅
のデータ列Sa′が含まれるものと考えられる。すなわ
ち、図9(A)においてSa′、Sb′が女性の音声信
号の最大類似度を示すデータ列である。Srは、Saか
らSa′の整数倍を引いた残り、または、SbからS
b′の整数倍を差し引いた残りを示している。この残り
のデータ列Srは圧縮処理の場合そのまま残るから、こ
れが1波形分に相当しないために出力信号のひずみ、ノ
イズ成分となってくる。
が男性の音声信号のレベルよりも大きい場合には、図9
(B)に示すようになる。同図において、Sa、Sbは
女性の音声信号の最大類似度に対応する窓幅で切り出し
たデータ列を示し、Sa′、Sb′は男性の音声信号の
最大類似度に対応する窓幅のデータ列を示す。またSr
はSa’からSaを差し引いた残りの部分である。この
例では、圧縮処理を行った場合女性の音声信号が正しく
出力されるが、男性の音声信号についてはSrの分が欠
けるために1波形分全体がひずみ、ノイズ成分となって
くる。
と、図9(A)では圧縮処理を行った時にSa′のいく
つかの波形はSaに含まれるのに対し、図9(B)では
SaにSa′が含まれないから、図9(A)の場合の方
がより聴きやすくなるものと推定される。したがって、
女性の声の音声レベルが大きい場合であっても、男性の
音声信号の最大類似度に対応する窓幅で切り出したデー
タ列で圧縮処理を行うようにすれば、常にどのような場
合でも図9(A)に示すような処理が行われるようにな
って、ノイズやひずみの少ない話速変換を行うことがで
きるようになる。図10〜図17は、一声または二声
(男女)の音声信号が図2の話速変換装置に入力された
場合の音声信号波形と演算によって求めた類似度をそれ
ぞれ示す図である。これらの図の横軸はサンプル数(時
間)を示し、縦軸は音声信号については音声レベル、類
似度については類似度の大きさを示している。図10、
図11について説明すると、図10は、一般の大人の男
性が“あ”を発声した時の音声信号の一部を示してい
る。サンプル周波数は前述のように11KHz であり、図
10では、メモリ13に記憶される240サンプル数の
データを示している。この男性の音声信号に対してデー
タ列切り出しと類似度の算出を行った結果、類似度は図
11に示すように変化した。具体的には、図3の最初の
系列窓幅Wa1、Wb1を50サンプル数に設定し、以
後1サンプル数ずつ増やしていきながらサンプル数が1
20になるまで各系列毎に類似度演算を行っていった。
図11に示すように、類似度の最大値はサンプル数が1
10付近の時である。したがって、図10に示す男性の
“あ”の音声信号では、サンプル数にして110の窓幅
で切り出したデータ列が類似波形のデータ列として検出
され、これに基づいて話速変換が行われることになる。
なお、図10では第1回目のピークと第2回目のピーク
のレベル差があるが、類似波形を検出する場合にはピー
ク値は大きな問題とはならない。この例では、第1回目
のピークと第2回目のピークの間が、図1で示される類
似度の最大値のサンプル数にほぼ等しい。
声信号を示している。また図13は、その場合の類似度
を示している。この例では、類似度の最大値を示すサン
プル数は約60程度である。したがって、サンプル数6
0の窓幅で切り出したデータ列を類似波形のデータ列と
して検出し、話速変換を行う。なお、図12では、ピー
ク間のサンプル数がほぼ60サンプル数に相当してい
る。
時の音声信号を示し、男性の音声信号と女性の音声信号
のレベル比が3対2の場合を示している。図15はその
場合の類似度を示す。この例では、最大値の類似度に対
応する窓幅のサンプル数は約110である。この場合、
図9(A)に示す圧縮処理を行うために、最大値の類似
度に対応する窓幅のサンプル数110を選び、この窓幅
で切り出したデータ列を類似波形のデータ列として話速
変換に使用することになる。
の音声信号のレベル比が3対2の場合の音声信号を示し
ている。また、図17はその場合の類似度を示す。この
場合、女性の音声信号のレベルが大きいために、最大値
の類似度に対応する窓幅は60サンプル数であり、最大
値の次に大きい類似度に対応する窓幅は110サンプル
数程度である。したがって、この場合には、110サン
プル数が60サンプル数よりも大きいから、最大値の次
に大きい類似度に対応する窓幅である110サンプル数
を選択し、この窓幅で切り出したデータ列を類似波形の
データ列として話速変換を行う。
の次に大きい類似度に対応する窓幅が最大値の類似度に
対応する窓幅よりも大きいときは、最大値の次に大きい
類似度に対応する窓幅で切り出したデータ列をメモリの
データ内の類似波形のデータ列として検出する。このよ
うにすることで、図9で説明した理由から、二声のひず
み、ノイズを最小限に抑えることが出来る。
とする話速変換装置について説明したが、アナログ信号
中の類似波形を検出する装置であれば話速変換装置に限
らずどのような装置であってもかまわない。また、話速
変換装置では、入力される音声信号は上記実施形態で示
したように生の信号で良く、周期性を持つ母音信号であ
る必然はないし、また、周期性のない子音信号であって
も、あるいはノイズ信号であってもかまわない。本実施
形態では、どの信号形態であっても、類似波形が検出さ
れることにより、その波形を使用して時間軸の圧縮伸長
処理による話速変換が可能である。
自己相関手法によらなくてもアナログ信号中の類似波形
を検出できるため、演算量が非常に少なくなる利点があ
る。また、単純積和構造の式により類似度演算を行うた
め、汎用のDSPに適合し、リアルタイム処理が可能に
なる。
声信号等、2つの信号が混ざったアナログ信号が入力さ
れる場合、どちらの信号レベルが小さくても、波形の伸
長圧縮処理を行う場合に、よりひずみの小さくなる類似
波形を検出することができる。
出す時の基点を任意の点に設定することで、過去のデー
タを用いながら類似度演算を行うことができるため、過
去分のデータを新たに読み出す時間を省略できその分処
理時間を短縮することができる。
ってアナログ信号の伸長圧縮処理を容易に行えるという
効果がある。
て母音、子音等を予め分離しなくても容易に、且つ高速
に話速変換を行うことができる。
図
ック図
図
法について説明する図
ぞれ示す図
する図
圧縮処理例2についてそれぞれ説明するための図
ぞれについての音声信号波形と類似度を示す図
ぞれについての音声信号波形と類似度を示す図
ぞれについての音声信号波形と類似度を示す図
ぞれについての音声信号波形と類似度を示す図
ぞれについての音声信号波形と類似度を示す図
ぞれについての音声信号波形と類似度を示す図
ぞれについての音声信号波形と類似度を示す図
ぞれについての音声信号波形と類似度を示す図
て説明するための図
Claims (5)
- 【請求項1】 アナログ信号をデジタル化して一定時間
蓄積記憶するメモリと、該メモリのデータから窓幅を変
えながら各窓幅毎の2つのデータ列を時系列方向に連続
して切り出すデータ列切り出し手段と、切り出した2つ
のデータ列の類似度を各窓幅毎に算出する類似度算出手
段と、算出した窓幅毎の類似度のうち略最大値の類似度
に対応する窓幅で切り出したデータ列をメモリのデータ
内の類似波形のデータ列として検出する類似波形検出手
段と、を備え、 前記類似度算出手段は、類似度Rを各窓幅毎に次式で算
出することを特徴とする、アナログ信号中の類似波形検
出装置。 【数1】 但し、 Sa(n)は、1番目データ列のn番目データ Sb(n)は、2番目データ列のn番目データ Nは、各データ列のデータ数 - 【請求項2】 前記アナログ信号が複数種類の信号であ
る場合に、前記類似波形算出手段は、最大値の次に大き
い類似度に対応する窓幅が最大値の類似度に対応する窓
幅よりも大きいとき、最大値の次に大きい類似度に対応
する窓幅で切り出したデータ列をメモリのデータ内の類
似波形のデータ列として検出することを特徴とする、請
求項1記載のアナログ信号中の類似波形検出装置。 - 【請求項3】 前記データ列切り出し手段は、時系列方
向の任意の点を基点として前後に設定した窓幅から2つ
のデータ列を切り出す、請求項1または2のいずれかに
記載のアナログ信号中の類似波形検出装置。 - 【請求項4】 前記類似波形検出手段で検出した類似波
形を全波形に加える伸長操作、又は、全波形から切り出
す圧縮操作を行う時間軸操作手段を備えてなる、請求項
1〜3のいずれかに記載のアナログ信号の伸長圧縮装
置。 - 【請求項5】 前記メモリは音声信号をデジタル化した
データを記憶するものであり、前記時間軸操作手段は伸
長操作により話速変換を行う請求項4記載のアナログ信
号の伸長圧縮装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00163099A JP3266124B2 (ja) | 1999-01-07 | 1999-01-07 | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00163099A JP3266124B2 (ja) | 1999-01-07 | 1999-01-07 | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000200100A true JP2000200100A (ja) | 2000-07-18 |
JP3266124B2 JP3266124B2 (ja) | 2002-03-18 |
Family
ID=11506864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP00163099A Expired - Fee Related JP3266124B2 (ja) | 1999-01-07 | 1999-01-07 | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3266124B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002086866A1 (fr) * | 2001-04-16 | 2002-10-31 | Sakai, Yasue | Procede et dispositif de compression, procede et dispositif de decompression, systeme de compression/decompression, procede de detection de crete, programme et support d'enregistrement |
JP2005275010A (ja) * | 2004-03-25 | 2005-10-06 | Casio Comput Co Ltd | 音声伸張装置、音声伸張方法及びプログラム |
WO2007080764A1 (ja) * | 2006-01-12 | 2007-07-19 | Matsushita Electric Industrial Co., Ltd. | 対象音分析装置、対象音分析方法および対象音分析プログラム |
JP2009053618A (ja) * | 2007-08-29 | 2009-03-12 | Yamaha Corp | 音声処理装置およびプログラム |
JP2011095509A (ja) * | 2009-10-29 | 2011-05-12 | Jvc Kenwood Holdings Inc | 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム |
JP2021071729A (ja) * | 2016-10-12 | 2021-05-06 | アドバンスド ニュー テクノロジーズ カンパニー リミテッド | 音声信号検出方法及び装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4940888B2 (ja) * | 2006-10-23 | 2012-05-30 | ソニー株式会社 | オーディオ信号伸張圧縮装置及び方法 |
-
1999
- 1999-01-07 JP JP00163099A patent/JP3266124B2/ja not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002086866A1 (fr) * | 2001-04-16 | 2002-10-31 | Sakai, Yasue | Procede et dispositif de compression, procede et dispositif de decompression, systeme de compression/decompression, procede de detection de crete, programme et support d'enregistrement |
US6785644B2 (en) | 2001-04-16 | 2004-08-31 | Yasue Sakai | Alternate window compression/decompression method, apparatus, and system |
JP2005275010A (ja) * | 2004-03-25 | 2005-10-06 | Casio Comput Co Ltd | 音声伸張装置、音声伸張方法及びプログラム |
WO2007080764A1 (ja) * | 2006-01-12 | 2007-07-19 | Matsushita Electric Industrial Co., Ltd. | 対象音分析装置、対象音分析方法および対象音分析プログラム |
JPWO2007080764A1 (ja) * | 2006-01-12 | 2009-06-11 | パナソニック株式会社 | 対象音分析装置、対象音分析方法および対象音分析プログラム |
US8223978B2 (en) | 2006-01-12 | 2012-07-17 | Panasonic Corporation | Target sound analysis apparatus, target sound analysis method and target sound analysis program |
JP2009053618A (ja) * | 2007-08-29 | 2009-03-12 | Yamaha Corp | 音声処理装置およびプログラム |
US8214211B2 (en) | 2007-08-29 | 2012-07-03 | Yamaha Corporation | Voice processing device and program |
JP2011095509A (ja) * | 2009-10-29 | 2011-05-12 | Jvc Kenwood Holdings Inc | 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム |
JP2021071729A (ja) * | 2016-10-12 | 2021-05-06 | アドバンスド ニュー テクノロジーズ カンパニー リミテッド | 音声信号検出方法及び装置 |
JP6999012B2 (ja) | 2016-10-12 | 2022-01-18 | アドバンスド ニュー テクノロジーズ カンパニー リミテッド | 音声信号検出方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3266124B2 (ja) | 2002-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503976B (zh) | 音频分离方法、装置、电子设备及存储介质 | |
US8315856B2 (en) | Identify features of speech based on events in a signal representing spoken sounds | |
CN101625858A (zh) | 语音端点检测中短时能频值的提取方法 | |
JP3266124B2 (ja) | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 | |
JP3219868B2 (ja) | 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置 | |
JP3379348B2 (ja) | ピッチ変換器 | |
JP3500690B2 (ja) | オーディオピッチ抽出装置及びオーディオ処理装置 | |
WO2009055701A1 (en) | Processing of a signal representing speech | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JPH03114100A (ja) | 音声区間検出装置 | |
JP2006038956A (ja) | 音声速度遅延装置及び方法 | |
JPH0193799A (ja) | 音声ピッチ変換方法 | |
JPH08254992A (ja) | 話速変換装置 | |
JPH0883095A (ja) | 話速変換方法および装置 | |
JPH0731506B2 (ja) | 音声認識方法 | |
JPS5995597A (ja) | 音声特徴パラメ−タ作成方式 | |
JPS62174798A (ja) | 音声分析装置 | |
JPS61177000A (ja) | 音声パタ−ン登録方式 | |
JPS625298A (ja) | 音声認識装置 | |
JPH07104675B2 (ja) | 音声認識方法 | |
JPS6043697A (ja) | 子音と母音の境界検出装置 | |
JPS6155700A (ja) | ピッチ抽出処理方式 | |
JPS63234299A (ja) | 音声分析合成方式 | |
JP2003241792A (ja) | 音声認識装置及び方法 | |
JPH02226300A (ja) | 音韻区間情報形成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090111 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100111 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120111 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |