JP2006038956A - 音声速度遅延装置及び方法 - Google Patents

音声速度遅延装置及び方法 Download PDF

Info

Publication number
JP2006038956A
JP2006038956A JP2004214870A JP2004214870A JP2006038956A JP 2006038956 A JP2006038956 A JP 2006038956A JP 2004214870 A JP2004214870 A JP 2004214870A JP 2004214870 A JP2004214870 A JP 2004214870A JP 2006038956 A JP2006038956 A JP 2006038956A
Authority
JP
Japan
Prior art keywords
data
section
frame
length
arbitrary point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004214870A
Other languages
English (en)
Inventor
Michiaki Kyo
亨明 姜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004214870A priority Critical patent/JP2006038956A/ja
Publication of JP2006038956A publication Critical patent/JP2006038956A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 少ない演算量で高速に話速遅延変換を行う音声速度遅延装置及びその方法を提供する。
【解決手段】 入力された音声データを長さNのフレームに分割し、フレーム中間点を境界としてフロントデータとバックデータとに分割する。そして、バックデータの先頭を始点とする固定長Mの区間を比較区間とし、フロントデータの終端を終点とする固定長2Mの区間を被比較区間とする。その後、比較区間を被比較区間の先頭から探索ステップSずつずらしながら両者間の差分絶対値和を求め、差分絶対値和が最小となる被比較区間上の区間をマッチング区間とし、その開始点をマッチング点とする。そして、マッチング点からマッチング区間を含む被比較区間の終端までの音声データをクロスフェード処理を施しながらフレーム中間点に挿入する。挿入の結果、所望の出力フレーム長N*αを超えた部分については、次のフレームに接続する。
【選択図】 図1


Description

本発明は、発話者の音声を入力データとし、音程(ピッチ)を変化させることなく音声速度(話速)のみを遅延させる音声速度遅延装置及びその方法に関する。
従来、音程(ピッチ)を変化させることなく音声速度を任意に遅延させることができる話速変換技術が幅広い分野で活用されている。例えば、加齢に伴い聴力特性が低下したお年寄りや、何らかの原因により音声認識度が低下した障害者などは、通常のスピードでやり取りされる会話を聞き取ることは困難である。そこで、この話速変換技術を用いて音声信号を任意に時間的に伸張することにより、受聴者が聞き取り易い速度に変換することができる。また、英語などの外国語を習得する上でも、発話者の音声を遅延させることで、習得時のレベルに合った速度での再生が可能となる。
ところで、このような話速遅延変換を行うためには、人間の音声の特徴を考慮する必要がある。従来の話速変換手法の一例を図6に示す。
人間の音声信号は、息継ぎのポーズなどの無音区間、子音を表す無声区間、母音を表す有声区間に分割することができる。従来手法では、図6に示すように、入力された音声データを無音区間、無声区間及び有声区間に分割し、このうち無声区間及び有声区間の音声データを編集することで和速を変換している。特に、有声区間では、等間隔の周期性を持ったピッチ周期を検出することにより、有声区間の音声データをピッチ周期毎に分割可能となる。そして、このピッチ周期に従って音声データの挿入や間引きを行えば、元の音程(ピッチ)を保ったまま話速のみを変換することができる。なお、有声区間におけるピッチ周期の検出には、一般に自己相関法が用いられる(特許文献1参照)。その後、無音区間、無声区間及び変換された有声区間を元の順序で接続することにより、話速が変換された最終的な音声データを得ることができる。
特開平6−161494号公報
しかしながら、上述したような従来手法では、先ず音声信号を無音区間、無声区間及び有声区間の各区間に分割し、さらにその区間に応じた処理を施すといった2重の処理が必要であった。また、ピッチ周期を検出するために一般に自己相関法が用いられるが、自己相関法では音声データ全体に積和演算を施すため、演算量が膨大になってしまうという問題があった。
一方、フーリエ変換等を用いて周波数領域で解析を行い、話速を変換させることも考えられる。しかしながら、この手法は、時間領域での解析と比較して高精度の解析が可能である反面、音声データ全体に亘ってフーリエ変換や逆フーリエ変換等を施さなければならないため、実時間性に欠けるという問題がある。
本発明は、このような従来の実情に鑑みて提案されたものであり、自己相関法を用いたピッチ周期の検出はもとより、無音区間、無声区間及び有声区間の検出を行うことなく、少ない演算量で高速に話速遅延変換を行う音声速度遅延装置及びその方法を提供することを目的とする。
上述した目的を達成するために、本発明に係る音声速度遅延装置は、入力された音声データを所定の長さのフレームに分割するフレーム分割手段と、各フレームについて、フレーム内の任意の点を終点とする長さM’の被比較区間のうち、上記任意の点を始点とする長さM(<M’)の比較区間とマッチングするマッチング区間を検出し、該マッチング区間の先頭から上記任意の点までの音声データを挿入データとして上記任意の点に挿入する挿入処理手段とを備えることを特徴とする。
ここで、上記挿入処理手段は、上記挿入データを上記任意の点に繰り返して挿入することができる。
また、本発明に係る音声速度遅延装置は、上記挿入データを挿入した結果、所望のフレーム長を超える終端部分の音声データを余りデータとして蓄積する蓄積手段をさらに備えることが好ましく、この場合、上記挿入処理手段は、前フレームの余りデータを現フレームの先頭に接続する。
また、本発明に係る音声速度遅延方法は、入力された音声データを所定の長さのフレームに分割するフレーム分割工程と、各フレームについて、フレーム内の任意の点を終点とする長さM’の被比較区間のうち、上記任意の点を始点とする長さM(<M’)の比較区間とマッチングするマッチング区間を検出し、該マッチング区間の先頭から上記任意の点までの音声データを挿入データとして上記任意の点に挿入する挿入処理工程とを有することを特徴とする。
本発明に係る音声速度遅延装置及びその方法によれば、音声速度を遅延させるための挿入データを検出する際に、フレーム内の任意の点を終点とする長さM’の被比較区間のうち、上記任意の点を始点とする長さM(<M’)の比較区間とマッチングするマッチング区間を検出するのみでよく、従来のように自己相関法を用いたピッチ周期の検出はもとより、無音区間、無声区間及び有声区間の検出を行う必要がないため、少ない演算量で高速に音声速度遅延処理を行うことができる。
以下、本発明に係る音声速度遅延装置及びその方法を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。以下では、先ず、本実施の形態における音声速度遅延方法の原理について説明し、次いで、本実施の形態における音声速度遅延装置の構成について説明する。
音声速度(話速)を遅くする場合、すなわち音声データを時間的に伸張する場合には、一般に自己相関法等によって有声区間のピッチ周期を検出し、このピッチ周期に従って適切な長さの音声データを挿入する必要がある。しかしながら、自己相関法では音声データ全体に積和演算を施すため、演算量が膨大になってしまうという問題があった。
これに対して本実施の形態では、図1に示すような処理により、少ない演算量で高速に話速遅延を行うことができる。
すなわち、先ず、図1(A)に示すように、入力された音声データを一定の長さNの区間(以下、フレームという。)に分割し、さらに各フレームの中間点を境界とした前半部に相当するフロントデータ(長さN/2)と後半部に相当するバックデータ(長さN/2)とに分割する。そして、バックデータの先頭を始点とする固定長M(M<N/4)の区間を比較区間とし、フロントデータの終端を終点とする固定長2Mの区間を被比較区間としてそれぞれ定義する。
次に、図1(B)に示すように、比較区間を被比較区間の先頭から探索ステップSずつずらしながら両者間の差分絶対値和を求め、差分絶対値和が最小となる被比較区間上の区間をマッチング区間とし、その開始点をマッチング点とする。例えば探索ステップSだけずらした場合、以下の式(1)に従って差分絶対値和Y(S)を求めることができる。
Figure 2006038956
ここで、入力フレームが有声区間であり、且つピッチ周期Tの波形が連続して出現する場合においても、比較区間長Mは固定長で定義されているため、殆どの場合ピッチ周期と一致しない。
しかしながら、図2のように比較区間長Mがピッチ周期Tよりも広い場合を想定し、ピッチ周期Tの連続波形が存在する区間で被比較区間の終端が比較区間の始点であることを考慮すると、マッチング点から被比較区間の終端までがピッチ周期Tの整数倍の長さと一致する可能性が高い。
また、図3のように比較区間長Mがピッチ周期Tに満たない場合であっても、マッチング点から被比較区間の終点までが周期性を持つ可能性が高い。
そこで、図1(C)に示すように、マッチング点からマッチング区間を含む被比較区間の終端までの音声データを挿入データとしてフレーム中間点に挿入する。但し、挿入データがピッチ周期Tの整数倍の長さと一致するとは限らないため、フロントデータの終端と挿入データの先頭との間においてクロスフェード処理を施すのが好ましい。なお、挿入の結果、所望の出力フレーム長N*αを超えた終端部分については、次のフレームの先頭に接続するものとする。また、挿入データを1回挿入しても所望の出力フレーム長に達しない場合には、当該挿入データを複数回繰り返し挿入する。
以上のような処理を行う音声速度遅延装置の概略構成を図4に示す。図4に示すように、本実施の形態における音声速度遅延装置1は、入力された音声データを一定の長さのフレームに分割するフレーム分割部10と、得られたフレームデータを蓄積する入力フレームバッファ11と、蓄積されたフレームデータを解析して挿入データを決定する挿入データ解析部12と、挿入データと元のフレームデータとの間でクロスフェード処理を施すクロスフェード処理部13と、出力するフレームデータを蓄積する出力フレームバッファ14と、所望の出力フレーム長を超えた余りデータを蓄積する余りデータバッファ15と、ディジタルの音声データをアナログの音声信号に変換するD/A(Digital/Analogue)変換器16とから構成されている。
この音声速度遅延装置1の動作を図5のフローチャートを用いて説明する。
先ずステップS1において、フレーム分割部10は、入力された音声データを一定の長さのフレームに分割して入力フレームバッファ11に蓄積し、続くステップS2において、挿入データ解析部12は、入力フレームバッファ11から1フレーム分の音声データを取得する。
続いてステップS3において、前フレームの音声データが余りデータバッファ15に残っているか否かが判別される。ここで、前フレームの音声データが残っている場合にはステップS4でその余りデータを余りデータバッファ15から出力フレームバッファ14に送ってステップS5に進み、そうでない場合にはステップS6に進む。
ステップS5では、音声データを挿入するか否かが判別される。すなわち、前フレームの余りデータが長く、この余りデータと1フレーム分の音声データとを接続することで所望の出力フレーム長以上となる場合には、音声データの挿入を行わず、ステップS8に進む。一方、余りデータと1フレーム分の音声データとを接続しても所望の出力フレーム長に満たない場合にはステップS6に進む。
ステップS6において、挿入データ解析部12は、比較区間(バックデータの先頭を始点とする固定長Mの区間)を被比較区間(フロントデータの終端を終点とする固定長2Mの区間)の先頭から探索ステップSずつずらしながら例えば上述した式(1)に従って両者間の差分絶対値和を求め、差分絶対値和が最小となるマッチング点を検出する。
続いてステップS7において、クロスフェード処理部13は、マッチング点から被比較区間の終端までの音声データ(挿入データ)をクロスフェード処理を施しながらフレーム中間点に挿入し、得られたフレームデータを出力フレームバッファ14に送る。より詳細に説明すると、入力フレームバッファ11は、フロントデータのうちクロスフェード処理が施されない区間の音声データを出力フレームバッファ14に送り、クロスフェード処理が施される区間の音声データをクロスフェード処理部13に送る。一方、挿入データ解析部12は、挿入データをクロスフェード処理部13に送る。そしてクロスフェード処理部13は、フロントデータの一部の音声データと挿入データとをクロスフェード処理を施しながら接続し、得られた音声データを出力フレームバッファ14に送る。その後、入力フレームバッファ11は、バックデータを出力フレームバッファ14に送る。
続いてステップS8では、得られたフレーム長が所望の出力フレーム長よりも大きいか否かを判別し、大きくない場合にはステップS7に戻って挿入データをさらに挿入する。一方、得られたフレーム長が所望の出力フレーム長よりも大きい場合には、ステップS9に進む。
ステップS9において、出力フレームバッファ14は、所望の出力フレーム長を超えた余りデータを次のフレームに接続するため、当該余りデータを余りデータバッファ15に退避させる。そして、ステップS10において、D/A変換器16は、出力フレームバッファ14の音声データを音声信号に変換して出力する。
最後にステップS11では、入力フレームバッファ11中の全ての音声データを出力したか否かが判別され、出力していない場合にはステップS1に戻って処理を続け、出力している場合には処理を終了する。
以上のように、本実施の形態における音声速度遅延装置1によれば、音声速度を遅延させるための挿入データを検出する際に、フレーム中間点を終点とする長さ2Mの被比較区間のうち、上記中間点を始点とする長さMの比較区間とマッチングするマッチング区間を検出するのみでよく、従来のように自己相関法を用いたピッチ周期の検出はもとより、無音区間、無声区間及び有声区間の検出を行う必要がないため、少ない演算量で高速に音声速度遅延処理を行うことができる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
例えば、上述した実施の形態では、各フレームの中間点を境界とし、バックデータの先頭を始点とする固定長M(M<N/4)の区間を比較区間、フロントデータの終端を終点とする固定長2Mの区間を被比較区間とそれぞれ定義したが、これに限定されるものではなく、各フレームの任意の点を境界として、当該任意の点を始点とする固定長Mの区間を比較区間、当該任意の点を終点とする固定長M’(>M)の区間を被比較区間とすることで、挿入データを検出することが可能である。
本実施の形態における音声速度遅延方法の原理を説明する図である。 比較区間長Mがピッチ周期Tよりも広い場合における音声データの挿入例を示す図である。 比較区間長Mがピッチ周期Tよりも狭い場合における音声データの挿入例を示す図である。 本実施の形態における音声速度遅延装置の概略構成を示す図である。 同音声速度遅延装置の動作を説明するフローチャートである。 従来の話速変換手法の一例を説明するための図である。
符号の説明
1 音声速度遅延装置、10 フレーム分割部、11 入力フレームバッファ、12 挿入データ解析部、13 クロスフェード処理部、14 出力フレームバッファ、15 余りデータバッファ、16 D/A変換器

Claims (12)

  1. 入力された音声データを所定の長さのフレームに分割するフレーム分割手段と、
    各フレームについて、フレーム内の任意の点を終点とする長さM’の被比較区間のうち、上記任意の点を始点とする長さM(<M’)の比較区間とマッチングするマッチング区間を検出し、該マッチング区間の先頭から上記任意の点までの音声データを挿入データとして上記任意の点に挿入する挿入処理手段と
    を備えることを特徴とする音声速度遅延装置。
  2. 上記挿入処理手段は、上記挿入データを上記任意の点に繰り返して挿入することを特徴とする請求項1記載の音声速度遅延装置。
  3. 上記挿入データを挿入した結果、所望のフレーム長を超える終端部分の音声データを余りデータとして蓄積する蓄積手段をさらに備え、
    上記挿入処理手段は、前フレームの余りデータを現フレームの先頭に接続する
    ことを特徴とする請求項1記載の音声速度遅延装置。
  4. 上記挿入処理手段は、上記被比較区間の終端近傍の音声データと上記挿入データの先頭近傍の音声データとに対してクロスフェード処理を施して、上記挿入データを上記任意の点に挿入することを特徴とする請求項1記載の音声速度遅延装置。
  5. 上記挿入処理手段は、上記被比較区間のうち上記比較区間との差分絶対値和が最小となる区間を上記マッチング区間とすることを特徴とする請求項1記載の音声速度遅延装置。
  6. 上記任意の点はフレームの中間点であり、上記被比較区間の長さは2Mであることを特徴とする請求項1記載の音声速度遅延装置。
  7. 入力された音声データを所定の長さのフレームに分割するフレーム分割工程と、
    各フレームについて、フレーム内の任意の点を終点とする長さM’の被比較区間のうち、上記任意の点を始点とする長さM(<M’)の比較区間とマッチングするマッチング区間を検出し、該マッチング区間の先頭から上記任意の点までの音声データを挿入データとして上記任意の点に挿入する挿入処理工程と
    を有することを特徴とする音声速度遅延方法。
  8. 上記挿入処理工程では、上記挿入データを上記任意の点に繰り返して挿入することを特徴とする請求項7記載の音声速度遅延方法。
  9. 上記挿入データを挿入した結果、所望のフレーム長を超える終端部分の音声データを余りデータとして蓄積する蓄積工程をさらに有し、
    上記挿入処理工程では、前フレームの余りデータを現フレームの先頭に接続する
    ことを特徴とする請求項7記載の音声速度遅延方法。
  10. 上記挿入処理工程では、上記被比較区間の終端近傍の音声データと上記挿入データの先頭近傍の音声データとに対してクロスフェード処理を施して、上記挿入データを上記任意の点に挿入することを特徴とする請求項7記載の音声速度遅延方法。
  11. 上記挿入処理工程では、上記被比較区間のうち上記比較区間との差分絶対値和が最小となる区間を上記マッチング区間とすることを特徴とする請求項7記載の音声速度遅延方法。
  12. 上記任意の点はフレームの中間点であり、上記被比較区間の長さは2Mであることを特徴とする請求項7記載の音声速度遅延方法。
JP2004214870A 2004-07-22 2004-07-22 音声速度遅延装置及び方法 Withdrawn JP2006038956A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004214870A JP2006038956A (ja) 2004-07-22 2004-07-22 音声速度遅延装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004214870A JP2006038956A (ja) 2004-07-22 2004-07-22 音声速度遅延装置及び方法

Publications (1)

Publication Number Publication Date
JP2006038956A true JP2006038956A (ja) 2006-02-09

Family

ID=35904053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004214870A Withdrawn JP2006038956A (ja) 2004-07-22 2004-07-22 音声速度遅延装置及び方法

Country Status (1)

Country Link
JP (1) JP2006038956A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304515A (ja) * 2006-05-15 2007-11-22 Sony Corp オーディオ信号伸張圧縮方法及び装置
JP2008046160A (ja) * 2006-08-10 2008-02-28 Casio Comput Co Ltd 音声伸張装置、音声縮小装置、音声伸張方法、音声縮小方法、及び、プログラム
US8392197B2 (en) 2007-08-22 2013-03-05 Nec Corporation Speaker speed conversion system, method for same, and speed conversion device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304515A (ja) * 2006-05-15 2007-11-22 Sony Corp オーディオ信号伸張圧縮方法及び装置
US8306828B2 (en) 2006-05-15 2012-11-06 Sony Corporation Method and apparatus for audio signal expansion and compression
JP2008046160A (ja) * 2006-08-10 2008-02-28 Casio Comput Co Ltd 音声伸張装置、音声縮小装置、音声伸張方法、音声縮小方法、及び、プログラム
US8392197B2 (en) 2007-08-22 2013-03-05 Nec Corporation Speaker speed conversion system, method for same, and speed conversion device

Similar Documents

Publication Publication Date Title
CA2253749C (en) Method and device for instantly changing the speed of speech
US8478585B2 (en) Identifying features in a portion of a signal representing speech
US6763329B2 (en) Method of converting the speech rate of a speech signal, use of the method, and a device adapted therefor
JP2612868B2 (ja) 音声の発声速度変換方法
JPH1091189A (ja) 発声速度変換装置
JP2006038956A (ja) 音声速度遅延装置及び方法
JP3266124B2 (ja) アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
JP6321334B2 (ja) 信号処理装置及びプログラム
JP3379348B2 (ja) ピッチ変換器
JP6313619B2 (ja) 音声信号処理装置及びプログラム
JP3219892B2 (ja) リアルタイム話速変換装置
JPH08254992A (ja) 話速変換装置
JP3187242B2 (ja) 話速変換装置
JP2008139573A (ja) 声質変換方法、声質変換プログラム、声質変換装置
JP2007094004A (ja) 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
WO2009055701A1 (en) Processing of a signal representing speech
JPH0193799A (ja) 音声ピッチ変換方法
KR100359988B1 (ko) 실시간 화속 변환 장치
JP3187241B2 (ja) 話速変換装置
EP1143417B1 (en) A method of converting the speech rate of a speech signal, use of the method, and a device adapted therefor
JP4648183B2 (ja) 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPH06337696A (ja) 速度変換制御装置と速度変換制御方法
JP2007047313A (ja) 話速変換装置
JP5679451B2 (ja) 音声処理装置およびそのプログラム
JP5677137B2 (ja) 韻律変換装置およびプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071002