JP2006038956A

JP2006038956A - 音声速度遅延装置及び方法

Info

Publication number: JP2006038956A
Application number: JP2004214870A
Authority: JP
Inventors: Michiaki Kyo; 亨明姜
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-22
Filing date: 2004-07-22
Publication date: 2006-02-09

Abstract

【課題】少ない演算量で高速に話速遅延変換を行う音声速度遅延装置及びその方法を提供する。
【解決手段】入力された音声データを長さＮのフレームに分割し、フレーム中間点を境界としてフロントデータとバックデータとに分割する。そして、バックデータの先頭を始点とする固定長Ｍの区間を比較区間とし、フロントデータの終端を終点とする固定長２Ｍの区間を被比較区間とする。その後、比較区間を被比較区間の先頭から探索ステップＳずつずらしながら両者間の差分絶対値和を求め、差分絶対値和が最小となる被比較区間上の区間をマッチング区間とし、その開始点をマッチング点とする。そして、マッチング点からマッチング区間を含む被比較区間の終端までの音声データをクロスフェード処理を施しながらフレーム中間点に挿入する。挿入の結果、所望の出力フレーム長Ｎ＊αを超えた部分については、次のフレームに接続する。
【選択図】図１

Description

本発明は、発話者の音声を入力データとし、音程（ピッチ）を変化させることなく音声速度（話速）のみを遅延させる音声速度遅延装置及びその方法に関する。

従来、音程（ピッチ）を変化させることなく音声速度を任意に遅延させることができる話速変換技術が幅広い分野で活用されている。例えば、加齢に伴い聴力特性が低下したお年寄りや、何らかの原因により音声認識度が低下した障害者などは、通常のスピードでやり取りされる会話を聞き取ることは困難である。そこで、この話速変換技術を用いて音声信号を任意に時間的に伸張することにより、受聴者が聞き取り易い速度に変換することができる。また、英語などの外国語を習得する上でも、発話者の音声を遅延させることで、習得時のレベルに合った速度での再生が可能となる。

ところで、このような話速遅延変換を行うためには、人間の音声の特徴を考慮する必要がある。従来の話速変換手法の一例を図６に示す。

人間の音声信号は、息継ぎのポーズなどの無音区間、子音を表す無声区間、母音を表す有声区間に分割することができる。従来手法では、図６に示すように、入力された音声データを無音区間、無声区間及び有声区間に分割し、このうち無声区間及び有声区間の音声データを編集することで和速を変換している。特に、有声区間では、等間隔の周期性を持ったピッチ周期を検出することにより、有声区間の音声データをピッチ周期毎に分割可能となる。そして、このピッチ周期に従って音声データの挿入や間引きを行えば、元の音程（ピッチ）を保ったまま話速のみを変換することができる。なお、有声区間におけるピッチ周期の検出には、一般に自己相関法が用いられる（特許文献１参照）。その後、無音区間、無声区間及び変換された有声区間を元の順序で接続することにより、話速が変換された最終的な音声データを得ることができる。

特開平６−１６１４９４号公報

しかしながら、上述したような従来手法では、先ず音声信号を無音区間、無声区間及び有声区間の各区間に分割し、さらにその区間に応じた処理を施すといった２重の処理が必要であった。また、ピッチ周期を検出するために一般に自己相関法が用いられるが、自己相関法では音声データ全体に積和演算を施すため、演算量が膨大になってしまうという問題があった。

一方、フーリエ変換等を用いて周波数領域で解析を行い、話速を変換させることも考えられる。しかしながら、この手法は、時間領域での解析と比較して高精度の解析が可能である反面、音声データ全体に亘ってフーリエ変換や逆フーリエ変換等を施さなければならないため、実時間性に欠けるという問題がある。

本発明は、このような従来の実情に鑑みて提案されたものであり、自己相関法を用いたピッチ周期の検出はもとより、無音区間、無声区間及び有声区間の検出を行うことなく、少ない演算量で高速に話速遅延変換を行う音声速度遅延装置及びその方法を提供することを目的とする。

上述した目的を達成するために、本発明に係る音声速度遅延装置は、入力された音声データを所定の長さのフレームに分割するフレーム分割手段と、各フレームについて、フレーム内の任意の点を終点とする長さＭ’の被比較区間のうち、上記任意の点を始点とする長さＭ（＜Ｍ’）の比較区間とマッチングするマッチング区間を検出し、該マッチング区間の先頭から上記任意の点までの音声データを挿入データとして上記任意の点に挿入する挿入処理手段とを備えることを特徴とする。

ここで、上記挿入処理手段は、上記挿入データを上記任意の点に繰り返して挿入することができる。

また、本発明に係る音声速度遅延装置は、上記挿入データを挿入した結果、所望のフレーム長を超える終端部分の音声データを余りデータとして蓄積する蓄積手段をさらに備えることが好ましく、この場合、上記挿入処理手段は、前フレームの余りデータを現フレームの先頭に接続する。

また、本発明に係る音声速度遅延方法は、入力された音声データを所定の長さのフレームに分割するフレーム分割工程と、各フレームについて、フレーム内の任意の点を終点とする長さＭ’の被比較区間のうち、上記任意の点を始点とする長さＭ（＜Ｍ’）の比較区間とマッチングするマッチング区間を検出し、該マッチング区間の先頭から上記任意の点までの音声データを挿入データとして上記任意の点に挿入する挿入処理工程とを有することを特徴とする。

本発明に係る音声速度遅延装置及びその方法によれば、音声速度を遅延させるための挿入データを検出する際に、フレーム内の任意の点を終点とする長さＭ’の被比較区間のうち、上記任意の点を始点とする長さＭ（＜Ｍ’）の比較区間とマッチングするマッチング区間を検出するのみでよく、従来のように自己相関法を用いたピッチ周期の検出はもとより、無音区間、無声区間及び有声区間の検出を行う必要がないため、少ない演算量で高速に音声速度遅延処理を行うことができる。

以下、本発明に係る音声速度遅延装置及びその方法を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。以下では、先ず、本実施の形態における音声速度遅延方法の原理について説明し、次いで、本実施の形態における音声速度遅延装置の構成について説明する。

音声速度（話速）を遅くする場合、すなわち音声データを時間的に伸張する場合には、一般に自己相関法等によって有声区間のピッチ周期を検出し、このピッチ周期に従って適切な長さの音声データを挿入する必要がある。しかしながら、自己相関法では音声データ全体に積和演算を施すため、演算量が膨大になってしまうという問題があった。

これに対して本実施の形態では、図１に示すような処理により、少ない演算量で高速に話速遅延を行うことができる。

すなわち、先ず、図１（Ａ）に示すように、入力された音声データを一定の長さＮの区間（以下、フレームという。）に分割し、さらに各フレームの中間点を境界とした前半部に相当するフロントデータ（長さＮ／２）と後半部に相当するバックデータ（長さＮ／２）とに分割する。そして、バックデータの先頭を始点とする固定長Ｍ（Ｍ＜Ｎ／４）の区間を比較区間とし、フロントデータの終端を終点とする固定長２Ｍの区間を被比較区間としてそれぞれ定義する。

次に、図１（Ｂ）に示すように、比較区間を被比較区間の先頭から探索ステップＳずつずらしながら両者間の差分絶対値和を求め、差分絶対値和が最小となる被比較区間上の区間をマッチング区間とし、その開始点をマッチング点とする。例えば探索ステップＳだけずらした場合、以下の式（１）に従って差分絶対値和Ｙ（Ｓ）を求めることができる。

ここで、入力フレームが有声区間であり、且つピッチ周期Ｔの波形が連続して出現する場合においても、比較区間長Ｍは固定長で定義されているため、殆どの場合ピッチ周期と一致しない。

しかしながら、図２のように比較区間長Ｍがピッチ周期Ｔよりも広い場合を想定し、ピッチ周期Ｔの連続波形が存在する区間で被比較区間の終端が比較区間の始点であることを考慮すると、マッチング点から被比較区間の終端までがピッチ周期Ｔの整数倍の長さと一致する可能性が高い。

また、図３のように比較区間長Ｍがピッチ周期Ｔに満たない場合であっても、マッチング点から被比較区間の終点までが周期性を持つ可能性が高い。

そこで、図１（Ｃ）に示すように、マッチング点からマッチング区間を含む被比較区間の終端までの音声データを挿入データとしてフレーム中間点に挿入する。但し、挿入データがピッチ周期Ｔの整数倍の長さと一致するとは限らないため、フロントデータの終端と挿入データの先頭との間においてクロスフェード処理を施すのが好ましい。なお、挿入の結果、所望の出力フレーム長Ｎ＊αを超えた終端部分については、次のフレームの先頭に接続するものとする。また、挿入データを１回挿入しても所望の出力フレーム長に達しない場合には、当該挿入データを複数回繰り返し挿入する。

以上のような処理を行う音声速度遅延装置の概略構成を図４に示す。図４に示すように、本実施の形態における音声速度遅延装置１は、入力された音声データを一定の長さのフレームに分割するフレーム分割部１０と、得られたフレームデータを蓄積する入力フレームバッファ１１と、蓄積されたフレームデータを解析して挿入データを決定する挿入データ解析部１２と、挿入データと元のフレームデータとの間でクロスフェード処理を施すクロスフェード処理部１３と、出力するフレームデータを蓄積する出力フレームバッファ１４と、所望の出力フレーム長を超えた余りデータを蓄積する余りデータバッファ１５と、ディジタルの音声データをアナログの音声信号に変換するＤ／Ａ（Digital/Analogue）変換器１６とから構成されている。

この音声速度遅延装置１の動作を図５のフローチャートを用いて説明する。
先ずステップＳ１において、フレーム分割部１０は、入力された音声データを一定の長さのフレームに分割して入力フレームバッファ１１に蓄積し、続くステップＳ２において、挿入データ解析部１２は、入力フレームバッファ１１から１フレーム分の音声データを取得する。

続いてステップＳ３において、前フレームの音声データが余りデータバッファ１５に残っているか否かが判別される。ここで、前フレームの音声データが残っている場合にはステップＳ４でその余りデータを余りデータバッファ１５から出力フレームバッファ１４に送ってステップＳ５に進み、そうでない場合にはステップＳ６に進む。

ステップＳ５では、音声データを挿入するか否かが判別される。すなわち、前フレームの余りデータが長く、この余りデータと１フレーム分の音声データとを接続することで所望の出力フレーム長以上となる場合には、音声データの挿入を行わず、ステップＳ８に進む。一方、余りデータと１フレーム分の音声データとを接続しても所望の出力フレーム長に満たない場合にはステップＳ６に進む。

ステップＳ６において、挿入データ解析部１２は、比較区間（バックデータの先頭を始点とする固定長Ｍの区間）を被比較区間（フロントデータの終端を終点とする固定長２Ｍの区間）の先頭から探索ステップＳずつずらしながら例えば上述した式（１）に従って両者間の差分絶対値和を求め、差分絶対値和が最小となるマッチング点を検出する。

続いてステップＳ７において、クロスフェード処理部１３は、マッチング点から被比較区間の終端までの音声データ（挿入データ）をクロスフェード処理を施しながらフレーム中間点に挿入し、得られたフレームデータを出力フレームバッファ１４に送る。より詳細に説明すると、入力フレームバッファ１１は、フロントデータのうちクロスフェード処理が施されない区間の音声データを出力フレームバッファ１４に送り、クロスフェード処理が施される区間の音声データをクロスフェード処理部１３に送る。一方、挿入データ解析部１２は、挿入データをクロスフェード処理部１３に送る。そしてクロスフェード処理部１３は、フロントデータの一部の音声データと挿入データとをクロスフェード処理を施しながら接続し、得られた音声データを出力フレームバッファ１４に送る。その後、入力フレームバッファ１１は、バックデータを出力フレームバッファ１４に送る。

続いてステップＳ８では、得られたフレーム長が所望の出力フレーム長よりも大きいか否かを判別し、大きくない場合にはステップＳ７に戻って挿入データをさらに挿入する。一方、得られたフレーム長が所望の出力フレーム長よりも大きい場合には、ステップＳ９に進む。

ステップＳ９において、出力フレームバッファ１４は、所望の出力フレーム長を超えた余りデータを次のフレームに接続するため、当該余りデータを余りデータバッファ１５に退避させる。そして、ステップＳ１０において、Ｄ／Ａ変換器１６は、出力フレームバッファ１４の音声データを音声信号に変換して出力する。

最後にステップＳ１１では、入力フレームバッファ１１中の全ての音声データを出力したか否かが判別され、出力していない場合にはステップＳ１に戻って処理を続け、出力している場合には処理を終了する。

以上のように、本実施の形態における音声速度遅延装置１によれば、音声速度を遅延させるための挿入データを検出する際に、フレーム中間点を終点とする長さ２Ｍの被比較区間のうち、上記中間点を始点とする長さＭの比較区間とマッチングするマッチング区間を検出するのみでよく、従来のように自己相関法を用いたピッチ周期の検出はもとより、無音区間、無声区間及び有声区間の検出を行う必要がないため、少ない演算量で高速に音声速度遅延処理を行うことができる。

なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。

例えば、上述した実施の形態では、各フレームの中間点を境界とし、バックデータの先頭を始点とする固定長Ｍ（Ｍ＜Ｎ／４）の区間を比較区間、フロントデータの終端を終点とする固定長２Ｍの区間を被比較区間とそれぞれ定義したが、これに限定されるものではなく、各フレームの任意の点を境界として、当該任意の点を始点とする固定長Ｍの区間を比較区間、当該任意の点を終点とする固定長Ｍ’（＞Ｍ）の区間を被比較区間とすることで、挿入データを検出することが可能である。

本実施の形態における音声速度遅延方法の原理を説明する図である。比較区間長Ｍがピッチ周期Ｔよりも広い場合における音声データの挿入例を示す図である。比較区間長Ｍがピッチ周期Ｔよりも狭い場合における音声データの挿入例を示す図である。本実施の形態における音声速度遅延装置の概略構成を示す図である。同音声速度遅延装置の動作を説明するフローチャートである。従来の話速変換手法の一例を説明するための図である。

符号の説明

１音声速度遅延装置、１０フレーム分割部、１１入力フレームバッファ、１２挿入データ解析部、１３クロスフェード処理部、１４出力フレームバッファ、１５余りデータバッファ、１６Ｄ／Ａ変換器

Claims

入力された音声データを所定の長さのフレームに分割するフレーム分割手段と、
各フレームについて、フレーム内の任意の点を終点とする長さＭ’の被比較区間のうち、上記任意の点を始点とする長さＭ（＜Ｍ’）の比較区間とマッチングするマッチング区間を検出し、該マッチング区間の先頭から上記任意の点までの音声データを挿入データとして上記任意の点に挿入する挿入処理手段と
を備えることを特徴とする音声速度遅延装置。
上記挿入処理手段は、上記挿入データを上記任意の点に繰り返して挿入することを特徴とする請求項１記載の音声速度遅延装置。
上記挿入データを挿入した結果、所望のフレーム長を超える終端部分の音声データを余りデータとして蓄積する蓄積手段をさらに備え、
上記挿入処理手段は、前フレームの余りデータを現フレームの先頭に接続する
ことを特徴とする請求項１記載の音声速度遅延装置。
上記挿入処理手段は、上記被比較区間の終端近傍の音声データと上記挿入データの先頭近傍の音声データとに対してクロスフェード処理を施して、上記挿入データを上記任意の点に挿入することを特徴とする請求項１記載の音声速度遅延装置。
上記挿入処理手段は、上記被比較区間のうち上記比較区間との差分絶対値和が最小となる区間を上記マッチング区間とすることを特徴とする請求項１記載の音声速度遅延装置。
上記任意の点はフレームの中間点であり、上記被比較区間の長さは２Ｍであることを特徴とする請求項１記載の音声速度遅延装置。
入力された音声データを所定の長さのフレームに分割するフレーム分割工程と、
各フレームについて、フレーム内の任意の点を終点とする長さＭ’の被比較区間のうち、上記任意の点を始点とする長さＭ（＜Ｍ’）の比較区間とマッチングするマッチング区間を検出し、該マッチング区間の先頭から上記任意の点までの音声データを挿入データとして上記任意の点に挿入する挿入処理工程と
を有することを特徴とする音声速度遅延方法。
上記挿入処理工程では、上記挿入データを上記任意の点に繰り返して挿入することを特徴とする請求項７記載の音声速度遅延方法。
上記挿入データを挿入した結果、所望のフレーム長を超える終端部分の音声データを余りデータとして蓄積する蓄積工程をさらに有し、
上記挿入処理工程では、前フレームの余りデータを現フレームの先頭に接続する
ことを特徴とする請求項７記載の音声速度遅延方法。
上記挿入処理工程では、上記被比較区間の終端近傍の音声データと上記挿入データの先頭近傍の音声データとに対してクロスフェード処理を施して、上記挿入データを上記任意の点に挿入することを特徴とする請求項７記載の音声速度遅延方法。
上記挿入処理工程では、上記被比較区間のうち上記比較区間との差分絶対値和が最小となる区間を上記マッチング区間とすることを特徴とする請求項７記載の音声速度遅延方法。
上記任意の点はフレームの中間点であり、上記被比較区間の長さは２Ｍであることを特徴とする請求項７記載の音声速度遅延方法。