JP2000511651A

JP2000511651A - 記録されたオーディオ信号の非均一的時間スケール変更

Info

Publication number: JP2000511651A
Application number: JP10500579A
Authority: JP
Inventors: カベル，マイケル; ウイズゴット，エム．，マーガレット
Original assignee: インターバルリサーチコーポレイション
Priority date: 1996-06-05
Filing date: 1997-05-12
Publication date: 2000-09-05
Also published as: CA2257298C; WO1997046999A1; AU2829497A; EP0978119A1; AU719955B2; CA2257298A1; US5828994A

Abstract

(57)【要約】記録された音声信号の時間スケールを変更するために、音声信号の個々の部分、すなわちフレームに対する相対的強調項および相対的話しレート項を計算する。次にこの項を組み合わせてオーディオテンションと称される単一値にする。公称時間スケール変更レートに対しオーディオテンションを使用し、互いに非均一的に音声信号の個々のフレームの変更レートを調節する。このような方法により聴取者が解読できる状態のまま、圧縮された音声信号を比較的高いレートで再生できる。

Description

【発明の詳細な説明】記録されたオーディオ信号の非均一的時間スケール変更発明の分野本発明は、記録されたオーディオ信号、例えば音声信号の再生中に、この信号を圧縮したり伸張したりするために記録されたオーディオ信号、例えば音声信号の時間スケールを変更することに関し、より詳細には、再生の結果生じる音の了解度を維持しながら、高レートの圧縮および／または伸張を容易にするようにオーディオ信号の時間スケールを変更することに関する。発明の背景記録されたオーディオサウンド、例えば音声信号の時間スケールを変更することが望ましい状況が多数存在する。視聴者が音声をより良好に理解したり、容易に筆耕できるように、音声の再生速度を遅くしたい場合がある。またこの逆に、視聴時間を短縮するよう、例えば記録された講義または音声メールメッセージを聞きながら再生を速くしたいような場合もある。また別の例として、オーディオの記録を他のメディア、例えばビデオのストリームに同期する際、２つのタイプのメディアを同期させるために、記録されたオーディオ信号を圧縮したり、または伸張しなければならないことがある。従来、オーディオ信号の時間スケール変更は一定レートで行われてきた。例えばテープレコーダでは音声を元のレートの１.５倍で再生したい場合、再生を速めるように、テープをより高速で送ることができる。しかしながら再生速度を速くするにつれ、再生されたサウンドのピッチも高くなり、この結果、トーンがかん高くなってしまう。これと逆に、再生速度を正常の速度よりも遅くするにつれピッチが低くなり、より低い音に聞こえてしまう。より高度なタイプの再生装置は、再生されたサウンドのピッチを調節できるようになっている。これら装置では再生速度が速くなるにつれ、これに付随してピッチを下げ、再生の結果生じるサウンドがより自然となるようにしている。しかしながらこのような方法を用いても均一な圧縮または伸張レートを使用すると、得ることのできる変更量には実際上の限界がある。例えば一定レートで音声を圧縮するには最大再生速度は元の記録されたレートの約２倍となる。より高いレートで音声信号を再生すると、この結果生じるサウンドは音声信号の内容を了解できないほど不自然となる。大幅に加速された音声信号から生じる不自然なサウンドは音声レート自体の変化によるものではない。特に人が話をする際、多くの理由から、または大きな結果として、自分の音声レートを自然に大きくしたり、小さくする。しかしながら極めて速くしゃべる人と高速で再生された記録されたサウンドとの差は、人の話し手は音声レートを均一に変えないということである。むしろ音声の極めて短い部分内で量を変えながら変化させており、その細かい部分の各々は１ミリ秒の何十倍かの長さとなり得る。このような非均一的レートの変更は基本的には言語的な要素の組み合わせによって制御されている。これら要素は話されるサウンドの意味および談話の形態（意味的な寄与）、単語の順およびセンテンスの構造（構文論的フォーム）および各サウンドの識別およびコンテキスト（音韻的パターン）と関連している。従って、理論的には音声内の言語的要素を認識し、これに従って再生レートを変えることによって記録された音声を非均一的に変えることができる。例えば構文論的分析および音韻的分析を行うように音声認識技術を使用することができる。この点に関し、音韻論的な要素および構文論的な要素に関連した細かい部分の変化を解決する長さ規則が音声分析に対して開発されている。しかしながらかかる方法には問題がある。特に音声分析に対して考えられた長さ規則に基づく記録の時間コースを変えた場合、この結果生じる音声は話し手が意図するように変えることはできない。例えば意味的な要素およびプラグマティックな要素を制御しない場合、エネルギッシュな話し手の話でも退屈に聞こえる。更に自動音声認識は計算上高くつき、大きなエラーが生じることが判っている。例えばこの自動音声認識は時間スケール変更に対する実際的な基礎とはならない。従って、音声認識技術等を必要とすることなく信号を構成するサウンド成分の異なる特徴を考慮した非均一的態様でオーディオ信号の時間スケール変更を行うことが望ましい。発明の簡単な説明上記課題によれば、本発明は変更レートを変えるために間接的な要素を使用する時間スケール変更に対する非均一的方法を提供するものである。通常の音声では音声の特定部分を強調すべき時は、話し手は単語をより大きくゆっくりと話す傾向がある。従って、聴取者にメッセージを完全に理解してもらいたい時に、話し手は単語を注意深く発声するが、一方、明示的表現ではなく表現上の内容を述べる時に言葉を選ぶ際には、ぶつぶつ、もごもごしゃべったり、つぶやいたりすることがある。従って、話し手の自然の意図を保つために本発明に係わる時間スケール変更は、話し手が単語を注意深く発声する部分ではなく、自然にある程度話す速度を速める音声部分を加速している。かかる方法では、話し手が意図する強調が維持されるので、聴取者には非リアルタイムレートでより了解可能なままとなる。概念的見地から音声の異なる部分を３つの広いカテゴリー、すなわち（１）ポーズと、（２）強勢（ｓｔｒｅｓｓ）のない音節、単語およびフレーズと、（３）強勢のある音節、単語およびフレーズとに分類できる。上記原理によれば、音声信号を圧縮するとポーズが最も加速され、強勢のないサウンドがその次の中間的な程度に圧縮され、強勢のあるサウンドが最も少なく圧縮される。従って、本発明の１つの特徴によれば、記録された音声の異なる部分の相対的強勢度（ｓｔｒｅｓｓ）を測定し、これを使って音声レートを制御する。相対的強勢度の１つの尺度として、音声に対するエネルギー項を計算し、音声のこれら異なるカテゴリーの間を区別するための根拠として働かせることができる。異なるタイプの音声の所定の一節がもともと話された速度も考慮している。このような要素を考慮することにより、比較的速いレートでもともと話されていた音声部分が過度に圧縮されなくなる。従って、本発明の別の特徴によれば、元の話しレートを測定し、圧縮レートを制御するのに使用できる。一実施例によれば、音声の内容のスペクトル変化を話しレートの尺度として使用できる。本発明の好ましい実施例では、音声の個々の部分、すなわちフレームに対して相対的強勢度および相対的話しレート項を計算する。これら項を「オーディオテンション」として示される単一の値に組み合わせる。公称圧縮レートに対し、このオーディオテンションを使用し、非均一的な音声の個々のフレームの時間スケール変更を互いに調節するのに使用する。このような方法により、聴取者が理解できる状態に維持しながら、圧縮された音声を比較的高速で再生できる。添付図面に示した図示した実施例を参照しながら、本発明の上記特徴およびこれによって得られる利点についてより詳細に説明する。図面の簡単な説明図１は、音声のための時間スケール変更システムの全ブロック図である。図２は、音声信号の圧縮の図である。図３は、本発明に係わる時間的に音声を変更するためのシステムのより詳細なブロック図である。図４は、フレームに分割された音声信号の図である。図５は、傾きのある時間的なヒステリシスの計算を示す、音声信号のための局部的フレーム強調のグラフである。図６Ａおよび６Ｂは、本発明に係わるＳＯＬＡ圧縮技術の変更を示す。図７は、本発明に係わるオーディオスキミング応用例のフローチャートである。詳細な説明一般的に言って、本発明は記録された時間をベースとする情報の時間スケール変更に関する。本発明の基礎となる原理を容易に理解できるように、特に音声圧縮の分野における応用例を参照して、本発明について説明する。かかる関連において、本発明のプロセスは音声の個々のセグメントに対するオーディオテンションを決定するよう、記録された音声を分析し、このオーディオテンションによって決定された非均一的レートで記録された音声を再生することである。本発明の実際的な用途は、音声圧縮のみに限定されるものでないことが理解できよう。むしろ本発明は、圧縮と同じように伸張にも使用でき、音声以外のサウンド、例えば音楽にも適用できる。本発明によって得られるオーディオ信号の分析の結果を、分析した実際の信号および／または圧縮または伸張しているオーディオ信号に関連している他のメディアの再生に適用できる。図１は、本発明を実施できる従来の音声圧縮システムの一般的ブロック図である。この音声圧縮システムは、より大きなシステム、例えば音声メールシステムまたはビデオ再生システムの一部を形成できる。音声サウンドは適当なメディア１０で記録される。例えば従来のアナログテープレコーダ内の磁気テープに音声を記録できる。しかしながら、音声をデジタル化し、デジタルプロセッサにアクセスできるメモリに記憶することがより好ましい。例えばメモリ１０は磁気ハードディスクまたは電子メモリ、例えばランダムアクセスメモリとすることができる。通常のレートで記録メディア１０から再生すると、記録された音声セグメントの長さはｔとなっている。音声信号を圧縮するために、所望するレートに従って時間スケール変更器１２内で音声信号を処理する。時間スケール変更器は特定の環境に応じて多数の形態を取り得る。例えばアナログテープレコーダでは変更器１２は読み取りヘッドを通過するように磁気テープが送られる速度を調節するモータコントローラだけから構成してもよい。テープ速度を速くすることにより音声信号はより高いレートで再生されるので、より短い時間ｔ’に時間的に圧縮される。このように圧縮された信号はスピーカー１４または同等の装置に加えられ、ここで可聴信号に変換される。元の音声信号をデジタル状にメディア１０に記憶するようになっている本発明の好ましい実施例では、時間スケール変更器はデジタル信号プロセッサとなっている。この変更器はメディア１０から記録された音声信号を読み出し、これを処理して適当な時間圧縮を行い、処理された信号をアナログ信号に変換する適当にプログラムされたコンピュータとすることができ、アナログ信号はスピーカー１４に供給される。デジタル信号プロセッサ内で音声信号の時間スケール変更をするのに種々の公知の方法を使用できる。周波数領域では短時間フーリエ変換に基づく変更方法が知られている。例えば音声信号に対するスペクトログラムを得ることができ、目標圧縮レートに従ってこのスペクトログラムの時間ディメンジョンを圧縮できる。次に、例えば米国特許第5,473,759号に開示されているように、圧縮した信号を再構成できる。これとは異なり、時間領域の圧縮方法も使用できる。１つの適当な方法としてはＰＳＯＬＡまたはＳＯＬＡと称されるピッチ同期オーバーラップ加算（ｐｉｔｃｈ−ｓｙｎｃｈｒｏｎｏｕｓｏｖｅｒｌａｐ−ａｄｄ）方法がある。スピーチ信号は短時間分析信号、すなわちフレームのストリームに分割され、次にピッチ形状を保存するようにフレーム間の間隔を狭くすることによりオーバーラップ加算合成を実施する。基本的には音声をスピードアップするのに整数の数の期間を取り除く。音声伸張が望ましい場合、主要な基本的時間の整数の倍数だけフレーム間の間隔を広げる。従来の音声信号圧縮システムでは、（ピッチ同期によって生じるジッターの範囲まで）均一に信号に対する時間スケールのワーピング（ｗａｒｐｉｎｇ）を実行している。従って、図２を参照すると、時間圧縮された信号１８を発生するように、元の信号１６の個々の各成分に均一に時間スケール変更技術が用いられている。例えばＳＯＬＡ方法を使用する場合、フレーム間の間隔は圧縮レートに関連する値だけ狭くされる。時間圧縮された信号１８内では信号の個々の成分の各各は元の信号１６の長さに対してほぼ比例した状態で短縮された時間長さを有する。音声信号の長さにわたって均一な圧縮を行うと、その結果得られる音声信号は音声に対して不自然な音質となる。このような自然な感じがなくなることは、変更率が大きくなるにつれてより認め易くなる。この結果、圧縮された信号の長さに対する音の信号の長さの比が約２よりも大きくなる、比較的大きい変更率に対しては、音声を十分認識することが困難であるので、平均的な聴取者が解読することができなくなる。本発明によれば、音声信号に対し、非均一的な圧縮を行うことにより、より自然に聞こえる変更された音声信号が得られる。一般的に言えば、話し手によって最も強勢のない音声部分に、より大きい圧縮を行い、最大の強勢のある部分に少ない圧縮を行うように圧縮レートを変える。更に、どれだけ音声信号を圧縮するかを決定する際に、信号の最初に話されていたレートを考慮する。従って、オーディオテンションと称される値によって示されている、対応する特性を決定するために、まず元の音声信号を分析する。次にこの信号のオーディオテンションを使用して時間スケール変更器１２内で圧縮レートを制御する。オーディオテンションは２つの基本的部分から成る。図３を参照すると、メディア１０に記憶された記録音声は、音声の異なる部分でなされた相対的な強調度を決定するよう、１つのステージ２０で分析される。本発明の一実施例では音声信号のエネルギー内容を相対的強調度の尺度として使用する。相対的強調度の尺度とするのに使用できる別の方法として統計学的分類（例えば音声単音の強勢のある部分と強勢のない部分を区別するように検討された隠されたマルコフモデル（ＨＭＭ）（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）および音声部分に基づく発音辞書を参照して発音の一致した単語レベルのトランススクリプト（ｔｒａｎｓｃｒｉｐｔｉｏｎｓ）（筆耕）の分析がある。次にエネルギー内容を相対的強調度の尺度として使用する実施例を参照して本発明の次の説明を行う。しかしながら他の形態の測定も利用できると理解できよう。概念的には音声信号内のエネルギーにより、信号の異なる成分は（音声信号のゼロに近い振幅部分によって示される）ポーズと、強勢のないサウンド（低振幅部分）と、強勢のあるサウンド（高振幅部分）とに識別できる。一般的に言ってポーズを最も圧縮し、強勢のあるサウンドを最も小さく圧縮し、強勢のないサウンドを中間的な値だけ圧縮することが好ましい。本発明の実施に当たり、音声の異なる成分は上記のような３つのカテゴリーに固定された状態に分類されない。むしろ音声信号のエネルギー内容は連続した範囲にわたって発生し、次の基準に従って音声信号を圧縮すべき量の尺度を与える。当該他の要素は、サウンドがもともと話されていたレートである。比較的速く話されたサウンドに対しては音声信号が過度に圧縮されないように圧縮レートを小さくすべきである。従って、元の音声信号は第２ステージ２２で相対的な話されるレートを予測するようにも分析される。本発明の一実施例では、信号内のスペクトル変化は相対的な話されるレートの尺度として検出される。別の実施例では統計的分類、すなわち音の予測される長さに対して正規化されるＨＭＭによって予測される単音の過渡現象間の時間を使用する音の長さの予測値を使って、元の話しレートを決定できる。別の例として音節に対する予想される長さに対して正規化された一致したトランスクリプトから得られる音節の長さの予測値から話しレートを決定できる。次の本発明の一実施例の説明では、もともと話されていたレートの尺度としてスペクトル変化を利用する。オーディオ強勢度の値を形成するステージ２０で計算された相対的強調度の項とステージ２２で計算された話しレートの項とを別のステージ２４で組み合わせる。この値は瞬間的な目標圧縮レートを得るために別の処理ステージ２６に適用される公称圧縮レートを調節するのに使用される。この目標圧縮レート時間スケール変更器１２に与えられ、よって音声信号の対応する部分を圧縮する。次に、本発明の実施例に関してステージ２０、２２および２４で行われる信号分析について説明する。かかる実施例の詳細は容易に理解できるように図示したものである。本明細書に示した方法と別の実施例も明らかであり、本発明を実施する際に同様に利用できる。強調度の局部的尺度を提供する得ために、局部的エネルギーが誘導される値を使用する。次の場合、音声信号の強調度を予測するためにエネルギーに基づく尺度を使用できる。すなわち単一音節またはそれ以下の時間スケールの変化を認めるよう、エネルギーの尺度が局部的であり、かつ十分にダイナミックであり、よって個々の音節のスケールで強調を測定できる場合。長期平均エネルギー値に対してエネルギーの尺度を正規化し、エネルギーレベルの相対的変化を測定できるようにし、エネルギーの尺度が強調度の相対的変化を捕捉できるようにした場合。そのエネルギー尺度を圧縮でき、よって低いエネルギーレベルの小さい差、例えば摩擦音とポーズとの間の小さい差を理解できるようにするだけでなく、高いエネルギーの大きな差、例えば強勢のある母音と強勢のない母音との間の大きな差も理解でき、よってそのエネルギーの尺度が強勢のあるカテゴリーと強勢のないカテゴリーとポーズのカテゴリーとの相対的変化を捕捉できる場合。そのエネルギーの尺度が単一音節内の大きな変化を回避するのに十分安定しており、よって個々の音素ではなく完全な音節にわたって強調を測定でき、よって音声認識における時間的なグループ分け効果を考慮する場合。そのエネルギー尺度が時間的ヒステリシスを含んでおり、よって認識上のアーティファクト（ａｒｔｉｆａｃｔ）（例えば誤ったピッチリセット）を回避できる場合。次の実施例は、エネルギーに基づく尺度を使用してこれらの目的を達成する１つの方法を提供するものである。図４を参照すると、音声信号を適当な長さのオーバーラップしたフレームに分割する。例えば各フレームは約１０〜３０ミリ秒の時間スパン内の音声信号の１つのセグメントを含むことができる。強調度検出ステージ２０内の各フレームに対し、信号のエネルギーを決定する。一般的に言ってこのエネルギーはフレーム内の信号の振幅の平方の積分を意味する。各フレームに対して１つのエネルギー値を計算する。発明の好ましい実施例では、相対的強調度の変化を捕捉するエネルギーの尺度を提供するように、長期振幅に対する各フレーム内の局部的エネルギーを正規化することが望ましい。この正規化は相対的フレームエネルギーとして知られる値を計算することによって達成できる。かかる値を計算するには元のフレームレートのフレームエネルギーをまず決定する。多数の連続するフレームにわたる平均的フレームエネルギーも決定する。一実施例では適当な長い時定数を有する単極フィルタにより平均フレームエネルギーを測定できる。例えば上記のようにフレームの長さが１０〜３０ミリ秒である場合、フィルタは約１秒の時定数を有することができる。次に平均的フレームエネルギーに対する局部的フレームエネルギーの比として相対的フレームエネルギーを計算する。次にフレームを横断する平均的エネルギーの変化により密に一致する振幅レンジに相対的フレームエネルギーの値をマッピングできる。このマッピングはより低いエネルギーレベルでの（摩擦音とポーズとの間のような）小さい差を検討できるようにするだけでなく、より高いエネルギーレベルでの大きい差（例えば強勢のある母音と強勢のない母音との間の大きい差）を検討できるようにし、よって強勢のないサウンドと強勢のあるサウンドとポーズとのフルレンジの差を捕捉できるようにする圧縮マッピング技術によって達成することが好ましい。一実施例では、まず最大値、例えば２に相対的フレームエネルギー値をクリッピングすることによってこのような圧縮マッピングを実行する。このようなクリッピングにより、例えば強勢のある母音のような高いエネルギー値を備えたサウンドが他のすべてのサウンドを完全に支配するのを防止する。次にマッピングをするようにクリッピングされた値の平方根を計算する。かかるマッピングから生じる値を「局部的フレーム強調度」と称す。局部的フレーム強調度は音声認識における時間的グループ分け効果を考慮し、更に認識上のアーティファクト、例えば誤ったピッチリセットを防止するように変更することが好ましい。一般的に子音に対するサウンドは母音に対するサウンドよりもエネルギーが小さくなる性質がある。１つの音節に強勢があり、他の音節に強勢がないような、２音節の単語の一例を検討する。強勢のない音節内の母音は強勢のある音節内の子音よりも大きい局部的なフレーム強調度を有することがある。しかしながらこの単語が速く話される場合、強勢のない音節のすべての部分は大きく、または強勢のある音節の部分よりも大きく圧縮される性質がある。このタイプの時間的グループ分けを考慮するために、局部的フレーム強調度に傾きのある時間的ヒステリシスを適用し、局部的相対的エネルギー項を計算する。図５を参照すると、現在フレームから近い将来、例えば１２０ミリ秒までのヒステリシスウィンドー内にある局部的フレーム強調度の最大値３０として近い将来の最大のフレーム強調を定義する。同様に、近い過去の最大フレーム強調度を、現在のフレームから近い過去の、例えば３０ミリ秒までのヒステリシスウィンドー内の最大値３２として定義する。現在フレームに対する相対的な局部エネルギー項３４を得るために近い将来の最大強調度および近い過去の最大強調度に対し、リニア補間法を適用する。この方法は、高いエネルギーを示す母音に近い子音の音声を増加し、またこの方法を用いない場合、かかる母音に近いポーズ部分の相対的エネルギーを増加することにより、大きく圧縮されたポーズ内に生じることがあるピッチリセットの誤った認識も低減する。話しレートの局部的尺度を与えるため、本発明の一実施例では話しレートステージ２２２でスペクトル変化のレートから生じる尺度を計算する。しかしながら先に述べたように相対的話しレートの他の尺度も使用できることが理解できよう。次の場合、音声信号の話しレートを推定するのにスペクトル変化に基づく尺度を使用できる。そのスペクトル変化が局部的であり、単音以下の時間スケールの変化を可能にするよう十分ダイナミックであり、この尺度が個々の音素のスケールで話しレートを測定できる場合。そのスペクトル変化の尺度が圧縮可能であり、低いエネルギーレベルでの小さい差（例えば摩擦音とポーズとの間の小さい差）を考慮できるだけでなく、より高いエネルギーレベルでの大きな差、例えば母音と鼻子音との間の大きい差を考慮でき、よってその尺度が広範に異なるエネルギーレベルで変化を測定できる場合。そのスペクトル変化が異なる周波数領域で見られる変化を単一のレート尺度に要約し、よって音声生成プロセスに関する詳細な仮定に依存することなく、フォーマットの形状および周波数の局部的変化を検出できる場合。そのスペクトル変化の尺度が長期的な平均スペクトル変化の値に正規化され、よってスペクトル変化のレートの相対的変化を測定でき、よって話しレートの相対的変化を捕捉できる場合。次の実施例はスペクトル変化に基づく尺度でこれら目標を達成するための方法を提供するものである。話しレート検出ステージ２２内で、元の音声信号のフレームに対するスペクトログラムを計算する。例えば２０ｍｓのハミングウィンド（Ｈｕｍｍｉｎｇｗｉｎｄｏｗ）、１０ｍｓのフレームオフセット、０.９５に極を有するプリエンファシスフィルタおよび５１３個の周波数ビン（ｂｉｎ）を用いて、狭帯域スペクトログラムを計算できる。各ピン内の値はフィルタ内で低周波数をデエンファシスした後の関連する周波数における信号の振幅を示す。現在のフレームビンの値と以前のフレームビンの値との間でｄＢスケール（対数振幅）の絶対差を使用して、フレームスペクトルの差を計算する。隣接するフレームの間の短い分離（例えば１０〜２０ｍｓｅｃ）と共に隣接フレーム間のフレームの差を用いることにより、単音以下の時間スケールの変化を可能にするよう、局部的、かつダイナミックな尺度が得られ、よってこの尺度により個々の音素のスケールで話しレートを測定できる。変化の対数尺度を使用することにより低エネルギーレベルでの小さい差を考慮するだけでなく、高いエネルギーレベルの大きな差を考慮することが可能となって居る。これにより広範に異なるエネルギーレベルで変化を測定することが可能となり、すべてのタイプの音声サウンドの取り扱いを可能にする変化の尺度が得られる。現在フレームに対するフレームスペクトルの差を与えるために、現在フレーム内の最もエネルギーのあるビンに対する絶対的差を加算する。この最もエネルギレベルのあるビンは振幅が最大のビンの４０ｄＢ内にあるビンとして定義される。これにより音声生成プロセスに関する詳細な仮定に依存することなく、フォーマット形状および周波数の局部的変化に敏感な話しレートの単一尺度が得られる。基本的にはフレームスペクトル差は変化の対数尺度に基づく周波数分布が変わっている時間量の各ポイントにおける単一尺度である。相対的話しレートを推定するために、長期平均値を除くようにフレームスペクトル差の局部的値を正規化する。これは平均値で重みづけされたスペクトル差を時間関数として推定することにより行われる。この平均値の推定にあたり、低エネルギーフレームの結果、フレームスペクトル差の極めて大きい信頼できない値が生じ得る。従って、低エネルギーフレームの悪影響を除く相対的フレームエネルギーの非線形関数によって平均スペクトル差を重みづけすることが好ましい。このためにフレームのエネルギーが大きくない場合、例えば局部平均値の４％未満である場合、このエネルギーは検討から除く。次に残りのフレームに対するフレームスペクトル差の値をローパスフィルタで除き、時間関数としての平均値で重みづけされたスペクトル差を得る。例えばフィルタは１秒の時定数を有し得る。次に、平均値で重みづけされたスペクトル差を使ってスペクトル変化の局部的相対レートを推定する。すなわちそれらの比を計算する。この結果得られる値はエネルギー項とスペクトル変化項とをバランスさせるように、例えば最大値２に制限できる。ステージ２０および２２でエネルギー項およびスペクトル変化項が一旦計算されると、ステージ２４で単一局部的テンション値を形成するようにこれらの項を組み合わせる。一例としてこの局部的テンション値は次の式に従って計算できる。テンション＝ａ_esＴ_e Ｔ_s＋ａ_e Ｔ_e＋ａ_s Ｔ_s＋ａ_o ここで、Ｔ_eは局部的相対エネルギー項であり、Ｔ_sは局部的相対スケール変化項であり、ａ_es、ａ_e、ａ_sおよびa_oは定数である。本発明の一実施例ではこれら定数はａ_es ＝０、ａ_e＝1、ａ_s＝１／２およびａ_o＝１／４の値を有する。これら値は経験的に決定でき、異なるタイプの音声に対する変わった結果を生成するように広いレンジにわたって調節できる。１つのフレームに対するテンション値を計算すると、この値はステージ２６で目標圧縮レートを形成するように公称圧縮レートと組み合わされる。この公称圧縮レートは定数、例えば２倍のリアルタイムとすることができる。これとは異なり、この圧縮レートはシーケンス状、例えば最初の２秒の間２倍のリアルタイムとし、次の２秒の間で２.２倍のリアルタイムとし、次の２秒の間で２.４倍のリアルタイム等とすることができる。このような公称圧縮レートのシーケンスは、例えばユーザーがメッセージ内の異なる点で再生レートを変えるよう、留守番電話上の制御ノブを押すことによって手動で発生できるし、または自動処理、例えば後により詳細に説明するように話し手の識別確率によって生成できる。公称圧縮レートがあるシーケンスの値から成る状況では、この圧縮レートをあらかじめローパスフィルタにかけ、公称圧縮レートの急激な変化から生じるような目標圧縮レートのシャープな変化を除くことが好ましい。次にこの目標圧縮レートはオーディオテンション値を公称圧縮レートで割った値として設定できる。この目標圧縮レートは時間スケール変更器１２に加え、信号の現在フレームの実際の圧縮を決定する。圧縮自体は任意の適当なタイプの公知の圧縮技術、例えば前に説明したようにＳＯＬＡスペクトログラム反転技術に従って実施できる。時間スケール変更を行うためにＳＯＬＡ技術を使用する場合、特に高圧縮レートで変更の結果生じたサウンドにおいてアーティファクト、例えばポップ音またはクリック音が認められる可能性がある。これらアーティファクトはオーディオ信号が非周期的である場合、例えばポーズの直前または直後で無声子音が生じる時に最も生じやすい。ポーズが存在していることに起因し、信号のこれら部分では圧縮レートなどが極めて高くなる。この結果、ＳＯＬＡ技術によりオーバーラップされるフレームの数は、より代表的な３〜４のフレームと対照的に２０〜３０程度に大きくなり得る。このようにフレームが繰り返してオーバーラップすることにより無声子音における非周期的エネルギーが除去される傾向がある。聴取者にとってこのことは単語の開始音または終了音が途切れたり、または完全になくなるように聞こえることがある。本発明の好ましい実施例では、従来のＳＯＬＡ技術はかかる結果を防止するように変更される。この目的のため、主な成分が周期的エネルギーとなっているフレームを変更する。これらフレーム部分は変更することなく、圧縮された出力信号内に維持され、よって非周期的エネルギーを維持する。このようなことは隣接するフレームの高周波エネルギー内容を検討することによって実施される。図６Ａを参照すると、現在フレーム３６は前のフレーム３８よりもかなり多いゼロクロス点を有する場合、出力信号内に現在フレーム３６の少なくともかい支店を維持しながら前のフレーム３８の一部を除くことができる。これと逆に、図６Ｂに示されるように前のフレーム３８’のほうが現在フレーム３６’よりもかなり多いゼロクロス点を有する場合、圧縮された信号内にこれら前のフレームが維持され、現在フレーム３６’は除かれる。上記記載から本発明は連続体にわたって音声信号の全パターンを分析するという方法による音声の非均一的時間スケール変更技術を提供するものであることが理解できよう。この分析の結果は音声信号に適用される時間的変更のダイナミックな調節に使用され、高変更レートでも最盛時により了解度の高い信号を提供する。信号の分析は音声認識技術に依存していないので、特定言語の特性に依存しないものとなっている。むしろ制御パラメータの１つとして相対的強調を使用していることにより、本発明の技術をほとんどの言語に普遍的に実施することが可能となっている。実際に本発明は特に高レートの圧縮が望ましい場合のオーディオ信号の時間スケールを変更することが好ましい状況で使用できる。本発明が特に適す用途としては、オーディオスキミングの分野がある。オーディオスキミングとはオーディオソースを短時間でレビューすることである。最も簡単な実施例ではオーディオスキミングはオーディオトラックを一定レートで高速順方向送りすることである。このような再生は本発明を使って時間圧縮を行うことにより、本発明を用いないで理解できるレートよりもより高速で行うことができる。このような応用例ではオーディオトラックに対し（例えば高速順方向送り制御ボタンにより）目標レートを設定し、本発明の技術を使ってトラックを再生する。より複雑な実施例では、オーディオスキミングは適当な時間圧縮レートでオーディオトラックを可変レートで高速順方向送りすることである。可変レートの圧縮の目標レートを決定する方法は、マニュアル入力またはマニュアル制御（例えばテープレコーダの制御ユニット上に設けられたシャトルジョブ）によって行われる。目標レートを決定する別の方法としては特定の人の音声をビデオで自動的にサーチする方法がある。この場合、１９９２年のジョージア工科大学のＤ.レイノルズによる博士論文「テキストから独立した話し手の識別に対するガウス混合モデル化方法」に開示されているような、テキストから独立した話し手のＩＤシステムを使ってオーディオの局部的部分（例えば１／３秒または２秒の部分）が選択された人の音声の記録となっている確率のストリームを生成できる。これら確率はあるシーケンスの目標圧縮レートに変換できる。例えばオーディオ信号のある部分が選択されたストリームに対応する確率を群のうちのグループ（例えば他のモデル化されたノイズまたは音声）に対して正規化できる。このように正規化された確率を使って目標圧縮レートに対する簡単かつ単調なマッピングを行うことができる図７のフローチャートにはかかる方法を使った圧縮レート制御の一例が示されている。この図を参照するとステップ３８で確率Ｐが生成される。この確率は再生されているサウンドが群のための確率に対する所定の話し手の音声である確率の尺度となっている。選択された話し手の相対的確率Ｐが１よりも大きいプリセットされた大きい値Ｈよりも大（例えば１０以上であり、よって選択されたスピーカーは正規化確率よりも１０倍以上確かである）場合にはステップ４０および４２で再生レートＲはリアルタイム（スピードアップなし）にセットされる。ステップ４４で、選択されたスピーカーの相対的確率Ｐが正規化確率に等しい場合、再生レートＲはリアルタイムの値よりも大きい圧縮値Ｆにセットされ、これによりステップ４６で理解可能な音声（例えばリアルタイムの２〜３倍）が得られる。ステップ４８で、選択されたスピーカーの相対的確率Ｐが１未満のプリセットされた低い値Ｌよりも小さい（例えば１／１０以下であり、よって正規化確率は選択されたスピーカーよりも１０倍確かである）場合、ステップ５０で再生レートＲはある高い値Ｇにセットされるか、または記録された信号のその部分が共にスキップされる。３〜５倍のリアルタイムの範囲内の大きい値が使用される場合、これら領域がまだ理解可能な音声の再生を行う。１０〜３０倍のリアルタイムの範囲内の高い値が使用される場合、これら領域は理解可能な音声の再生を行わないが、これら値はその部分の内容に関し、一部の聴取可能な手掛かりを提供できる。ステップ５２で、選択された話し手の相対的な確率が高い値と１との範囲内にある場合、疑似変換関数を使って再生レート、例えばステップ５４に示されるようなレートを決定できる。最後に、選択された話し手の相対的確率がステップ４０、４４、４８または５２の基準のいずれも満たさない場合、この確率は１と低い値の間の範囲内になければならない。この場合、相対的確率の逆数に対し密接な関係のある関数を使ってレートＲＮ例えばステップ５６に示されるようなレートを設定する。その後、ステップ５４で設定されたレートで圧縮を実行する。当業者であれば、本発明は発明の要旨、すなわち本質的な特徴から逸脱することなく、他の特定の形態で実施できる。例えば特に本発明の音声圧縮に関連して説明したが、本発明の原理は音声の伸張にも等しく実施できる。更に非均一的変更はこれによって誘導される音声だけにその使用を限定する必要はない。むしろこの変更技術は他のメディア、例えば付随するビデオメディアにも適用できる。従って、現在開示されている実施例はすべての点で単に説明上のものであり、限定的なものではない。本発明の範囲はこれまでの説明ではなく、添付された請求の範囲によって示されるものであり、本発明の均等物の趣旨および範囲内に入るすべての変形例は、本発明の範囲内に含まれるものである。

【手続補正書】特許法第１８４条の８第１項【提出日】平成１０年６月１６日（１９９８．６．１６）【補正内容】１９．前記個々のセグメントの相互のスペクトル内容の変化を決定する工程を更に含み、このスペクトル内容の相対的変化に従って前記変更レートを更に決定する、請求項１８記載の方法。２０．前記セグメントに対し、同期的オーバーラップおよび加算技術を適用することにより前記変形工程を実施する、請求項１８記載の方法。２１．前記信号の隣接するセグメント内の高周波エネルギー内容の大きな変化を検出する工程と、大きな変化が検出された際に前記同期的オーバーラップおよび加算技術の間でより大きい高周波エネルギー内容を有するセグメントに優先権を与える工程とを更に含む、請求項２０記載の方法。２２．オーディオ信号を記憶するメモリデバイスと、信号の異なる部分の相対的な強調度の連続的尺度を提供するよう、前記メモリデバイス内に記憶されたオーディオ信号を分析するための手段と、測定された相対的強調度に従って非均一的な連続的変更レートを生成するための手段と、前記非均一的変更レートに従ってオーディオ信号を再生するための手段とを備えた、オーディオ信号の時間スケールを変更するためのシステム。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ (72)発明者ウイズゴット，エム．，マーガレットアメリカ合衆国94022 カリフォルニア州ロスアルトスヒルズ，メロデイレーン 12348

Claims

【特許請求の範囲】１．オーディオ信号の異なる部分の相対的強調度を決定する工程と、より大きい相対的な強調度を有する信号部分をより小さい相対的強調度を有する信号部分よりも小さく変更するよう、非均一的にオーディオ信号の時間スケールを変更する工程とを備えた、オーディオ信号の時間スケールを変更するための方法。２．オーディオ信号のエネルギー内容を測定することにより、相対的な強調度を決定する、請求項１記載の方法。３．オーディオ信号の成分を統計学的に分類することにより相対的強調度を決定する、請求項１記載の方法。４．前記オーディオ信号が音声信号であり、相対的強調度が話し手の個々のサウンドに対して成す強勢度に関連する、請求項１記載の方法。５．音声の一部の辞書を参照して音声信号の一致したトランスクリプションを解読することにより相対的強調度を決定する、請求項４記載の方法。６．信号のより長い部分にわたって平均的強調度に対しオーディオ信号の局部的部分の決定された強調度を正規化する工程を更に含む、請求項１記載の方法。７．より大きい強調度の値がより小さい強調度の値よりも大きく圧縮されるように、相対的強調度の値の圧縮されたスケール上に正規化された強調度の値をマッピングする工程を更に含む、請求項６記載の方法。８．次の工程、すなわち当該現在部分に続くある長さのオーディオ信号に対する最大の強調度の値を決定する工程と、当該現在部分に先行するある長さのオーディオ信号に対する最大の強調度の値を決定する工程と、オーディオ信号において前記最大値が発声した位置に対する当該現在部分の位置に従い、前記最大強調度の間を補間する工程とにより、局部的強調度の値を決定する、請求項１記載の方法。９．当該各現在部分がオーディオ信号の単一フレームを含む、請求項８記載の方法。１０．音声信号の異なる部分の相対的強調度を決定する工程と、スピーチ信号の前記異なる部分に対する相対的話しレートを決定する工程と、（ａ）より小さい相対的強調度を有する音声信号部分を、より大きい相対的強調度を有する音声信号部分よりも大きく変更し、（ｂ）より大きい強調度を有する音声信号部分をより小さい相対的話しレートを有する音声信号部分よりも小さくなるように変更するように、非均一的に音声信号の時間スケールを変更する工程とを備えた、音声信号の時間スケールを変更するための方法。１１．音声信号の一部に対する相対的強調度の値を決定する工程と、音声信号の一部に対する相対的話しレートの値を決定する工程と、オーディオテンション値を形成するように前記相対的強調度の値と前記相対的話しレートの値とを組み合わせる工程と、公称変更値を選択する工程と、前記オーディオテンション値に従って前記公称変更レートを調節する工程と、調節された変更レートに従って音声信号部分を変更する工程とを更に含む請求項１０記載の方法。１２．音声信号のエネルギー内容を測定することにより、相対的な強調度を決定する、請求項１０記載の方法。１３．音声信号の成分を統計学的に分類することにより相対的強調度を決定する、請求項１０記載の方法。１４．音声の一部の辞書を参照して音声信号の一致したトランスクリプションを解読することにより相対的強調度を決定する、請求項１０記載の方法。１５．音声信号のスペクトル変化を測定することにより、相対的な話しレートを決定する、請求項１０記載の方法。１６．音声信号の成分を統計学的に分類することにより相対的話しレートを決定する、請求項１０記載の方法。１７．音声信号の一致したトランスクリプションを解読することにより相対的話しレートを決定する、請求項１０記載の方法。１８．オーディオ信号を多数のセグメントに分割する工程と、複数のセグメントにわたって平均エネルギー内容に対する個々のセグメントのエネルギー内容を決定する工程と、個々のセグメントの相対的エネルギー内容に従って連続的に変化する変更レートを決定し、前記変更レートに従ってオーディオ信号の時間スケールを変更する工程とを備えた、オーディオ信号の時間スケールを変更する方法。１９．前記個々のセグメントの相互のスペクトル内容の変化を決定する工程を更に含み、このスペクトル内容の相対的変化に従って前記変更レートを更に決定する、請求項１８記載の方法。２０．前記セグメントに対し、同期的オーバーラップおよび加算技術を適用することにより前記変形工程を実施する、請求項１８記載の方法。２１．前記信号の隣接するセグメント内の高周波エネルギー内容の大きな変化を検出する工程と、大きな変化が検出された際に前記同期的オーバーラップおよび加算技術の間でより大きい高周波エネルギー内容を有するセグメントに優先権を与える工程とを更に含む、請求項２０記載の方法。２２．オーディオ信号を記憶するメモリデバイスと、信号の異なる部分の相対的強調度を決定するよう、前記メモリデバイス内に記憶されたオーディオ信号を分析するための手段と、決定された相対的強調度の変化に従って非均一的変更レートを生成するための手段と、前記非均一的変更レートに従ってオーディオ信号を再生するための手段とを備えた、オーディオ信号の時間スケールを変更するためのシステム。２３．前記分析手段がオーディオ信号のエネルギー内容を測定する、請求項２２記載のシステム。２４．前記分析手段が信号の成分を統計学的に分類することにより相対的強調度を決定する、請求項２２記載のシステム。２５．前記オーディオ信号が音声信号であり、前記分析手段が音声の一部の辞書を参照して音声信号の時間的に一致したトランスクリプションを解読することにより相対的強調度を決定する、請求項２２記載のシステム。２６．音声信号を記憶するメモリデバイスと、信号の異なる部分の相対的強調度を決定するよう、前記メモリデバイス内に記憶されたオーディオ信号を分析するための第１手段と、話しレートの変化を決定するよう前記信号を分析するための第２手段と、決定された相対的強調度の変化および決定された話しレートの変化に従って非均一的変更レートを生成するための手段と、前記非均一的変更レートに従ってオーディオ信号を再生するための手段とを備えた、音声信号の時間スケールを変更するためのシステム。２７．第２分析手段が音声信号のスペクトル内容の変化を測定する、請求項２６記載のシステム。２８．前記分析手段が音声信号の成分を統計学的に分類することにより話しレートの変化を決定する、請求項２６記載のシステム。２９．前記第２分析手段が音声信号の一致したトランスクリプトを解読することにより話しレートの変化を決定する、請求項２６記載のシステム。３０．決定された相対的強調度と決定された話しレートの変化とを組み合わせ、オーディオテンション値を形成するための手段を更に含み、前記生成手段が前記オーディオテンション値に従って非均一的変更レートを生成する、請求項２６記載のシステム。３１．前記変更システムが音声メールシステム内に内蔵され、聴取者に記録されたメッセージを再生するレートを前記非均一的変更レートが制御する、請求項２２または２６記載のシステム。３２．前記変更システムがオーディオスキミングシステム内に内蔵され、前記非均一的変更レートを使用して公称変更レートを調節し、オーディオ信号を聴取者に再生するレートを制御する目標変更レートを形成する、請求項２２または２６記載のシステム。３３．オーディオ信号を分析することにより前記公称変更レートを決定する、請求項３２記載のシステム。３４．オーディオ信号が指定された話し手の声である確率を前記分析が含む、請求項３３記載のシステム。３５．オーディオ信号を記憶するメモリデバイスと、信号のエネルギー内容を決定するよう、前記メモリデバイス内に記憶されたオーディオ信号を分析するための第１手段と、スペクトル内容の変化を決定するよう前記信号を分析するための第２手段と、決定されたエネルギー内容および決定されたスペクトル内容の変化に従って目標変更レートを生成するための手段と、前記目標変更レートに従ってオーディオ信号を再生するための手段とを備えた、オーディオ信号の時間スケールを変更するためのシステム。３６．前記第１分析手段がオーディオ信号の複数のセグメントに対する平均エネルギー内容を決定し、前記平均エネルギー内容に対する前記セグメントの各々に対する局部的エネルギー内容を決定する、請求項３５記載のシステム。３７．あるセグメントから他のセグメントへの前記局部的エネルギー内容の変動に従って前記目標変更レートが変化する、請求項３５記載のシステム。３８．前記第２分析手段がオーディオ信号の複数のセグメントに対する平均スペクトル内容を決定し、前記平均スペクトル内容に対する前記セグメントの各々に対する局部的スペクトル内容を決定する、請求項３５記載のシステム。３９．あるセグメントから他のセグメントへの前記局部的スペクトル内容の変動に従って前記目標変更レートが変化する、請求項３８記載のシステム。４０．音声信号を記憶するメモリデバイスと、信号の異なる部分の相対的強調度を決定するよう、前記メモリデバイス内に記憶された音声信号を分析するための第１手段と、話しレートの変化を決定するよう前記信号を分析するための第２手段と、決定された相対的強調度および決定された話しレートの変化に従って目標変更レートを生成するための手段と、前記目標変更レートに従って情報信号を再生するための手段とを備えた、信号をもともと生成した時間レートと異なる時間レートで記録された情報信号を再生するためのシステム。４１．前記情報信号が前記オーディオ信号を含む、請求項４０記載のシステム。４２．前記情報信号がオーディオ信号を付随するビデオ信号を含む、請求項４０記載のシステム。