JP2000511651A - 記録されたオーディオ信号の非均一的時間スケール変更 - Google Patents

記録されたオーディオ信号の非均一的時間スケール変更

Info

Publication number
JP2000511651A
JP2000511651A JP10500579A JP50057998A JP2000511651A JP 2000511651 A JP2000511651 A JP 2000511651A JP 10500579 A JP10500579 A JP 10500579A JP 50057998 A JP50057998 A JP 50057998A JP 2000511651 A JP2000511651 A JP 2000511651A
Authority
JP
Japan
Prior art keywords
audio signal
rate
change
signal
relative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10500579A
Other languages
English (en)
Inventor
カベル,マイケル
ウイズゴット,エム.,マーガレット
Original Assignee
インターバル リサーチ コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターバル リサーチ コーポレイション filed Critical インターバル リサーチ コーポレイション
Publication of JP2000511651A publication Critical patent/JP2000511651A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 記録された音声信号の時間スケールを変更するために、音声信号の個々の部分、すなわちフレームに対する相対的強調項および相対的話しレート項を計算する。次にこの項を組み合わせてオーディオテンションと称される単一値にする。公称時間スケール変更レートに対しオーディオテンションを使用し、互いに非均一的に音声信号の個々のフレームの変更レートを調節する。このような方法により聴取者が解読できる状態のまま、圧縮された音声信号を比較的高いレートで再生できる。

Description

【発明の詳細な説明】 記録されたオーディオ信号の非均一的時間スケール変更 発明の分野 本発明は、記録されたオーディオ信号、例えば音声信号の再生中に、この信号 を圧縮したり伸張したりするために記録されたオーディオ信号、例えば音声信号 の時間スケールを変更することに関し、より詳細には、再生の結果生じる音の了 解度を維持しながら、高レートの圧縮および/または伸張を容易にするようにオ ーディオ信号の時間スケールを変更することに関する。 発明の背景 記録されたオーディオサウンド、例えば音声信号の時間スケールを変更するこ とが望ましい状況が多数存在する。視聴者が音声をより良好に理解したり、容易 に筆耕できるように、音声の再生速度を遅くしたい場合がある。またこの逆に、 視聴時間を短縮するよう、例えば記録された講義または音声メールメッセージを 聞きながら再生を速くしたいような場合もある。また別の例として、オーディオ の記録を他のメディア、例えばビデオのストリームに同期する際、2つのタイプ のメディアを同期させるために、記録されたオーディオ信号を圧縮したり、また は伸張しなければならないことがある。 従来、オーディオ信号の時間スケール変更は一定レートで行われてきた。例え ばテープレコーダでは音声を元のレートの1.5倍で再生したい場合、再生を速 めるように、テープをより高速で送ることができる。しかしながら再生速度を速 くするにつれ、再生されたサウンドのピッチも高くなり、この結果、トーンがか ん高くなってしまう。これと逆に、再生速度を正常の速度よりも遅くするにつれ ピッチが低くなり、より低い音に聞こえてしまう。 より高度なタイプの再生装置は、再生されたサウンドのピッチを調節できるよ うになっている。これら装置では再生速度が速くなるにつれ、これに付随してピ ッチを下げ、再生の結果生じるサウンドがより自然となるようにしている。しか しながらこのような方法を用いても均一な圧縮または伸張レートを使用すると、 得ることのできる変更量には実際上の限界がある。例えば一定レートで音声を圧 縮するには最大再生速度は元の記録されたレートの約2倍となる。より高いレー トで音声信号を再生すると、この結果生じるサウンドは音声信号の内容を了解で きないほど不自然となる。 大幅に加速された音声信号から生じる不自然なサウンドは音声レート自体の変 化によるものではない。特に人が話をする際、多くの理由から、または大きな結 果として、自分の音声レートを自然に大きくしたり、小さくする。しかしながら 極めて速くしゃべる人と高速で再生された記録されたサウンドとの差は、人の話 し手は音声レートを均一に変えないということである。むしろ音声の極めて短い 部分内で量を変えながら変化させており、その細かい部分の各々は1ミリ秒の何 十倍かの長さとなり得る。このような非均一的レートの変更は基本的には言語的 な要素の組み合わせによって制御されている。これら要素は話されるサウンドの 意味および談話の形態(意味的な寄与)、単語の順およびセンテンスの構造(構 文論的フォーム)および各サウンドの識別およびコンテキスト(音韻的パターン )と関連している。 従って、理論的には音声内の言語的要素を認識し、これに従って再生レートを 変えることによって記録された音声を非均一的に変えることができる。例えば構 文論的分析および音韻的分析を行うように音声認識技術を使用することができる 。この点に関し、音韻論的な要素および構文論的な要素に関連した細かい部分の 変化を解決する長さ規則が音声分析に対して開発されている。しかしながらかか る方法には問題がある。特に音声分析に対して考えられた長さ規則に基づく記録 の時間コースを変えた場合、この結果生じる音声は話し手が意図するように変え ることはできない。例えば意味的な要素およびプラグマティックな要素を制御し ない場合、エネルギッシュな話し手の話でも退屈に聞こえる。更に自動音声認識 は計算上高くつき、大きなエラーが生じることが判っている。例えばこの自動音 声認識は時間スケール変更に対する実際的な基礎とはならない。 従って、音声認識技術等を必要とすることなく信号を構成するサウンド成分の 異なる特徴を考慮した非均一的態様でオーディオ信号の時間スケール変更を行う ことが望ましい。 発明の簡単な説明 上記課題によれば、本発明は変更レートを変えるために間接的な要素を使用す る時間スケール変更に対する非均一的方法を提供するものである。通常の音声で は音声の特定部分を強調すべき時は、話し手は単語をより大きくゆっくりと話す 傾向がある。従って、聴取者にメッセージを完全に理解してもらいたい時に、話 し手は単語を注意深く発声するが、一方、明示的表現ではなく表現上の内容を述 べる時に言葉を選ぶ際には、ぶつぶつ、もごもごしゃべったり、つぶやいたりす ることがある。従って、話し手の自然の意図を保つために本発明に係わる時間ス ケール変更は、話し手が単語を注意深く発声する部分ではなく、自然にある程度 話す速度を速める音声部分を加速している。かかる方法では、話し手が意図する 強調が維持されるので、聴取者には非リアルタイムレートでより了解可能なまま となる。 概念的見地から音声の異なる部分を3つの広いカテゴリー、すなわち(1)ポ ーズと、(2)強勢(stress)のない音節、単語およびフレーズと、(3 )強勢のある音節、単語およびフレーズとに分類できる。上記原理によれば、音 声信号を圧縮するとポーズが最も加速され、強勢のないサウンドがその次の中間 的な程度に圧縮され、強勢のあるサウンドが最も少なく圧縮される。従って、本 発明の1つの特徴によれば、記録された音声の異なる部分の相対的強勢度(st ress)を測定し、これを使って音声レートを制御する。相対的強勢度の1つ の尺度として、音声に対するエネルギー項を計算し、音声のこれら異なるカテゴ リーの間を区別するための根拠として働かせることができる。 異なるタイプの音声の所定の一節がもともと話された速度も考慮している。こ のような要素を考慮することにより、比較的速いレートでもともと話されていた 音声部分が過度に圧縮されなくなる。従って、本発明の別の特徴によれば、元の 話しレートを測定し、圧縮レートを制御するのに使用できる。一実施例によれば 、音声の内容のスペクトル変化を話しレートの尺度として使用できる。 本発明の好ましい実施例では、音声の個々の部分、すなわちフレームに対して 相対的強勢度および相対的話しレート項を計算する。これら項を「オーディオテ ンション」として示される単一の値に組み合わせる。公称圧縮レートに対し、こ のオーディオテンションを使用し、非均一的な音声の個々のフレームの時間スケ ール変更を互いに調節するのに使用する。このような方法により、聴取者が理解 できる状態に維持しながら、圧縮された音声を比較的高速で再生できる。 添付図面に示した図示した実施例を参照しながら、本発明の上記特徴およびこ れによって得られる利点についてより詳細に説明する。 図面の簡単な説明 図1は、音声のための時間スケール変更システムの全ブロック図である。 図2は、音声信号の圧縮の図である。 図3は、本発明に係わる時間的に音声を変更するためのシステムのより詳細な ブロック図である。 図4は、フレームに分割された音声信号の図である。 図5は、傾きのある時間的なヒステリシスの計算を示す、音声信号のための局 部的フレーム強調のグラフである。 図6Aおよび6Bは、本発明に係わるSOLA圧縮技術の変更を示す。 図7は、本発明に係わるオーディオスキミング応用例のフローチャートである 。 詳細な説明 一般的に言って、本発明は記録された時間をベースとする情報の時間スケール 変更に関する。本発明の基礎となる原理を容易に理解できるように、特に音声圧 縮の分野における応用例を参照して、本発明について説明する。かかる関連にお いて、本発明のプロセスは音声の個々のセグメントに対するオーディオテンショ ンを決定するよう、記録された音声を分析し、このオーディオテンションによっ て決定された非均一的レートで記録された音声を再生することである。本発明の 実際的な用途は、音声圧縮のみに限定されるものでないことが理解できよう。む しろ本発明は、圧縮と同じように伸張にも使用でき、音声以外のサウンド、例え ば音楽にも適用できる。 本発明によって得られるオーディオ信号の分析の結果を、分析した実際の信号 および/または圧縮または伸張しているオーディオ信号に関連している他のメデ ィアの再生に適用できる。 図1は、本発明を実施できる従来の音声圧縮システムの一般的ブロック図であ る。この音声圧縮システムは、より大きなシステム、例えば音声メールシステム またはビデオ再生システムの一部を形成できる。音声サウンドは適当なメディア 10で記録される。例えば従来のアナログテープレコーダ内の磁気テープに音声 を記録できる。しかしながら、音声をデジタル化し、デジタルプロセッサにアク セスできるメモリに記憶することがより好ましい。例えばメモリ10は磁気ハー ドディスクまたは電子メモリ、例えばランダムアクセスメモリとすることができ る。通常のレートで記録メディア10から再生すると、記録された音声セグメン トの長さはtとなっている。 音声信号を圧縮するために、所望するレートに従って時間スケール変更器12 内で音声信号を処理する。時間スケール変更器は特定の環境に応じて多数の形態 を取り得る。例えばアナログテープレコーダでは変更器12は読み取りヘッドを 通過するように磁気テープが送られる速度を調節するモータコントローラだけか ら構成してもよい。テープ速度を速くすることにより音声信号はより高いレート で再生されるので、より短い時間t’に時間的に圧縮される。このように圧縮さ れた信号はスピーカー14または同等の装置に加えられ、ここで可聴信号に変換 される。 元の音声信号をデジタル状にメディア10に記憶するようになっている本発明 の好ましい実施例では、時間スケール変更器はデジタル信号プロセッサとなって いる。この変更器はメディア10から記録された音声信号を読み出し、これを処 理して適当な時間圧縮を行い、処理された信号をアナログ信号に変換する適当に プログラムされたコンピュータとすることができ、アナログ信号はスピーカー1 4に供給される。 デジタル信号プロセッサ内で音声信号の時間スケール変更をするのに種々の公 知の方法を使用できる。周波数領域では短時間フーリエ変換に基づく変更方法が 知られている。例えば音声信号に対するスペクトログラムを得ることができ、目 標圧縮レートに従ってこのスペクトログラムの時間ディメンジョンを圧縮できる 。次に、例えば米国特許第5,473,759号に開示されているように、圧縮した信号 を再構成できる。これとは異なり、時間領域の圧縮方法も使用できる。1つの適 当な方法としてはPSOLAまたはSOLAと称されるピッチ同期オーバーラッ プ 加算(pitch−synchronous overlap−add)方法が ある。スピーチ信号は短時間分析信号、すなわちフレームのストリームに分割さ れ、次にピッチ形状を保存するようにフレーム間の間隔を狭くすることによりオ ーバーラップ加算合成を実施する。基本的には音声をスピードアップするのに整 数の数の期間を取り除く。音声伸張が望ましい場合、主要な基本的時間の整数の 倍数だけフレーム間の間隔を広げる。 従来の音声信号圧縮システムでは、(ピッチ同期によって生じるジッターの範 囲まで)均一に信号に対する時間スケールのワーピング(warping)を実 行している。従って、図2を参照すると、時間圧縮された信号18を発生するよ うに、元の信号16の個々の各成分に均一に時間スケール変更技術が用いられて いる。例えばSOLA方法を使用する場合、フレーム間の間隔は圧縮レートに関 連する値だけ狭くされる。時間圧縮された信号18内では信号の個々の成分の各 各は元の信号16の長さに対してほぼ比例した状態で短縮された時間長さを有す る。 音声信号の長さにわたって均一な圧縮を行うと、その結果得られる音声信号は 音声に対して不自然な音質となる。このような自然な感じがなくなることは、変 更率が大きくなるにつれてより認め易くなる。この結果、圧縮された信号の長さ に対する音の信号の長さの比が約2よりも大きくなる、比較的大きい変更率に対 しては、音声を十分認識することが困難であるので、平均的な聴取者が解読する ことができなくなる。 本発明によれば、音声信号に対し、非均一的な圧縮を行うことにより、より自 然に聞こえる変更された音声信号が得られる。一般的に言えば、話し手によって 最も強勢のない音声部分に、より大きい圧縮を行い、最大の強勢のある部分に少 ない圧縮を行うように圧縮レートを変える。更に、どれだけ音声信号を圧縮する かを決定する際に、信号の最初に話されていたレートを考慮する。従って、オー ディオテンションと称される値によって示されている、対応する特性を決定する ために、まず元の音声信号を分析する。次にこの信号のオーディオテンションを 使用して時間スケール変更器12内で圧縮レートを制御する。 オーディオテンションは2つの基本的部分から成る。図3を参照すると、メデ ィア10に記憶された記録音声は、音声の異なる部分でなされた相対的な強調度 を決定するよう、1つのステージ20で分析される。本発明の一実施例では音声 信号のエネルギー内容を相対的強調度の尺度として使用する。相対的強調度の尺 度とするのに使用できる別の方法として統計学的分類(例えば音声単音の強勢の ある部分と強勢のない部分を区別するように検討された隠されたマルコフモデル (HMM)(hidden Markov model)および音声部分に基づ く発音辞書を参照して発音の一致した単語レベルのトランススクリプト(tra nscriptions)(筆耕)の分析がある。次にエネルギー内容を相対的 強調度の尺度として使用する実施例を参照して本発明の次の説明を行う。しかし ながら他の形態の測定も利用できると理解できよう。 概念的には音声信号内のエネルギーにより、信号の異なる成分は(音声信号の ゼロに近い振幅部分によって示される)ポーズと、強勢のないサウンド(低振幅 部分)と、強勢のあるサウンド(高振幅部分)とに識別できる。一般的に言って ポーズを最も圧縮し、強勢のあるサウンドを最も小さく圧縮し、強勢のないサウ ンドを中間的な値だけ圧縮することが好ましい。本発明の実施に当たり、音声の 異なる成分は上記のような3つのカテゴリーに固定された状態に分類されない。 むしろ音声信号のエネルギー内容は連続した範囲にわたって発生し、次の基準に 従って音声信号を圧縮すべき量の尺度を与える。 当該他の要素は、サウンドがもともと話されていたレートである。比較的速く 話されたサウンドに対しては音声信号が過度に圧縮されないように圧縮レートを 小さくすべきである。従って、元の音声信号は第2ステージ22で相対的な話さ れるレートを予測するようにも分析される。本発明の一実施例では、信号内のス ペクトル変化は相対的な話されるレートの尺度として検出される。別の実施例で は統計的分類、すなわち音の予測される長さに対して正規化されるHMMによっ て予測される単音の過渡現象間の時間を使用する音の長さの予測値を使って、元 の話しレートを決定できる。別の例として音節に対する予想される長さに対して 正規化された一致したトランスクリプトから得られる音節の長さの予測値から話 しレートを決定できる。次の本発明の一実施例の説明では、もともと話されてい たレートの尺度としてスペクトル変化を利用する。 オーディオ強勢度の値を形成するステージ20で計算された相対的強調度の項 とステージ22で計算された話しレートの項とを別のステージ24で組み合わせ る。この値は瞬間的な目標圧縮レートを得るために別の処理ステージ26に適用 される公称圧縮レートを調節するのに使用される。この目標圧縮レート時間スケ ール変更器12に与えられ、よって音声信号の対応する部分を圧縮する。 次に、本発明の実施例に関してステージ20、22および24で行われる信号 分析について説明する。かかる実施例の詳細は容易に理解できるように図示した ものである。本明細書に示した方法と別の実施例も明らかであり、本発明を実施 する際に同様に利用できる。 強調度の局部的尺度を提供する得ために、局部的エネルギーが誘導される値を 使用する。次の場合、音声信号の強調度を予測するためにエネルギーに基づく尺 度を使用できる。 すなわち単一音節またはそれ以下の時間スケールの変化を認めるよう、エネル ギーの尺度が局部的であり、かつ十分にダイナミックであり、よって個々の音節 のスケールで強調を測定できる場合。長期平均エネルギー値に対してエネルギー の尺度を正規化し、エネルギーレベルの相対的変化を測定できるようにし、エネ ルギーの尺度が強調度の相対的変化を捕捉できるようにした場合。 そのエネルギー尺度を圧縮でき、よって低いエネルギーレベルの小さい差、例 えば摩擦音とポーズとの間の小さい差を理解できるようにするだけでなく、高い エネルギーの大きな差、例えば強勢のある母音と強勢のない母音との間の大きな 差も理解でき、よってそのエネルギーの尺度が強勢のあるカテゴリーと強勢のな いカテゴリーとポーズのカテゴリーとの相対的変化を捕捉できる場合。 そのエネルギーの尺度が単一音節内の大きな変化を回避するのに十分安定して おり、よって個々の音素ではなく完全な音節にわたって強調を測定でき、よって 音声認識における時間的なグループ分け効果を考慮する場合。 そのエネルギー尺度が時間的ヒステリシスを含んでおり、よって認識上のアー ティファクト(artifact)(例えば誤ったピッチリセット)を回避でき る場合。 次の実施例は、エネルギーに基づく尺度を使用してこれらの目的を達成する1 つの方法を提供するものである。図4を参照すると、音声信号を適当な長さのオ ーバーラップしたフレームに分割する。例えば各フレームは約10〜30ミリ秒 の時間スパン内の音声信号の1つのセグメントを含むことができる。強調度検出 ステージ20内の各フレームに対し、信号のエネルギーを決定する。一般的に言 ってこのエネルギーはフレーム内の信号の振幅の平方の積分を意味する。各フレ ームに対して1つのエネルギー値を計算する。 発明の好ましい実施例では、相対的強調度の変化を捕捉するエネルギーの尺度 を提供するように、長期振幅に対する各フレーム内の局部的エネルギーを正規化 することが望ましい。この正規化は相対的フレームエネルギーとして知られる値 を計算することによって達成できる。かかる値を計算するには元のフレームレー トのフレームエネルギーをまず決定する。多数の連続するフレームにわたる平均 的フレームエネルギーも決定する。一実施例では適当な長い時定数を有する単極 フィルタにより平均フレームエネルギーを測定できる。例えば上記のようにフレ ームの長さが10〜30ミリ秒である場合、フィルタは約1秒の時定数を有する ことができる。次に平均的フレームエネルギーに対する局部的フレームエネルギ ーの比として相対的フレームエネルギーを計算する。 次にフレームを横断する平均的エネルギーの変化により密に一致する振幅レン ジに相対的フレームエネルギーの値をマッピングできる。このマッピングはより 低いエネルギーレベルでの(摩擦音とポーズとの間のような)小さい差を検討で きるようにするだけでなく、より高いエネルギーレベルでの大きい差(例えば強 勢のある母音と強勢のない母音との間の大きい差)を検討できるようにし、よっ て強勢のないサウンドと強勢のあるサウンドとポーズとのフルレンジの差を捕捉 できるようにする圧縮マッピング技術によって達成することが好ましい。一実施 例では、まず最大値、例えば2に相対的フレームエネルギー値をクリッピングす ることによってこのような圧縮マッピングを実行する。このようなクリッピング により、例えば強勢のある母音のような高いエネルギー値を備えたサウンドが他 のすべてのサウンドを完全に支配するのを防止する。次にマッピングをするよう にクリッピングされた値の平方根を計算する。かかるマッピングから生じる値を 「局部的フレーム強調度」と称す。 局部的フレーム強調度は音声認識における時間的グループ分け効果を考慮し、 更に認識上のアーティファクト、例えば誤ったピッチリセットを防止するように 変更することが好ましい。一般的に子音に対するサウンドは母音に対するサウン ドよりもエネルギーが小さくなる性質がある。1つの音節に強勢があり、他の音 節に強勢がないような、2音節の単語の一例を検討する。強勢のない音節内の母 音は強勢のある音節内の子音よりも大きい局部的なフレーム強調度を有すること がある。しかしながらこの単語が速く話される場合、強勢のない音節のすべての 部分は大きく、または強勢のある音節の部分よりも大きく圧縮される性質がある 。このタイプの時間的グループ分けを考慮するために、局部的フレーム強調度に 傾きのある時間的ヒステリシスを適用し、局部的相対的エネルギー項を計算する 。図5を参照すると、現在フレームから近い将来、例えば120ミリ秒までのヒ ステリシスウィンドー内にある局部的フレーム強調度の最大値30として近い将 来の最大のフレーム強調を定義する。同様に、近い過去の最大フレーム強調度を 、現在のフレームから近い過去の、例えば30ミリ秒までのヒステリシスウィン ドー内の最大値32として定義する。現在フレームに対する相対的な局部エネル ギー項34を得るために近い将来の最大強調度および近い過去の最大強調度に対 し、リニア補間法を適用する。この方法は、高いエネルギーを示す母音に近い子 音の音声を増加し、またこの方法を用いない場合、かかる母音に近いポーズ部分 の相対的エネルギーを増加することにより、大きく圧縮されたポーズ内に生じる ことがあるピッチリセットの誤った認識も低減する。 話しレートの局部的尺度を与えるため、本発明の一実施例では話しレートステ ージ222でスペクトル変化のレートから生じる尺度を計算する。しかしながら 先に述べたように相対的話しレートの他の尺度も使用できることが理解できよう 。次の場合、音声信号の話しレートを推定するのにスペクトル変化に基づく尺度 を使用できる。 そのスペクトル変化が局部的であり、単音以下の時間スケールの変化を可能に するよう十分ダイナミックであり、この尺度が個々の音素のスケールで話しレー トを測定できる場合。 そのスペクトル変化の尺度が圧縮可能であり、低いエネルギーレベルでの小さ い差(例えば摩擦音とポーズとの間の小さい差)を考慮できるだけでなく、より 高いエネルギーレベルでの大きな差、例えば母音と鼻子音との間の大きい差を考 慮でき、よってその尺度が広範に異なるエネルギーレベルで変化を測定できる場 合。 そのスペクトル変化が異なる周波数領域で見られる変化を単一のレート尺度に 要約し、よって音声生成プロセスに関する詳細な仮定に依存することなく、フォ ーマットの形状および周波数の局部的変化を検出できる場合。 そのスペクトル変化の尺度が長期的な平均スペクトル変化の値に正規化され、 よってスペクトル変化のレートの相対的変化を測定でき、よって話しレートの相 対的変化を捕捉できる場合。 次の実施例はスペクトル変化に基づく尺度でこれら目標を達成するための方法 を提供するものである。話しレート検出ステージ22内で、元の音声信号のフレ ームに対するスペクトログラムを計算する。例えば20msのハミングウィンド (Humming window)、10msのフレームオフセット、0.95 に極を有するプリエンファシスフィルタおよび513個の周波数ビン(bin) を用いて、狭帯域スペクトログラムを計算できる。各ピン内の値はフィルタ内で 低周波数をデエンファシスした後の関連する周波数における信号の振幅を示す。 現在のフレームビンの値と以前のフレームビンの値との間でdBスケール(対数 振幅)の絶対差を使用して、フレームスペクトルの差を計算する。隣接するフレ ームの間の短い分離(例えば10〜20msec)と共に隣接フレーム間のフレ ームの差を用いることにより、単音以下の時間スケールの変化を可能にするよう 、局部的、かつダイナミックな尺度が得られ、よってこの尺度により個々の音素 のスケールで話しレートを測定できる。変化の対数尺度を使用することにより低 エネルギーレベルでの小さい差を考慮するだけでなく、高いエネルギーレベルの 大きな差を考慮することが可能となって居る。これにより広範に異なるエネルギ ーレベルで変化を測定することが可能となり、すべてのタイプの音声サウンドの 取り扱いを可能にする変化の尺度が得られる。 現在フレームに対するフレームスペクトルの差を与えるために、現在フレーム 内の最もエネルギーのあるビンに対する絶対的差を加算する。この最もエネルギ レベルのあるビンは振幅が最大のビンの40dB内にあるビンとして定義される 。これにより音声生成プロセスに関する詳細な仮定に依存することなく、フォー マット形状および周波数の局部的変化に敏感な話しレートの単一尺度が得られる 。 基本的にはフレームスペクトル差は変化の対数尺度に基づく周波数分布が変わ っている時間量の各ポイントにおける単一尺度である。 相対的話しレートを推定するために、長期平均値を除くようにフレームスペク トル差の局部的値を正規化する。これは平均値で重みづけされたスペクトル差を 時間関数として推定することにより行われる。この平均値の推定にあたり、低エ ネルギーフレームの結果、フレームスペクトル差の極めて大きい信頼できない値 が生じ得る。従って、低エネルギーフレームの悪影響を除く相対的フレームエネ ルギーの非線形関数によって平均スペクトル差を重みづけすることが好ましい。 このためにフレームのエネルギーが大きくない場合、例えば局部平均値の4%未 満である場合、このエネルギーは検討から除く。次に残りのフレームに対するフ レームスペクトル差の値をローパスフィルタで除き、時間関数としての平均値で 重みづけされたスペクトル差を得る。例えばフィルタは1秒の時定数を有し得る 。 次に、平均値で重みづけされたスペクトル差を使ってスペクトル変化の局部的 相対レートを推定する。すなわちそれらの比を計算する。この結果得られる値は エネルギー項とスペクトル変化項とをバランスさせるように、例えば最大値2に 制限できる。 ステージ20および22でエネルギー項およびスペクトル変化項が一旦計算さ れると、ステージ24で単一局部的テンション値を形成するようにこれらの項を 組み合わせる。一例としてこの局部的テンション値は次の式に従って計算できる 。 テンション=aeses+aee+ass+ao ここで、Teは局部的相対エネルギー項であり、 Tsは局部的相対スケール変化項であり、 aes、ae、asおよびaoは定数である。本発明の一実施例ではこれら定数はaes =0、ae=1、as=1/2およびao=1/4の値を有する。これら値は経験 的に決定でき、異なるタイプの音声に対する変わった結果を生成す るように広いレンジにわたって調節できる。 1つのフレームに対するテンション値を計算すると、この値はステージ26で 目標圧縮レートを形成するように公称圧縮レートと組み合わされる。この公称圧 縮レートは定数、例えば2倍のリアルタイムとすることができる。これとは異な り、この圧縮レートはシーケンス状、例えば最初の2秒の間2倍のリアルタイム とし、次の2秒の間で2.2倍のリアルタイムとし、次の2秒の間で2.4倍のリ アルタイム等とすることができる。このような公称圧縮レートのシーケンスは、 例えばユーザーがメッセージ内の異なる点で再生レートを変えるよう、留守番電 話上の制御ノブを押すことによって手動で発生できるし、または自動処理、例え ば後により詳細に説明するように話し手の識別確率によって生成できる。公称圧 縮レートがあるシーケンスの値から成る状況では、この圧縮レートをあらかじめ ローパスフィルタにかけ、公称圧縮レートの急激な変化から生じるような目標圧 縮レートのシャープな変化を除くことが好ましい。次にこの目標圧縮レートはオ ーディオテンション値を公称圧縮レートで割った値として設定できる。この目標 圧縮レートは時間スケール変更器12に加え、信号の現在フレームの実際の圧縮 を決定する。圧縮自体は任意の適当なタイプの公知の圧縮技術、例えば前に説明 したようにSOLAスペクトログラム反転技術に従って実施できる。 時間スケール変更を行うためにSOLA技術を使用する場合、特に高圧縮レー トで変更の結果生じたサウンドにおいてアーティファクト、例えばポップ音また はクリック音が認められる可能性がある。これらアーティファクトはオーディオ 信号が非周期的である場合、例えばポーズの直前または直後で無声子音が生じる 時に最も生じやすい。ポーズが存在していることに起因し、信号のこれら部分で は圧縮レートなどが極めて高くなる。この結果、SOLA技術によりオーバーラ ップされるフレームの数は、より代表的な3〜4のフレームと対照的に20〜3 0程度に大きくなり得る。このようにフレームが繰り返してオーバーラップする ことにより無声子音における非周期的エネルギーが除去される傾向がある。聴取 者にとってこのことは単語の開始音または終了音が途切れたり、または完全にな くなるように聞こえることがある。 本発明の好ましい実施例では、従来のSOLA技術はかかる結果を防止するよ うに変更される。この目的のため、主な成分が周期的エネルギーとなっているフ レームを変更する。これらフレーム部分は変更することなく、圧縮された出力信 号内に維持され、よって非周期的エネルギーを維持する。このようなことは隣接 するフレームの高周波エネルギー内容を検討することによって実施される。図6 Aを参照すると、現在フレーム36は前のフレーム38よりもかなり多いゼロク ロス点を有する場合、出力信号内に現在フレーム36の少なくともかい支店を維 持しながら前のフレーム38の一部を除くことができる。これと逆に、図6Bに 示されるように前のフレーム38’のほうが現在フレーム36’よりもかなり多 いゼロクロス点を有する場合、圧縮された信号内にこれら前のフレームが維持さ れ、現在フレーム36’は除かれる。 上記記載から本発明は連続体にわたって音声信号の全パターンを分析するとい う方法による音声の非均一的時間スケール変更技術を提供するものであることが 理解できよう。この分析の結果は音声信号に適用される時間的変更のダイナミッ クな調節に使用され、高変更レートでも最盛時により了解度の高い信号を提供す る。信号の分析は音声認識技術に依存していないので、特定言語の特性に依存し ないものとなっている。むしろ制御パラメータの1つとして相対的強調を使用し ていることにより、本発明の技術をほとんどの言語に普遍的に実施することが可 能となっている。 実際に本発明は特に高レートの圧縮が望ましい場合のオーディオ信号の時間ス ケールを変更することが好ましい状況で使用できる。本発明が特に適す用途とし ては、オーディオスキミングの分野がある。オーディオスキミングとはオーディ オソースを短時間でレビューすることである。最も簡単な実施例ではオーディオ スキミングはオーディオトラックを一定レートで高速順方向送りすることである 。このような再生は本発明を使って時間圧縮を行うことにより、本発明を用いな いで理解できるレートよりもより高速で行うことができる。このような応用例で はオーディオトラックに対し(例えば高速順方向送り制御ボタンにより)目標レ ートを設定し、本発明の技術を使ってトラックを再生する。 より複雑な実施例では、オーディオスキミングは適当な時間圧縮レートでオー ディオトラックを可変レートで高速順方向送りすることである。可変レートの圧 縮の目標レートを決定する方法は、マニュアル入力またはマニュアル制御(例え ばテープレコーダの制御ユニット上に設けられたシャトルジョブ)によって行わ れる。目標レートを決定する別の方法としては特定の人の音声をビデオで自動的 にサーチする方法がある。この場合、1992年のジョージア工科大学のD.レ イノルズによる博士論文「テキストから独立した話し手の識別に対するガウス混 合モデル化方法」に開示されているような、テキストから独立した話し手のID システムを使ってオーディオの局部的部分(例えば1/3秒または2秒の部分) が選択された人の音声の記録となっている確率のストリームを生成できる。これ ら確率はあるシーケンスの目標圧縮レートに変換できる。例えばオーディオ信号 のある部分が選択されたストリームに対応する確率を群のうちのグループ(例え ば他のモデル化されたノイズまたは音声)に対して正規化できる。このように正 規化された確率を使って目標圧縮レートに対する簡単かつ単調なマッピングを行 うことができる 図7のフローチャートにはかかる方法を使った圧縮レート制御の一例が示され ている。この図を参照するとステップ38で確率Pが生成される。この確率は再 生されているサウンドが群のための確率に対する所定の話し手の音声である確率 の尺度となっている。選択された話し手の相対的確率Pが1よりも大きいプリセ ットされた大きい値Hよりも大(例えば10以上であり、よって選択されたスピ ーカーは正規化確率よりも10倍以上確かである)場合にはステップ40および 42で再生レートRはリアルタイム(スピードアップなし)にセットされる。 ステップ44で、選択されたスピーカーの相対的確率Pが正規化確率に等しい 場合、再生レートRはリアルタイムの値よりも大きい圧縮値Fにセットされ、こ れによりステップ46で理解可能な音声(例えばリアルタイムの2〜3倍)が得 られる。 ステップ48で、選択されたスピーカーの相対的確率Pが1未満のプリセット された低い値Lよりも小さい(例えば1/10以下であり、よって正規化確率は 選択されたスピーカーよりも10倍確かである)場合、ステップ50で再生レー トRはある高い値Gにセットされるか、または記録された信号のその部分が共に スキップされる。3〜5倍のリアルタイムの範囲内の大きい値が使用される場合 、 これら領域がまだ理解可能な音声の再生を行う。10〜30倍のリアルタイムの 範囲内の高い値が使用される場合、これら領域は理解可能な音声の再生を行わな いが、これら値はその部分の内容に関し、一部の聴取可能な手掛かりを提供でき る。 ステップ52で、選択された話し手の相対的な確率が高い値と1との範囲内に ある場合、疑似変換関数を使って再生レート、例えばステップ54に示されるよ うなレートを決定できる。 最後に、選択された話し手の相対的確率がステップ40、44、48または5 2の基準のいずれも満たさない場合、この確率は1と低い値の間の範囲内になけ ればならない。この場合、相対的確率の逆数に対し密接な関係のある関数を使っ てレートRN例えばステップ56に示されるようなレートを設定する。その後、 ステップ54で設定されたレートで圧縮を実行する。 当業者であれば、本発明は発明の要旨、すなわち本質的な特徴から逸脱するこ となく、他の特定の形態で実施できる。例えば特に本発明の音声圧縮に関連して 説明したが、本発明の原理は音声の伸張にも等しく実施できる。更に非均一的変 更はこれによって誘導される音声だけにその使用を限定する必要はない。むしろ この変更技術は他のメディア、例えば付随するビデオメディアにも適用できる。 従って、現在開示されている実施例はすべての点で単に説明上のものであり、限 定的なものではない。本発明の範囲はこれまでの説明ではなく、添付された請求 の範囲によって示されるものであり、本発明の均等物の趣旨および範囲内に入る すべての変形例は、本発明の範囲内に含まれるものである。
【手続補正書】特許法第184条の8第1項 【提出日】平成10年6月16日(1998.6.16) 【補正内容】 19.前記個々のセグメントの相互のスペクトル内容の変化を決定する工程を 更に含み、このスペクトル内容の相対的変化に従って前記変更レートを更に決定 する、請求項18記載の方法。 20.前記セグメントに対し、同期的オーバーラップおよび加算技術を適用す ることにより前記変形工程を実施する、請求項18記載の方法。 21.前記信号の隣接するセグメント内の高周波エネルギー内容の大きな変化 を検出する工程と、大きな変化が検出された際に前記同期的オーバーラップおよ び加算技術の間でより大きい高周波エネルギー内容を有するセグメントに優先権 を与える工程とを更に含む、請求項20記載の方法。 22.オーディオ信号を記憶するメモリデバイスと、 信号の異なる部分の相対的な強調度の連続的尺度を提供するよう、前記メモリ デバイス内に記憶されたオーディオ信号を分析するための手段と、 測定された相対的強調度に従って非均一的な連続的変更レートを生成するため の手段と、 前記非均一的変更レートに従ってオーディオ信号を再生するための手段とを備 えた、オーディオ信号の時間スケールを変更するためのシステム。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG),EA(AM,AZ,BY,KG,KZ ,MD,RU,TJ,TM),AL,AM,AT,AU ,AZ,BA,BB,BG,BR,BY,CA,CH, CN,CU,CZ,DE,DK,EE,ES,FI,G B,GE,HU,IL,IS,JP,KE,KG,KP ,KR,KZ,LC,LK,LR,LS,LT,LU, LV,MD,MG,MK,MN,MW,MX,NO,N Z,PL,PT,RO,RU,SD,SE,SG,SI ,SK,TJ,TM,TR,TT,UA,UG,UZ, VN (72)発明者 ウイズゴット,エム.,マーガレット アメリカ合衆国94022 カリフォルニア州 ロス アルトス ヒルズ,メロデイ レー ン 12348

Claims (1)

  1. 【特許請求の範囲】 1.オーディオ信号の異なる部分の相対的強調度を決定する工程と、 より大きい相対的な強調度を有する信号部分をより小さい相対的強調度を有す る信号部分よりも小さく変更するよう、非均一的にオーディオ信号の時間スケー ルを変更する工程とを備えた、オーディオ信号の時間スケールを変更するための 方法。 2.オーディオ信号のエネルギー内容を測定することにより、相対的な強調度 を決定する、請求項1記載の方法。 3.オーディオ信号の成分を統計学的に分類することにより相対的強調度を決 定する、請求項1記載の方法。 4.前記オーディオ信号が音声信号であり、相対的強調度が話し手の個々のサ ウンドに対して成す強勢度に関連する、請求項1記載の方法。 5.音声の一部の辞書を参照して音声信号の一致したトランスクリプションを 解読することにより相対的強調度を決定する、請求項4記載の方法。 6.信号のより長い部分にわたって平均的強調度に対しオーディオ信号の局部 的部分の決定された強調度を正規化する工程を更に含む、請求項1記載の方法。 7.より大きい強調度の値がより小さい強調度の値よりも大きく圧縮されるよ うに、相対的強調度の値の圧縮されたスケール上に正規化された強調度の値をマ ッピングする工程を更に含む、請求項6記載の方法。 8.次の工程、すなわち 当該現在部分に続くある長さのオーディオ信号に対する最大の強調度の値を決 定する工程と、 当該現在部分に先行するある長さのオーディオ信号に対する最大の強調度の値 を決定する工程と、 オーディオ信号において前記最大値が発声した位置に対する当該現在部分の位 置に従い、前記最大強調度の間を補間する工程とにより、局部的強調度の値を決 定する、請求項1記載の方法。 9.当該各現在部分がオーディオ信号の単一フレームを含む、請求項8記載の 方法。 10.音声信号の異なる部分の相対的強調度を決定する工程と、 スピーチ信号の前記異なる部分に対する相対的話しレートを決定する工程と、 (a)より小さい相対的強調度を有する音声信号部分を、より大きい相対的 強調度を有する音声信号部分よりも大きく変更し、 (b)より大きい強調度を有する音声信号部分をより小さい相対的話しレー トを有する音声信号部分よりも小さくなるように変更するように、非均一的に音 声信号の時間スケールを変更する工程とを備えた、音声信号の時間スケールを変 更するための方法。 11.音声信号の一部に対する相対的強調度の値を決定する工程と、音声信号 の一部に対する相対的話しレートの値を決定する工程と、オーディオテンション 値を形成するように前記相対的強調度の値と前記相対的話しレートの値とを組み 合わせる工程と、公称変更値を選択する工程と、前記オーディオテンション値に 従って前記公称変更レートを調節する工程と、調節された変更レートに従って音 声信号部分を変更する工程とを更に含む請求項10記載の方法。 12.音声信号のエネルギー内容を測定することにより、相対的な強調度を決 定する、請求項10記載の方法。 13.音声信号の成分を統計学的に分類することにより相対的強調度を決定す る、請求項10記載の方法。 14.音声の一部の辞書を参照して音声信号の一致したトランスクリプション を解読することにより相対的強調度を決定する、請求項10記載の方法。 15.音声信号のスペクトル変化を測定することにより、相対的な話しレート を決定する、請求項10記載の方法。 16.音声信号の成分を統計学的に分類することにより相対的話しレートを決 定する、請求項10記載の方法。 17.音声信号の一致したトランスクリプションを解読することにより相対的 話しレートを決定する、請求項10記載の方法。 18.オーディオ信号を多数のセグメントに分割する工程と、 複数のセグメントにわたって平均エネルギー内容に対する個々のセグメントの エネルギー内容を決定する工程と、 個々のセグメントの相対的エネルギー内容に従って連続的に変化する変更レー トを決定し、 前記変更レートに従ってオーディオ信号の時間スケールを変更する工程とを備 えた、オーディオ信号の時間スケールを変更する方法。 19.前記個々のセグメントの相互のスペクトル内容の変化を決定する工程を 更に含み、このスペクトル内容の相対的変化に従って前記変更レートを更に決定 する、請求項18記載の方法。 20.前記セグメントに対し、同期的オーバーラップおよび加算技術を適用す ることにより前記変形工程を実施する、請求項18記載の方法。 21.前記信号の隣接するセグメント内の高周波エネルギー内容の大きな変化 を検出する工程と、大きな変化が検出された際に前記同期的オーバーラップおよ び加算技術の間でより大きい高周波エネルギー内容を有するセグメントに優先権 を与える工程とを更に含む、請求項20記載の方法。 22.オーディオ信号を記憶するメモリデバイスと、 信号の異なる部分の相対的強調度を決定するよう、前記メモリデバイス内に記 憶されたオーディオ信号を分析するための手段と、 決定された相対的強調度の変化に従って非均一的変更レートを生成するための 手段と、 前記非均一的変更レートに従ってオーディオ信号を再生するための手段とを備 えた、オーディオ信号の時間スケールを変更するためのシステム。 23.前記分析手段がオーディオ信号のエネルギー内容を測定する、請求項2 2記載のシステム。 24.前記分析手段が信号の成分を統計学的に分類することにより相対的強調 度を決定する、請求項22記載のシステム。 25.前記オーディオ信号が音声信号であり、前記分析手段が音声の一部の辞 書を参照して音声信号の時間的に一致したトランスクリプションを解読すること により相対的強調度を決定する、請求項22記載のシステム。 26.音声信号を記憶するメモリデバイスと、 信号の異なる部分の相対的強調度を決定するよう、前記メモリデバイス内に記 憶されたオーディオ信号を分析するための第1手段と、 話しレートの変化を決定するよう前記信号を分析するための第2手段と、 決定された相対的強調度の変化および決定された話しレートの変化に従って非 均一的変更レートを生成するための手段と、 前記非均一的変更レートに従ってオーディオ信号を再生するための手段とを備 えた、音声信号の時間スケールを変更するためのシステム。 27.第2分析手段が音声信号のスペクトル内容の変化を測定する、請求項2 6記載のシステム。 28.前記分析手段が音声信号の成分を統計学的に分類することにより話しレ ートの変化を決定する、請求項26記載のシステム。 29.前記第2分析手段が音声信号の一致したトランスクリプトを解読するこ とにより話しレートの変化を決定する、請求項26記載のシステム。 30.決定された相対的強調度と決定された話しレートの変化とを組み合わせ 、オーディオテンション値を形成するための手段を更に含み、前記生成手段が前 記オーディオテンション値に従って非均一的変更レートを生成する、請求項26 記載のシステム。 31.前記変更システムが音声メールシステム内に内蔵され、聴取者に記録さ れたメッセージを再生するレートを前記非均一的変更レートが制御する、請求項 22または26記載のシステム。 32.前記変更システムがオーディオスキミングシステム内に内蔵され、前記 非均一的変更レートを使用して公称変更レートを調節し、オーディオ信号を聴取 者に再生するレートを制御する目標変更レートを形成する、請求項22または2 6記載のシステム。 33.オーディオ信号を分析することにより前記公称変更レートを決定する、 請求項32記載のシステム。 34.オーディオ信号が指定された話し手の声である確率を前記分析が含む、 請求項33記載のシステム。 35.オーディオ信号を記憶するメモリデバイスと、 信号のエネルギー内容を決定するよう、前記メモリデバイス内に記憶されたオ ーディオ信号を分析するための第1手段と、 スペクトル内容の変化を決定するよう前記信号を分析するための第2手段と、 決定されたエネルギー内容および決定されたスペクトル内容の変化に従って目 標変更レートを生成するための手段と、 前記目標変更レートに従ってオーディオ信号を再生するための手段とを備えた 、オーディオ信号の時間スケールを変更するためのシステム。 36.前記第1分析手段がオーディオ信号の複数のセグメントに対する平均エ ネルギー内容を決定し、前記平均エネルギー内容に対する前記セグメントの各々 に対する局部的エネルギー内容を決定する、請求項35記載のシステム。 37.あるセグメントから他のセグメントへの前記局部的エネルギー内容の変 動に従って前記目標変更レートが変化する、請求項35記載のシステム。 38.前記第2分析手段がオーディオ信号の複数のセグメントに対する平均ス ペクトル内容を決定し、前記平均スペクトル内容に対する前記セグメントの各々 に対する局部的スペクトル内容を決定する、請求項35記載のシステム。 39.あるセグメントから他のセグメントへの前記局部的スペクトル内容の変 動に従って前記目標変更レートが変化する、請求項38記載のシステム。 40.音声信号を記憶するメモリデバイスと、 信号の異なる部分の相対的強調度を決定するよう、前記メモリデバイス内に記 憶された音声信号を分析するための第1手段と、 話しレートの変化を決定するよう前記信号を分析するための第2手段と、 決定された相対的強調度および決定された話しレートの変化に従って目標変更 レートを生成するための手段と、 前記目標変更レートに従って情報信号を再生するための手段とを備えた、信号 をもともと生成した時間レートと異なる時間レートで記録された情報信号を再生 するためのシステム。 41.前記情報信号が前記オーディオ信号を含む、請求項40記載のシステム 。 42.前記情報信号がオーディオ信号を付随するビデオ信号を含む、請求項4 0記載のシステム。
JP10500579A 1996-06-05 1997-05-12 記録されたオーディオ信号の非均一的時間スケール変更 Pending JP2000511651A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/659,227 1996-06-05
US08/659,227 US5828994A (en) 1996-06-05 1996-06-05 Non-uniform time scale modification of recorded audio
PCT/US1997/007646 WO1997046999A1 (en) 1996-06-05 1997-05-12 Non-uniform time scale modification of recorded audio

Publications (1)

Publication Number Publication Date
JP2000511651A true JP2000511651A (ja) 2000-09-05

Family

ID=24644583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10500579A Pending JP2000511651A (ja) 1996-06-05 1997-05-12 記録されたオーディオ信号の非均一的時間スケール変更

Country Status (6)

Country Link
US (1) US5828994A (ja)
EP (1) EP0978119A1 (ja)
JP (1) JP2000511651A (ja)
AU (1) AU719955B2 (ja)
CA (1) CA2257298C (ja)
WO (1) WO1997046999A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510625A (ja) * 1998-10-09 2003-03-18 ヘジェナ, ドナルド ジェイ. ジュニア リスナ関心によりフィルタリングされた創作物を準備する方法および装置
JP2004126595A (ja) * 2002-10-03 2004-04-22 Docomo Communications Laboratories Usa Inc 信号エネルギーに基づく非一様時間領域音声信号処理方法
JP2014186347A (ja) * 2007-08-22 2014-10-02 Nec Corp 話者速度変換システムおよびその方法ならびに速度変換装置
JP2015001632A (ja) * 2013-06-17 2015-01-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11506575A (ja) 1995-03-07 1999-06-08 インターバル リサーチ コーポレイション 情報の選択記憶システム及び方法
JP3439307B2 (ja) * 1996-09-17 2003-08-25 Necエレクトロニクス株式会社 発声速度変換装置
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6263507B1 (en) 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
JP3073942B2 (ja) * 1997-09-12 2000-08-07 日本放送協会 音声処理方法、音声処理装置および記録再生装置
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US6009386A (en) * 1997-11-28 1999-12-28 Nortel Networks Corporation Speech playback speed change using wavelet coding, preferably sub-band coding
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
US6442518B1 (en) 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
AU4200600A (en) * 1999-09-16 2001-04-17 Enounce, Incorporated Method and apparatus to determine and use audience affinity and aptitude
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6496794B1 (en) * 1999-11-22 2002-12-17 Motorola, Inc. Method and apparatus for seamless multi-rate speech coding
US7792681B2 (en) * 1999-12-17 2010-09-07 Interval Licensing Llc Time-scale modification of data-compressed audio information
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
SE517156C2 (sv) * 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
US6985966B1 (en) * 2000-03-29 2006-01-10 Microsoft Corporation Resynchronizing globally unsynchronized multimedia streams
US6542869B1 (en) 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
JP2002169597A (ja) * 2000-09-05 2002-06-14 Victor Co Of Japan Ltd 音声信号処理装置、音声信号処理方法、音声信号処理のプログラム、及び、そのプログラムを記録した記録媒体
US6993246B1 (en) 2000-09-15 2006-01-31 Hewlett-Packard Development Company, L.P. Method and system for correlating data streams
US7683903B2 (en) 2001-12-11 2010-03-23 Enounce, Inc. Management of presentation time in a digital media presentation system with variable rate presentation capability
US6952673B2 (en) * 2001-02-20 2005-10-04 International Business Machines Corporation System and method for adapting speech playback speed to typing speed
WO2002082428A1 (en) * 2001-04-05 2002-10-17 Koninklijke Philips Electronics N.V. Time-scale modification of signals applying techniques specific to determined signal types
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
JP4290997B2 (ja) * 2001-05-10 2009-07-08 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善
EP1262952B1 (en) * 2001-05-28 2006-08-16 Texas Instruments Incorporated Programmable melody generator
US7171367B2 (en) 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
US7149412B2 (en) * 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
US6625387B1 (en) * 2002-03-01 2003-09-23 Thomson Licensing S.A. Gated silence removal during video trick modes
US7921445B2 (en) * 2002-06-06 2011-04-05 International Business Machines Corporation Audio/video speedup system and method in a server-client streaming architecture
US7366659B2 (en) * 2002-06-07 2008-04-29 Lucent Technologies Inc. Methods and devices for selectively generating time-scaled sound signals
JP2005535915A (ja) * 2002-08-08 2005-11-24 コスモタン インク 可変長さ合成と相関度計算減縮技法を利用したオーディオ信号の時間スケール修正方法
US7383509B2 (en) * 2002-09-13 2008-06-03 Fuji Xerox Co., Ltd. Automatic generation of multimedia presentation
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
GB0228245D0 (en) * 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
WO2005073958A1 (en) * 2004-01-28 2005-08-11 Koninklijke Philips Electronics N.V. Method and apparatus for time scaling of a signal
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
US20050249080A1 (en) * 2004-05-07 2005-11-10 Fuji Xerox Co., Ltd. Method and system for harvesting a media stream
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
US20070033041A1 (en) * 2004-07-12 2007-02-08 Norton Jeffrey W Method of identifying a person based upon voice analysis
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
WO2006106466A1 (en) * 2005-04-07 2006-10-12 Koninklijke Philips Electronics N.V. Method and signal processor for modification of audio signals
EP1894187B1 (en) * 2005-06-20 2008-10-01 Telecom Italia S.p.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version
GB2451907B (en) * 2007-08-17 2010-11-03 Fluency Voice Technology Ltd Device for modifying and improving the behaviour of speech recognition systems
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
EP2388780A1 (en) * 2010-05-19 2011-11-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for extending or compressing time sections of an audio signal
WO2013149188A1 (en) 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
US9293150B2 (en) 2013-09-12 2016-03-22 International Business Machines Corporation Smoothening the information density of spoken words in an audio signal
EP3244408A1 (en) * 2016-05-09 2017-11-15 Sony Mobile Communications, Inc Method and electronic unit for adjusting playback speed of media files
EP3327723A1 (en) 2016-11-24 2018-05-30 Listen Up Technologies Ltd Method for slowing down a speech in an input media content
US10629223B2 (en) 2017-05-31 2020-04-21 International Business Machines Corporation Fast playback in media files with reduced impact to speech quality
FR3131059A1 (fr) 2021-12-16 2023-06-23 Voclarity Dispositif de modification d’échelle temporelle d’un signal audio
US12573386B2 (en) * 2022-03-31 2026-03-10 Vocollect, Inc. Apparatuses, systems, and methods for speech recognition by speech rate and hint-based techniques

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738120B2 (ja) * 1987-07-14 1995-04-26 三菱電機株式会社 音声記録再生装置
DE69024919T2 (de) * 1989-10-06 1996-10-17 Matsushita Electric Ind Co Ltd Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
US5448679A (en) * 1992-12-30 1995-09-05 International Business Machines Corporation Method and system for speech data compression and regeneration
US5473759A (en) * 1993-02-22 1995-12-05 Apple Computer, Inc. Sound analysis and resynthesis using correlograms
EP0652560A4 (en) * 1993-04-21 1996-05-01 Advance Kk DEVICE FOR RECORDING AND PLAYING BACK VOICE.
EP0702354A1 (en) * 1994-09-14 1996-03-20 Matsushita Electric Industrial Co., Ltd. Apparatus for modifying the time scale modification of speech

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003510625A (ja) * 1998-10-09 2003-03-18 ヘジェナ, ドナルド ジェイ. ジュニア リスナ関心によりフィルタリングされた創作物を準備する方法および装置
JP2004126595A (ja) * 2002-10-03 2004-04-22 Docomo Communications Laboratories Usa Inc 信号エネルギーに基づく非一様時間領域音声信号処理方法
JP2014186347A (ja) * 2007-08-22 2014-10-02 Nec Corp 話者速度変換システムおよびその方法ならびに速度変換装置
JP5609111B2 (ja) * 2007-08-22 2014-10-22 日本電気株式会社 話者速度変換システム
JP2015001632A (ja) * 2013-06-17 2015-01-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム

Also Published As

Publication number Publication date
CA2257298C (en) 2009-07-14
WO1997046999A1 (en) 1997-12-11
AU2829497A (en) 1998-01-05
EP0978119A1 (en) 2000-02-09
AU719955B2 (en) 2000-05-18
CA2257298A1 (en) 1997-12-11
US5828994A (en) 1998-10-27

Similar Documents

Publication Publication Date Title
US5828994A (en) Non-uniform time scale modification of recorded audio
Arons Techniques, perception, and applications of time-compressed speech
US8484035B2 (en) Modification of voice waveforms to change social signaling
EP2388780A1 (en) Apparatus and method for extending or compressing time sections of an audio signal
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
Grofit et al. Time-scale modification of audio signals using enhanced WSOLA with management of transients
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
US7373294B2 (en) Intonation transformation for speech therapy and the like
Crockett High quality multi-channel time-scaling and pitch-shifting using auditory scene analysis
JP3803302B2 (ja) 映像要約装置
JP3513030B2 (ja) データ再生装置
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
JP3373933B2 (ja) 話速変換装置
WO2004077381A1 (en) A voice playback system
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
US20050171777A1 (en) Generation of synthetic speech
JP2734028B2 (ja) 音声収録装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
Lawlor A novel efficient algorithm for voice gender conversion
KR19990068417A (ko) 음성속도및음정가변어학학습장치
KR100384898B1 (ko) 발화속도 조절기능을 이용한 음성/영상의 동기화 방법
Makhoul et al. Adaptive preprocessing for linear predictive speech compression systems
Csapó et al. Automatic transformation of irregular to regular voice by residual analysis and synthesis.