JP2020507819A - スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置 - Google Patents

スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置 Download PDF

Info

Publication number
JP2020507819A
JP2020507819A JP2019565053A JP2019565053A JP2020507819A JP 2020507819 A JP2020507819 A JP 2020507819A JP 2019565053 A JP2019565053 A JP 2019565053A JP 2019565053 A JP2019565053 A JP 2019565053A JP 2020507819 A JP2020507819 A JP 2020507819A
Authority
JP
Japan
Prior art keywords
frequency
spectral envelope
audio signal
formant
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019565053A
Other languages
English (en)
Inventor
オコーチュリエ ジャン−ジュリアン
オコーチュリエ ジャン−ジュリアン
アリアス パブロ
アリアス パブロ
ロエベル アクセル
ロエベル アクセル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sorbonne Universite
Original Assignee
Sorbonne Universite
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sorbonne Universite filed Critical Sorbonne Universite
Publication of JP2020507819A publication Critical patent/JP2020507819A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本発明は、音声信号を修正する方法であって、周波数領域内で音声信号の時間フレームを獲得するステップと、少なくとも1つの時間フレームについて、周波数領域内で音声信号の第1の変換を適用するステップであって、上記少なくとも1つの時間フレームについて音声信号のスペクトル包絡線を抽出するステップと、上記スペクトル包絡線のフォルマントの周波数を計算するステップと、音声信号のスペクトル包絡線を修正するステップ(350)であって、上記修正することは、スペクトル包絡線のフォルマントの少なくとも2つの周波数によりパラメータ化された、スペクトル包絡線の周波数の増加連続変換関数を適用すること(351)を有する、ステップ(350)と、を有するステップと、を有する方法について記述する。【選択図】図3a

Description

本発明は、音響処理(traitement acoustique)の分野に関する。より詳細には、本発明は、例えば微笑音質(timbre souriant)などの音質を声に付与するための、発話(paroles)を含む音響信号(signaux acoustiques)の修正に関する。
微笑むことで、我々の声の音声は、認識できるほど変化し、そのため、顧客サービス部門は、そのセールスパーソンに電話でも微笑むように助言するほどである。顧客は、実際に微笑を見ていなくても、微笑は、顧客の満足感にプラスの影響を及ぼす。
微笑んだ声と結び付けられた音声信号(signal sonore)の特性の研究は、まだ充分に立証されていない新しい研究分野である。大頬骨筋を使用した微笑は、口腔の形状を変化させ、これが声のスペクトルに影響を及ぼす。特に、声の音声スペクトルは、話者が微笑むとき、より高い周波数へと向かい、悲しい声であるとき、より低い周波数へと向かうことが立証されている。
Quene,H.、Semin,G.R.、およびForoni,F.(2012年)、聴覚の微笑および渋面は、会話の理解に影響する(Audible smiles and frowns affect speech comprehension)、会話コミュニケーション(Speech Communication)、54(7)、917〜922には、微笑む声のシミュレーション試験について記述されている。この実験は、被検者(expe’rimentateur)がニュートラルに発音した1つの単語を録音することからなる。この実験は、フォルマント(formants)の周波数と声の音質(timbre)との間の関係に基づく。発話音のフォルマントは、発話の音声スペクトルのエネルギ最大値である。Queneの実験は、声が単語を発音するときの声のフォルマントを分析すること、これらのフォルマントの周波数を記憶すること、初期フォルマントの周波数を10%だけ増加させることにより修正されたフォルマントを生成すること、その後、修正されたフォルマントで単語を再合成することからなる。
Queneの実験は、微笑みながら発音されたものとして知覚された単語を得ることを可能にする。しかしながら、合成された単語は、ユーザにより人工的なものとして知覚されることになる音質を有する。
その上、Queneにより提案された2段階アーキテクチャは、再合成可能になる前に信号の一部分を分析することを必要とし、したがって、単語が発音された瞬間とその変換(transformation)をブロードキャストできる瞬間との間に時間シフトを発生させる。したがって、Queneの方法は、リアルタイムで声を修正することを可能にしない。
リアルタイムでの声の修正には、興味深い(inte’ressantes)利用分野が数多くある。例えば、声のリアルタイム修正は、コールセンタという利用分野に応用することができる。すなわち、オペレータの声は、より微笑んでいると思われるように、顧客へ伝送される前にリアルタイムで修正することができる。したがって、顧客は、その対話者(interlocuteur)が自分に微笑みかけているような感覚をもち、これにより、顧客の満足度を改善することができる。
別の利用分野は、ビデオゲームにおけるノンプレイヤ(non joueurs)キャラクタの声の修正である。ノンプレイヤキャラクタは、コンピュータによって制御される、多くの場合脇役的なキャラクタ全員である。これらのキャラクタは、プレイヤがビデオゲームのプロットの中で前進できるようにするために発するべき異なる応答と結び付けられることが多い。これらの応答は、典型的には、プレイヤがノンプレイヤキャラクタと対話する(interagit)ときに読まれるオーディオファイルの形で記憶される。単一のニュートラルオーディオファイルから、ニュートラルボイスに異なるフィルタを適用して、1つの音質、例えば微笑音質または緊張音質を生成し、こうしてノンプレイヤキャラクタの感情をシミュレートし、ゲームに没入する感覚を増強することは興味深い。
したがって、現在のコンピュータ能力を用いてリアルタイムで実行するのに充分単純であり、かつ修正された声が自然な声として知覚される、声の音質の修正方法に対するニーズが存在する。
このため、本発明は、音声信号を修正する方法であって、周波数領域内で音声信号の時間フレームを獲得するステップと、少なくとも1つの時間フレームについて、周波数領域内で音声信号の第1の変換を適用するステップであって、少なくとも1つの時間フレームについて音声信号のスペクトル包絡線を抽出するステップと、スペクトル包絡線のフォルマントの周波数を計算するステップと、音声信号のスペクトル包絡線を修正するステップであって、修正することは、スペクトル包絡線のフォルマントの少なくとも2つの周波数によりパラメータ化された、スペクトル包絡線の周波数の増加連続変換関数(fonction continue croissante de transformation)を適用することを有するステップと、を有するステップと、を有する方法について記述する。
有利には、音声信号のスペクトル包絡線を修正するステップは、同様に、スペクトル包絡線に対するフィルタを適用することをも有し、フィルタは、音声信号のスペクトル包絡線の第3のフォルマントの周波数によってパラメータ化される。
有利には、該方法は、少なくとも1つの有声フレームクラスおよび1つの非有声フレームクラスを有する時間フレームクラスセットに従って時間フレームを分類するステップを有する。
有利には、該方法は、各有声フレームについて、周波数領域内で音声信号の第1の変換を適用することと、各非有声フレームについて、周波数領域内で音声信号の第2の変換を適用することであって、第2の変換は、予め定められた周波数を中心とする音声信号のエネルギを増大させるフィルタを適用するステップを有することと、を有する。
有利には、音声信号の第2の変換は、少なくとも1つの時間フレームについて音声信号のスペクトル包絡線を抽出するステップと、直前の時間フレームについて、スペクトル包絡線の周波数の増加連続変換関数と同一の形でパラメータ化されたスペクトル包絡線の周波数の増加連続変換関数を適用することと、を有する。
有利には、スペクトル包絡線の周波数の増加連続変換関数を適用するステップは、スペクトル包絡線のフォルマントから決定された初期周波数セットについて、修正周波数を計算することと、スペクトル包絡線のフォルマントから決定された初期周波数セットの初期周波数および修正周波数間で線形補間を行うことと、を有する。
有利には、少なくとも1つの修正周波数は、初期周波数セットからの初期周波数に乗数係数を乗じることによって得られる。
有利には、スペクトル包絡線のフォルマントから決定された周波数セットは、音声信号のスペクトル包絡線の第1のフォルマントの周波数の半分から計算された第1の初期周波数と、音声信号のスペクトル包絡線の第2のフォルマントの周波数から計算された第2の初期周波数と、音声信号のスペクトル包絡線の第3のフォルマントの周波数から計算された第3の初期周波数と、音声信号のスペクトル包絡線の第4のフォルマントの周波数から計算された第4の初期周波数と、音声信号のスペクトル包絡線の第5のフォルマントの周波数から計算された第5の初期周波数と、を有する。
有利には、第1の修正周波数は、第1の初期周波数に等しいものとして計算され、第2の修正周波数は、第2の初期周波数に乗数係数を乗じることによって計算され、第3の修正周波数は、第3の初期周波数に乗数係数を乗じることによって計算され、第4の修正周波数は、第4の初期周波数に乗数係数を乗じることによって計算され、第5の修正周波数は、第5の初期周波数に等しいものとして計算される。
有利には、各初期周波数は、現在の時間フレームのフォルマントの周波数から計算される。
有利には、各初期周波数は、2つ以上の連続する時間フレームについて、同一ランクのフォルマントの周波数の平均から計算される。
有利には、該方法は、オーディオサンプルを受信するステップと、フレームを形成するのに充分な数のサンプルが利用可能である場合、オーディオサンプルの時間フレームを作成するステップと、フレームのオーディオサンプルに対して周波数変換(transformation fre’quentielle)を適用するステップと、周波数領域内で少なくとも1つの時間フレームに対して音声信号の第1の変換を適用するステップと、を有する、リアルタイムで声を有するオーディオ信号(signal audio)を修正する方法である。
方法は、同様に、本発明に係る音声信号を修正する方法を実装する、声に対する微笑音質を適用する方法であって、フォルマントの少なくとも2つの周波数は、声の微笑音質による影響を受けたフォルマントの周波数である方法をも記述する。
有利には、スペクトル包絡線の周波数の増加連続変換関数は、ニュートラルにまたは微笑みながらユーザが発した音素のスペクトル包絡線を比較することによって、トレーニング段階中に決定されたものである。
本発明は、同様に、プログラムがコンピュータ上で動作するとき、該方法のステップを実施するためにコンピュータ読み取り可能記憶媒体上に記録されたプログラムコード命令を有する、コンピュータプログラムプロダクトをも記述する。
本発明によれば、例えば微笑音質または緊張音質などの音質の影響を声に対して及ぼすべく、リアルタイムで声を修正することができる。
本発明の方法は、さほど複雑でないので、通常のコンピュータ能力を用いてリアルタイムで実施可能である。
本発明によれば、初期の声と修正された声との間に最小限の遅延しか導入されない。
本発明によれば、自然なものとして知覚される声が生成される。
本発明は、異なるプログラミング言語を用いて、大部分のプラットフォーム上で実装可能である。
他の特徴は、添付図面に照らして以下に非限定的な例として提供される詳細な説明を読んだとき、明らかになるものである。
被検者が微笑みながらおよび微笑まずに発した母音「a」についてのスペクトル包絡線の一例を示す図である。 本発明を実装するシステムの一例を示す図である。 本発明に係る2つの例示的方法のうちの1つを示す図である。 本発明に係る2つの例示的方法のうちの1つを示す図である。 本発明に係る、時間フレームのスペクトル包絡線の周波数の連続増加変換関数の2つの例のうちの1つを示す図である。 本発明に係る、時間フレームのスペクトル包絡線の周波数の連続増加変換関数の2つの例のうちの1つを示す図である。 本発明に係る、修正された母音のスペクトル包絡線の3つの例のうちの1つを示す図である。 本発明に係る、修正された母音のスペクトル包絡線の3つの例のうちの1つを示す図である。 本発明に係る、修正された母音のスペクトル包絡線の3つの例のうちの1つを示す図である。 微笑みながらおよび微笑まずに発音された音素(phone`mes)のスペクトログラム(spectrogrammes)の3つの例のうちの1つを示す図である。 微笑みながらおよび微笑まずに発音された音素のスペクトログラムの3つの例のうちの1つを示す図である。 微笑みながらおよび微笑まずに発音された音素のスペクトログラムの3つの例のうちの1つを示す図である。 本発明に係る母音スペクトログラム変換の一例を示す図である。 本発明の3つの例示的実施形態に係る母音スペクトログラムの3つの例を示す図である。
図1は、被検者が微笑ながらおよび微笑まずに発した母音「a」についての、スペクトル包絡線の一例である。
グラフ100は、2つのスペクトル包絡線を示す。すなわち、スペクトル包絡線120は、被検者が微笑まずに発音した母音「a」のスペクトル包絡線を示し、スペクトル包絡線130は、同じ被検者が微笑みながら言った同じ母音「a」を示す。2つのスペクトル包絡線120および130は、音のフーリエスペクトルのピークの補間を示す。すなわち、水平軸110は、対数尺度を用いて周波数を表し、垂直軸111は、所与の周波数における音の大きさを表す。
スペクトル包絡線120は、基本周波数F0 121および、第1のフォルマントF1 122、第2のフォルマントF2 123、第3のフォルマントF3 124、第4のフォルマントF4 125および第5のフォルマントF5 126を含めた複数のフォルマントを含む。
スペクトル包絡線130は、基本周波数F0 131、および、第1のフォルマントF1 132、第2のフォルマントF2 133、第3のフォルマントF3 134、第4のフォルマントF4 135および第5のフォルマントF5 136を含めた複数のフォルマントを含む。
2つのスペクトル包絡線の全体的様相は同一である(これにより、ユーザがこの音素を微笑みながらまたは微笑まずに発音した場合に同じ音素「a」を認識することが可能になる)ものの、微笑がフォルマントの周波数に影響を及ぼすことを指摘することができる。実際には、微笑みながら発音された音素のスペクトル包絡線130についての第1のフォルマントF1 132、第2のフォルマントF2 133、第3のフォルマントF3 134、第4のフォルマントF4 135および第5のフォルマントF5 136の周波数は、それぞれ、ニュートラルに発音された音素のスペクトル包絡線120の第1のフォルマントF1 122、第2のフォルマントF2 123、第3のフォルマントF3 124、第4のフォルマントF4 125、第5のフォルマントF5 126の周波数よりも高い。反対に、基本周波数F0 121および131は、両方のスペクトル包絡線について同じである。
同時に、微笑む声のスペクトル包絡線もまた、第3のフォルマントF3 134の周波数の周りでより大きな強度を有する。
これらの差異は、聞き手が発音された音素を認識すると同時に、それがどのように発音されたか(ニュートラルにまたは微笑みながら)を認識できるようにする。
図2は、本発明を実装するシステムの一例を示す。
システム200は、ユーザ240とコールセンタ職員210との間の接続の場合の、本発明の例示的実施形態を示す。この例では、コールセンタの職員210は、ワークステーションに接続されマイクロホンの備わったオーディオヘッドセットを用いて通信する。このワークステーションは、例えば、コールセンタ全体またはコールセンタ職員の一群のために使用可能であるサーバ220に接続される。サーバ220は、通信リンクを用いて中継アンテナ230と通信し、ユーザ240の携帯電話との無線リンクを可能にする。
このシステムは、単に一例として示されるにすぎず、他のアーキテクチャをセットアップすることもできる。例えば、ユーザ240は、固定電話を使用することができる。コールセンタ職員は、同様に、サーバ220に接続された電話を使用することもできる。本発明は、こうして、少なくとも1つのサーバまたはワークステーションを含む、ユーザとコールセンタ職員との間の接続を可能にする全てのシステムアーキテクチャに応用可能である。
コールセンタ職員210は、概して、ニュートラルボイスで話す。したがって、本発明に係る方法は、例えば、リアルタイムでコールセンタ職員の声の音を修正し、自然に微笑んでいるように思われる、修正された声を顧客に送るため、コールセンタ職員210のワークステーションまたはサーバ220により応用され得る。こうして、コールセンタ職員との対話に関する顧客の感覚は、結果として改善される。見返りとして、顧客も同様に、自らには微笑んでいるように思われる声に対して機嫌良く応答することができ、このことは、顧客240とコールセンタ職員210との間の対話の全体的改善に寄与する。
しかしながら、本発明はこの例に限定されない。本発明は、例えばニュートラルボイスのリアルタイム修正のために使用可能である。例えば、本発明は、ノンプレイヤキャラクタが感動を感じている感覚をプレイヤに与えるために、ビデオゲームのノンプレイヤキャラクタのニュートラルボイスに対し音質(緊張音質、微笑音質など)を付与するのに使用可能である。本発明は、同じ原理に基づいて、人型ロボットのユーザにこのロボットが感情を体験しているという感覚を与え、かつユーザと人型ロボットとの間の対話を改善するため、人型ロボットが述べる文章をリアルタイム修正するために使用可能である。本発明は、同様に、オンラインビデオゲームのためにプレイヤの声に対して、または患者自体が微笑んでいる声で話している印象を患者に与えることにより患者の情動状態を改善するべく、患者の声をリアルタイム修正するために治療目的で利用することもできる。
図3aおよび図3bは、本発明に係る2つの例示的方法を示す。
図3aは、本発明に係る第1の例示的方法を示す。
方法300aは、音声信号を修正するための方法であり、例えばニュートラルに発音されたボイストラックに感情を充てがう(affecter)ために使用可能である。この感情は、声をより微笑んでいるようにすることからなり得るが、同様に、声の微笑度をより低くすること、声の緊張度を高めることまたは声に中間情動状態を充てがうことで構成される可能性もある。
該方法300aは、音声信号の時間フレームを得、これらの時間フレームを周波数領域内で変換するステップ310を含む。このステップ310は、音声信号を形成する連続した時間フレームを得ることからなる。
オーディオフレームは、異なる方法で得ることができる。例えば、オーディオフレームは、マイクロホンに向かって話すオペレータを録音すること、オーディオファイルを読み取ること、または、例えば、接続を通してオーディオデータを受信することによって得ることができる。
本発明の異なる実施形態によると、時間フレームは、固定の持続時間または可変の持続時間のものであり得る。例えば、時間フレームは、優れたスペクトル分析を可能にする、例えば25msまたは50msなどのできるかぎり短い持続時間を有することができる。この持続時間は、有利には、音声信号の修正により発生する時間差を制限する一方で、音素を代表する音声信号を得ることを可能にする。
本発明の異なる実施形態によると、音声信号は、異なるタイプのものであり得る。例えば、それは、モノ信号、ステレオ信号または3つ以上のチャネルを含む信号であり得る。方法300aは、信号のチャネルの全てまたは一部に適用可能である。同様にして、信号は、例えば16000Hz、22050Hz、32000Hz、44100Hz、48000Hz、88200Hzまたは96000Hzなどの異なる周波数に応じて、サンプリングされ得る。サンプルは、異なる形で表現され得る。例えば、これらのサンプルは、8、12、16、24または32ビットにわたり表現されるサウンドサンプルであり得る。こうして本発明は、音声信号の任意のタイプのコンピュータ表現に適用可能である。
本発明の異なる実施形態によると、時間フレームは、それらの周波数変換の形で直接得られるか、または、時間領域内で獲得され周波数領域内において変換され得る。
例えば、これらの時間フレームは、例えばMP3フォーマット(もしくは、Motion Picture Expert Group-1/2 Audio Layer 3の頭字語であるMPEG−1/2Audio Layer3)、AAC(Advanced Audio Codingの頭字語)、WMA(Windows(登録商標) Media Audioの頭字語)またはオーディオ信号(signal audio)が周波数領域内に記憶される他のあらゆる圧縮フォーマットに従って、フォーマット音声信号が圧縮オーディオフォーマットを用いて最初に記憶または伝達される場合、直接周波数領域内で獲得され得る。
フレームを、最初に時間領域で得て、その後周波数領域に転換する(converties dans le domaine fre’quentiel)ことも可能である。例えば、マイクロホン、例えばコールセンタオペレータ210が話しかけるマイクロホンを用いて、直接音を録音することができる。このとき、時間フレームは、最初に(フレームの持続時間および音声信号のサンプリング周波数によって定義される)所与の数の連続的サンプルを記憶することにより形成され、次に音声信号の周波数変換(transformation fre’quentielle)を適用する。周波数変換は、例えば、離散フーリエ変換(Transforme’e de Fourier Discre`te)(Direct Fourier Transform;DFT)、離散コサイン変換(Transforme’e Cosinus Discre`te)(Direct Cosine Transform;DCT)、修正離散コサイン変換(Transforme’e Cosinus Discre`te Modifie’e)(Modified Direct Cosine Transform;MDCT)、または時間領域から周波数領域へとサウンドサンプルを転換することを可能にする任意の他の適切な変換であり得る。
方法300aは、次に、少なくとも1つの時間フレームについて、音声信号の周波数領域における(dans)第1の変換320の適用を含む。
第1の変換320aは、上記少なくとも1つのフレームについて、音声信号のスペクトル包絡線を抽出するステップ330を含む。フレームの周波数変換されること(la transforme’e fre’quentielle d'une trame)からの音声信号のスペクトル包絡線の抽出は、当業者にとって周知のことである。この周波数変換されること(la transforme’e fre’quentielle)は、当業者にとって公知の多くの方法で行われる(s'effectuer)ことができる。周波数変換されることは、例えば、Makhoul,J.(1975年)、線形予測(Linear prediction)、チュートリアルレビュー(A tutorial review)、IEEE議事録(Proceedings of the IEEE)、63(4)、561〜580により記述されるような線形予測エンコーディングによって行われることができる。周波数変換されることは、同様に、例えばRobel,A.、Villavicencio,F.、およびRodet,X.(2007年)、モデル次数が未知であるケプストラムおよび全極ベースのスペクトル包酪線モデリング(On cepstral and all-pole based spectral envelope modeling with unknown model order)、パターン認識レター(Pattern Recognition Letters)、28(11)、1343〜1350、によって記述されるように、例えばケプストラム変換によっても行われることができる。当業者にとって公知の他の任意の周波数変換方法も同様に使用可能である。
第1の変換300aは、同様に、上記スペクトル包絡線のフォルマントの周波数を計算するステップ340も含む。本発明では、フォルマントを抽出するための多くの方法を使用することができる。スペクトル包絡線のフォルマント周波数の計算は、例えば、McCandless,S.(1974)、線形予測スペクトルを用いた自動フォルマント抽出に関するアルゴリズム(An algorithm for automatic formant extraction using linear prediction spectra)、音響、発話および信号処理に関するIEEE報告書(IEEE Transactions on Acoustics, Speech, and Signal Processing)、22、により記述される方法を用いて行なうことができる。
方法300aは、同様に、音声信号のスペクトル包絡線を修正するステップ350をも含む。音声信号のスペクトル包絡線を修正するステップにより、所望される感情をさらに代表するスペクトル包絡線を得ることを可能にする。
スペクトル包絡線を修正するステップ350は、スペクトル包絡線のフォルマントの少なくとも2つの周波数によってパラメータ化された、スペクトル包絡線の周波数の連続増加変換関数の適用を含む。
スペクトル包絡線の周波数を修正するのに連続増加変換関数を使用することによって、連続する周波数間に不連続性を作り出すことなく、スペクトル包絡線を修正することが可能になる。さらに、少なくとも2つのフォルマント周波数による連続増加変換関数のパラメータ化によって、所与の感情が充てがわれた一定のフォルマントの周波数によって定義されるスペクトルの一部に対して、スペクトル包絡線の連続変換を充てがうことができる。
本発明の一実施形態において、音声信号のスペクトル包絡線を修正するステップ350は、同様に、スペクトル包絡線に対する動的フィルタの適用352も含み、上記フィルタは、音声信号のスペクトル包絡線の第3のフォルマントF3の周波数によってパラメータ化される。
このステップにより、音声信号のスペクトル包絡線の第3のフォルマントF3の周波数の周りで信号の強度を増大または低減させ、こうして修正されたスペクトル包絡線を、所望の感情を伴って発出される音素の包絡線にさらに一層近付けることができる。例えば、図1に示されるように、音声信号のスペクトル包絡線の第3のフォルマントF3の周波数の周りの音の強度を増大させることによって、微笑みながら発せられた場合にそうなると考えられる同じ音素のスペクトル包絡線にさらに一層近いスペクトル包絡線を得ることが可能になる。
本発明の異なる実施形態によると、このステップで使用されるフィルタは、異なるタイプのものであってよい。例えば、フィルタは、第3のフォルマントF3の周波数を中心とした8dBの利得、Q=1.2を有する4次(bi-quad)フィルタであり得る。このフィルタによって、フォルマントF3の周波数の周りの周波数についてスペクトルの強度を増大させ、こうして微笑む話者により得られたと考えられるものにさらに近いスペクトル包絡線を得ることができる。
ひとたびスペクトル包絡線が修正されたならば、スペクトル包絡線を音声スペクトルに対して適用することができる。音声スペクトルに対してスペクトル包絡線を適用するのに、他の多くの実施形態が考えられる。例えば、Luini M.ら、(2013年)、フェーズボコーダおよびそれを超えるもの(Phase vocoder and beyond)、Musica/Tenologia、August 2013、Vol.7、no.2013、p.77〜89、により記述されるように、包絡線の対応する値をスペクトルの各構成要素に乗じることが可能である。
音声スペクトルがひとたび再構成されると、本発明の異なる実施形態に従って、フレームに対し、異なる処理を適用することができる。本発明の一部の実施形態において、オーディオ信号を再構築しそれを直接聴取するために、逆周波数変換を直接サウンドフレーム(trame sonore)に適用することができる。これにより、例えばビデオゲームの修正されたノンプレイヤキャラクタの声を聴くことが可能になる。
修正された音声信号を伝送し、こうしてそれを第3者のユーザが聴くようにすることも同様に可能である。例えば、コールセンタオペレータのコールセンタに関連する実施形態の場合がこれに該当する。この場合、音声信号は、未加工(brute)または圧縮形態で、周波数領域内または時間領域内で送信され得る。
本発明のいくつかの実施形態において、方法300aは、ニュートラルボイスに感情を付与するために、声を含むオーディオ信号をリアルタイムに修正するのに使用可能である。このリアルタイム修正は、例えば以下のことによって行なわれ得る。
− 例えば、マイクロホンによりリアルタイムで録音されたオーディオサンプルを受信すること。
− 時間フレームを形成するのに充分な数のサンプルが利用可能である場合に、オーディオサンプルの上記フレームを作成すること。
− 上記フレームのオーディオサンプルに対して周波数変換を適用すること。
− 周波数領域の少なくとも1つの変換されたフレームに対して、音声信号の第1の変換320aを適用すること。
この方法によって、リアルタイムでニュートラルボイスに対し1つの表情を適用することができる。オーディオサンプルは、フレームの全てのサンプルが受信された時点で初めて処理され得ることから、フレームを作成するステップ(またはウィンドウイング(fene^trage))は、該方法の遂行において時間差を含む。しかしながら、この時間差は、時間フレームの持続時間のみに左右され、例えば時間フレームが50msという持続時間しか有していない場合、小さいものであり得る。
本発明は、同様に、プログラムがコンピュータ上で動作するとき、方法300aまたは本発明の異なる実施形態に係る他の任意の方法を実施する目的で、コンピュータ読み取り可能記憶媒体上に記録されたプログラムコード命令を含むコンピュータプログラムプロダクトにも関する。上記コンピュータプログラムは、例えば、コールセンタオペレータ210のワークステーション上またはサーバ220上で記憶されおよび/または実行され得る。
図3bは、本発明に係る第2の例示的方法を示す。
方法300bは、同様に、時間フレームが含む情報のタイプに応じて、異なる形で時間フレームを処理することを可能にする、音声信号を修正するための方法でもある。
この目的で、方法300bは、少なくとも1つの有声フレームクラスおよび1つの非有声フレームクラスを含む時間フレームクラスセットに従って、1つの時間フレームを分類するステップ360を含む。
このステップにより、各フレームを1つのクラスと結び付け、フレームが属するクラスに応じてフレームの処理を適応させることができる。時間フレームは、例えば、それが母音を含む場合、有声フレームクラスに属し、母音を含まない場合、例えば子音を含む場合、非有声フレームクラスに属し得る。時間フレームの有声または非有声性を決定するための異なる方法が存在する。例えば、フレームのZCR(Zero Crossing Rate(ゼロ交差率)の頭字語)を計算し、閾値と比較することができる。ZCRが閾値より低い場合、フレームは、非有声とみなされ、そうでなければ有声とみなされることになる。
方法300bは、各々の有声フレームについて、周波数領域内の音声信号の第1の変換320aの適用を含む。図3aを参照して論述される本発明の実施形態は、全て、方法300bの環境における第1の変換320aに適用され得る。
方法300bは、各々の非有声フレームについて、周波数領域内の音声信号の第2の変換320bの適用を含む。
周波数領域内の音声信号の第2の変換は、例えば予め定められた周波数などの1つの周波数を中心とした音声信号370のエネルギを増大させるためにフィルタを適用するステップを含む。一実施形態において、このフィルタは、例えば6000Hzなどの高−中/鋭(aigu)域内の周波数を中心とした8dBの利得、Q=1の4次フィルタである。
この特徴により、スペクトル包絡線がフォルマントを有していない非有声フレーム上で変換を適用することによって、オーディオ信号の変換を精緻化することができる。
本発明の一実施形態において、音声信号の第2の変換320bは、同様に、対象のフレームについて、音声信号のスペクトル包絡線を抽出するステップ330、およびスペクトル包絡線の周波数の連続増加変換関数を適用するステップ351bをも含む。
スペクトル包絡線の周波数の増加連続変換関数を適用するステップ351bは、直前の時間フレームについてのスペクトル包絡線の周波数の増加連続変換関数と同一の形でパラメータ化される。こうして、本発明のこの実施形態において、有声フレームの直後に非有声フレームが続く場合、包絡線の周波数の連続増加変換関数は、有声フレームのスペクトル包絡線のフォルマントの周波数に従ってパラメータ化され、その後、直後の非有声フレームに対し同じパラメータに従って適用される。複数の非有声フレームが有声フレームに後続する場合、同じパラメータに従った同じ変換関数を、連続する非有声フレームに対して適用することができる。
この特徴により、先行する有声フレームとできるかぎり一貫性を有する(cohe’rente)変換の恩恵を受けながら、これらの非有声フレームがフォルマントを含まない場合でさえ、非有声フレームのスペクトル包絡線の周波数の変換関数を適用することができる。
図4aおよび4bは、本発明に係る時間フレームのスペクトル包絡線の周波数の連続増加変換関数の2つの例を示す。
図4aは、本発明に係る時間フレームのスペクトル包絡線の周波数の第1の例示的連続増加変換関数を示す。
関数400aは、y軸402に示された初期スペクトル包絡線の周波数の一関数として、x軸401に示された修正スペクトル包絡線の周波数を定義する。こうして、この関数により、修正スペクトル包絡線を以下のように構築することができる。修正スペクトル包絡線の各周波数の強度は、関数により示された初期スペクトル包絡線の周波数の強度に等しい。例えば、修正スペクトル包絡線の周波数411aについての強度は、初期スペクトル包絡線の周波数410aの強度に等しい。
本発明の一組の実施形態において、周波数の変換関数は、以下のように定義される。
− 初期周波数セットの各々の初期周波数について、修正周波数が計算される。関数400aの例において、初期周波数410a、420a、430a、440aおよび450aにそれぞれ対応する修正周波数411a、421a、431a、441aおよび451aが計算される。
− 次に、スペクトル包絡線のフォルマントから決定された初期周波数セットの初期周波数および修正周波数間で線形補間(interpolations line’aires entre les fre’quences initiales de l'ensemble de fre’quences initiales)が行なわれる。例えば、線形補間460により、第1の初期周波数410aと第2の初期周波数420aとの間の各々の初期周波数について、第1の修正周波数411aと第2の修正周波数421aとの間で修正周波数を線形的に定義することができる。
同様に、
− 線形補間461により、第2の初期周波数420aと第3の初期周波数430aとの間の各々の初期周波数について、第2の修正周波数421aと第3の修正周波数431aとの間で修正周波数を線形的に定義することができる。
− 線形補間462により、第3の初期周波数430aと第4の初期周波数440aとの間の各々の初期周波数について、第3の修正周波数431aと第4の修正周波数441aとの間で修正周波数を線形的に定義することができる。
− 線形補間463により、第4の初期周波数440aと第5の初期周波数450aとの間の各々の初期周波数について、第4の修正周波数441aと第5の修正周波数451aとの間で修正周波数を線形的に定義することができる。
修正周波数は、異なる方法で計算可能である。そのいくつかは、初期周波数に等しくてもよい。いくつかは、例えば初期周波数に乗数係数αを乗じることによって得ることができる。これにより、乗数係数αが1より大きいか小さいかに応じて、初期周波数より高いかまたは低い修正周波数を得ることが可能になる。概して、対応する初期周波数より高い修正周波数(α>1)が、より楽しげなまたは微笑む声と結び付けられ、一方、対応する初期周波数よりも低い修正周波数(α<1)は、より緊張したまたは微笑の少ない声と結び付けられる。概して、乗数係数αの値が1から離れるに従って、加えられる効果は、より顕著なものとなる。したがって、係数αの値によって、声に適用されるべき変換だけでなく、この変換の大きさも定義することができる。
本発明の一組の実施形態において、変換関数をパラメータ化するための初期周波数は、以下のものである。
− 音声信号のスペクトル包絡線の第1のフォルマント(F1)の周波数の半分から計算された第1の初期周波数(410a)。
− 音声信号のスペクトル包絡線の第2のフォルマント(F2)の周波数から計算された第2の初期周波数(420a)。
− 音声信号のスペクトル包絡線の第3のフォルマント(F3)の周波数から計算された第3の初期周波数(430a)。
− 音声信号のスペクトル包絡線の第4のフォルマント(F4)の周波数から計算された第4の初期周波数(440a)。
− 音声信号のスペクトル包絡線の第5のフォルマント(F5)の周波数から計算された第5の初期周波数(450a)。
したがって、第1の初期周波数410aより低く第5の初期周波数450aより高いスペクトル包絡線の周波数は、修正されない。これにより、周波数の変換を、声の緊張したまたは微笑音質が充てがわれたフォルマントに対応し、例えば基本周波数F0を修正しない周波数に制限することが可能となる。
本発明の一実施形態において、初期周波数は、現在の時間フレームのフォルマントの周波数に対応する。したがって、変換関数のパラメータは、各々の時間フレームについて修正される。
初期周波数は、同様に、2つ以上の連続する時間フレームについて、同一ランクのフォルマントの周波数の平均としても計算され得る。例えば、第1の初期周波数410aは、n≧2として、n個の連続する時間フレームのスペクトル包絡線について第1のフォルマントF1の周波数の平均として計算され得る。
本発明の一組の実施形態において、周波数変換は、主として、第2のフォルマントF2と第4のフォルマントF4との間で適用される。したがって、修正周波数は、以下の通りに計算される。
− 第1の初期周波数410aに等しいものとして、第1の修正周波数411aが計算される。
− 第2の初期周波数420aに乗数係数αを乗じることによって第2の修正周波数421aが計算される。
− 第3の初期周波数430aに乗数係数αを乗じることによって第3の修正周波数431aが計算される。
− 第4の初期周波数440aに乗数係数αを乗じることによって、第4の修正周波数441aが計算される。
− 第5の初期周波数450aに等しいものとして、第5の修正周波数451aが計算さ、れる。
例示的変換関数400aにより、特に第2のフォルマントF2と第4のフォルマントF4との間で、周波数がより高いことによってより微笑む声を得るために、時間フレームのスペクトル包絡線を変換することができる。
一実施形態において、乗数係数αは、予め定められたものである。例えば、乗数係数αは、1.1に等しい(周波数の10%増加)ものであり得る。
本発明のいくつかの実施形態において、乗数係数αは、生成すべき声の修正強度(intensite` de modification)によって左右され得る。
本発明のいくつかの実施形態において、乗数係数αを、所与のユーザについて決定することができる。例えば、ユーザがまずはニュートラルボイスで、次に微笑んだ声で音素を発音するトレーニング段階中に、乗数係数を決定することができる。したがって、ニュートラルボイスおよび微笑んだ声で発音された音素について、異なるフォルマントの周波数を比較することによって、所与のユーザに適応された乗数係数αを計算することが可能になる。
本発明の一組の実施形態において、係数αの値は、音素により左右される。本発明のこれらの実施形態において、本発明に係る方法は、現在の音素を検出するステップを含み、係数αの値は、現在のフレームについて定義される。例えば、αの値は、トレーニング段階中に所与の音素について決定されたものであり得る。
図4bは、本発明に係る時間フレームのスペクトル包絡線の周波数の第2の例示的連続増加変換関数を示す。
図4bは、声に、より緊張した音質またはより微笑んだ音質を付与することを可能にする第2の関数400bを示す。
図4bの図は、図4aの図と同一である。すなわち、修正されたスペクトル包絡線の周波数は、y軸402に示された初期スペクトル包絡線の周波数の関数として、x軸401に示される。
関数400bは、各々の初期周波数410b、420b、430b、440b、450bについて、修正周波数411b、421b、431b、441b、451bを計算し、次に初期周波数および修正周波数間の線形補間460b、461b、462bおよび463bを定義することによっても構築される。
関数400bの例において、修正周波数411bおよび451bは、初期周波数410bおよび450bに等しく、一方、修正周波数421b、431bおよび441bは、α<1である因数αを初期周波数420b、430bおよび440bに乗じることによって得られる。こうして、関数400bによって修正されたスペクトル包絡線の第2のフォルマントF2、第3のフォルマントF3および第4のフォルマントF4の周波数は、初期スペクトル包絡線の対応するフォルマントの周波数よりもさらに低いものとなる。これにより、声に緊張音質を付与することが可能になる。
関数400aおよび400bは、単に一例として提示される。本発明では、包絡線のフォルマントの周波数からパラメータ化されたスペクトル包絡線の周波数のあらゆる連続増加関数を使用することができる。例えば、声の微笑む特質に関係付けされるフォルマントの周波数に基づいて定義された関数は、本発明にとって特に好適である。
図5a、5bおよび5cは、本発明に係る、修正された母音のスペクトル包絡線の3つの例を示す。
図5aは、被検者がニュートラルに発した音素「e」のスペクトル包絡線510a、および被検者が微笑みながら発した同じ音素「e」のスペクトル包絡線520aを示す。図5aは、同様に、声をより微笑んでいるものにするために本発明に係る方法によって修正されたスペクトル包絡線530aをも示す。したがって、スペクトル包絡線530aは、スペクトル包絡線510aに対して本発明に係る方法を適用した結果を示す。
図5bは、被検者がニュートラルに発した音素「a」のスペクトル包絡線510b、および被検者が微笑みながら発した同じ音素「a」のスペクトル包絡線520bを示す。図5bは、同様に、声をより微笑んでいるものにするために本発明に係る方法によって修正されたスペクトル包絡線530bをも示す。したがって、スペクトル包絡線530bは、スペクトル包絡線510bに対して本発明に係る方法を適用した結果を示す。
図5cは、第2の被検者がニュートラルに発した音素「e」のスペクトル包絡線510c、および第2の被検者が微笑みながら発した同じ音素「e」のスペクトル包絡線520cを示す。図5cは、同様に、声をより微笑んでいるものにするために本発明に係る方法によって修正されたスペクトル包絡線530cをも示す。したがって、スペクトル包絡線530cは、スペクトル包絡線510cに対して本発明に係る方法を適用した結果を示す。
この例において、本発明に係る方法は、図4a中に示された周波数を変換するための関数400aの適用、および包絡線の第3のフォルマントF3の周波数を中心とした4次フィルタの適用を含む。
図5a、5bおよび5cは、本発明に係る方法によれば、自然さをなおも保ちながら微笑んでいるように思える声をシミュレートするために、一定のフォルマントの位置および振幅を修正する一方で音素の包絡線の全体的形状を維持することができる、ことを示す。
より詳細には、本発明に係る方法によれば、本発明に従って変換されたスペクトル包絡線が、それぞれ、曲線521aと531aと、521bと531bと、521cと531cと、の類似性によって示される通り、スペクトルの高中域の周波数について微笑む声のスペクトル包絡線に非常に類似したものとなることを可能にする、という点を特筆しておくべきである。
図6a、6bおよび6cは、微笑みながらおよび微笑まずに発音された音素のスペクトログラムの3つの例を示す。
図6aは、ニュートラルに発音された音素「a」のスペクトログラム610aと、声をより微笑んでいるものにするために本発明が適用された同じ音素「a」のスペクトログラム620aと、を示す。図6bは、ニュートラルに発音された音素「e」のスペクトログラム610bと、声をより微笑んでいるものにするために本発明が適用された同じ音素「e」のスペクトログラム620bと、を示す。図6cは、ニュートラルに発音された音素「i」のスペクトログラム610cと、声をより微笑んでいるものにするために本発明が適用された同じ音素「i」のスペクトログラム620cと、を示す。
各スペクトログラムは、異なる周波数についての音の強度の経時的推移(e’volution dans le temps)を示し、以下のように解釈される。
− 水平軸は、音素の発音法(diction)の内部の時間を表す。
− 垂直軸は、異なる周波数を表す。
− 音の強度は、所与の時間および周波数について、対応するグレーレベルによって表される。すなわち、白は、零の強度を表し、一方、非常に濃いグレーは、対応する時点における周波数の強い強度を表す。
一般に、図1内に示されるスペクトル包絡線によると、微笑えむ声の場合、スペクトルの高中域において、エネルギは、ニュートラルボイスに比べて概して増大する、ということを考察できる。したがって、それぞれ、ゾーン611aと621aと、611bと621bと、611cと621cと、の間で示されるように、スペクトルの高中域における音の強度の増大を認めることができる。
図7は、本発明に係る母音スペクトログラム変換の一例を示す。
図7は、ニュートラルに発音された音素「i」のスペクトログラム710と、声をより微笑んでいるものにするために本発明が適用された同じ音素「i」のスペクトログラム720と、を示す。
各スペクトログラムは、図6a〜6cの図と同じ図に従って、異なる周波数についての音の強度の経時的推移を示す。
一般に、図5a〜5c内に示されるスペクトル包絡線によると、音の強度は、スペクトルの高中域において概して増大する、ということを考察できる。したがって、ゾーン711と721との間で示されるように、スペクトルの高中域における音の強度の増大を認めることができる。こうして、微笑えむ声の効果は、図6a〜6c中に示される実際の微笑の効果に類似する。
図8は、本発明の3つの例示的実施形態に係る母音スペクトログラム変換の3つの例を示す。
本発明の一組の実施形態において、乗数係数αの値は、例えば声の音質の漸進的修正(modification progressive)をシミュレートするために、経時的に修正され得る。例えば、乗数係数αの値は、増大して次第に微笑んでいる声の印象を与えることができ、または減少して次第に緊張する声の印象を与えることもできる。
スペクトログラム810は、ニュートラルトーンで発音され、定数の(constant)乗数係数αで本発明によって修正された母音のスペクトログラムを表す。スペクトログラム820は、ニュートラルトーンで発音され、減少する乗数係数αで本発明によって修正された母音のスペクトログラムを表す。スペクトログラム830は、ニュートラルトーンで発音され、増大する乗数係数αで本発明により修正された母音のスペクトログラムを表す。
これらの異なる例において経時的に修正されたスペクトログラムの推移は、異なるものであることを観察することができる。すなわち、減少する乗数係数αの場合、スペクトルの高中域における周波数の強度は、漸進的により高く821、次により低く822なる。反対に、増大する乗数係数αの場合には、スペクトルの高中域における周波数の強度は、漸進的により低く831、次により高く832なる。
この例は、例えば微笑度がより大きいまたはより小さい声を生成するために、リアルタイムで効果を生み出す目的で、スペクトル包絡線の変換を調整する本発明に係る方法の能力を実証する。
以上の例は、修正された声が自然に感じられることを保証しながら、妥当な計算の複雑さで声に音質を充てがう本発明の能力を実証する。しかしながら、これらの例は、単なる一例として提供されるにすぎず、いかなる形であれ、以下のクレームにおいて定義された本発明の範囲を限定するものではない。

Claims (15)

  1. 音声信号を修正する方法であって、
    − 周波数領域内で前記音声信号の時間フレームを獲得するステップ(310)と、
    − 少なくとも1つの時間フレームについて、前記周波数領域内で前記音声信号の第1の変換を適用するステップ(320a)であって、
    ○ 前記少なくとも1つの時間フレームについて前記音声信号のスペクトル包絡線を抽出するステップ(330)と、
    ○ 前記スペクトル包絡線のフォルマントの周波数を計算するステップ(340)と、
    ○ 前記音声信号の前記スペクトル包絡線を修正するステップ(350)であって、前記修正することは、前記スペクトル包絡線のフォルマントの少なくとも2つの周波数によりパラメータ化された、前記スペクトル包絡線の周波数の増加連続変換関数を適用すること(351)を有するステップ(350)と、を有するステップと、を有する方法。
  2. 前記音声信号の前記スペクトル包絡線を修正する前記ステップ(350)は、同様に、前記スペクトル包絡線に対するフィルタを適用すること(352)をも有し、前記フィルタは、前記音声信号のスペクトル包絡線の第3のフォルマント(F3)の前記周波数によってパラメータ化される、請求項1に記載の方法。
  3. 少なくとも1つの有声フレームクラスおよび1つの非有声フレームクラスを有する時間フレームクラスセットに従って、時間フレームを分類するステップ(360)を有する、請求項1または2に記載の方法。
  4. − 各有声フレームについて、前記周波数領域内で前記音声信号の前記第1の変換(320a)を適用することと、
    − 各非有声フレームについて、前記周波数領域内で前記音声信号の第2の変換(320b)を適用することであって、前記第2の変換は、予め定められた周波数を中心とする前記音声信号のエネルギを増大させるフィルタを適用するステップ(370)を有することと、を有する、請求項3に記載の方法。
  5. 前記音声信号の前記第2の変換(320b)は、
    − 前記少なくとも1つの時間フレームについて、前記音声信号のスペクトル包絡線を抽出するステップ(330)と、
    − 直前の時間フレームについて、前記スペクトル包絡線の周波数の増加連続変換関数と同一の形でパラメータ化された前記スペクトル包絡線の前記周波数の増加連続変換関数を適用すること(351b)と、を有する、請求項4に記載の方法。
  6. 前記スペクトル包絡線の前記周波数の増加連続変換関数を前記適用するステップ(351)は、
    − 前記スペクトル包絡線のフォルマントから決定された初期周波数セット(410、420、430、440、450)について、修正周波数(410a、420a、430a、440a、450a)を計算することと、
    − 前記スペクトル包絡線のフォルマントから決定された前記初期周波数セットの初期周波数および前記修正周波数間で線形補間(460、461、462、463)を行うことと、を有する、請求項1〜5のいずれか一項に記載の方法。
  7. 少なくとも1つの修正周波数(420a、430a、440a)は、前記初期周波数セットからの初期周波数(420、430、440)に乗数係数(α)を乗じることによって得られる、請求項5に記載の方法。
  8. 前記スペクトル包絡線のフォルマントから決定された前記周波数セットは、
    − 前記音声信号の前記スペクトル包絡線の第1のフォルマント(F1)の前記周波数の半分から計算された第1の初期周波数(410)と、
    − 前記音声信号の前記スペクトル包絡線の第2のフォルマント(F2)の前記周波数から計算された第2の初期周波数(420)と、
    − 前記音声信号の前記スペクトル包絡線の第3のフォルマント(F3)の前記周波数から計算された第3の初期周波数(430)と、
    − 前記音声信号の前記スペクトル包絡線の第4のフォルマント(F4)の前記周波数から計算された第4の初期周波数(440)と、
    − 前記音声信号の前記スペクトル包絡線の第5のフォルマント(F5)の前記周波数から計算された第5の初期周波数(450)と、を有する、請求項7に記載の方法。
  9. − 第1の修正周波数(410a)は、前記第1の初期周波数(410)に等しいものとして計算され、
    − 第2の修正周波数(420a)は、前記第2の初期周波数(420)に前記乗数係数(α)を乗じることによって計算され、
    − 第3の修正周波数(430a)は、前記第3の初期周波数(430)に前記乗数係数(α)を乗じることによって計算され、
    − 第4の修正周波数(440a)は、前記第4の初期周波数(440)に前記乗数係数(α)を乗じることによって計算され、
    − 第5の修正周波数(450a)は、前記第5の初期周波数(450)に等しいものとして計算される、請求項8に記載の方法。
  10. 各初期周波数は、現在の時間フレームのフォルマントの前記周波数から計算される、請求項8または9に記載の方法。
  11. 各初期周波数は、2つ以上の連続する時間フレームについて、同一ランクのフォルマントの前記周波数の平均から計算される、請求項8に記載の方法。
  12. リアルタイムで前記音声信号を修正するのに適合し、
    − 前記音声信号は、声を有し、
    − 前記周波数領域内で前記音声信号の時間フレームを獲得するステップ(310)は、
    ○ オーディオサンプルを受信するステップと、
    ○ 前記フレームを形成するのに充分な数のサンプルが利用可能である場合、オーディオサンプルの時間フレームを作成するステップと、
    ○ 前記フレームの前記オーディオサンプルに対して周波数変換を適用するステップと、を有する、請求項1〜11のいずれか一項に記載の方法。
  13. 声に対する微笑音質の適用に適合し、
    前記フォルマントの少なくとも2つの周波数は、声の前記微笑音質による影響を受けたフォルマントの周波数である、請求項1〜12のいずれか一項に記載の方法。
  14. 前記スペクトル包絡線の前記周波数の前記増加連続変換関数は、ニュートラルにまたは微笑みながらユーザが発した音素のスペクトル包絡線を比較することによって、トレーニング段階中に決定されたものである、請求項13に記載の方法。
  15. プログラムがコンピュータ上で動作するとき、請求項1〜12のいずれか一項に記載の前記方法の前記ステップを実施するためにコンピュータ読み取り可能記憶媒体上に記録されたプログラムコード命令を有する、コンピュータプログラムプロダクト。
JP2019565053A 2017-02-13 2018-02-12 スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置 Pending JP2020507819A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1751163 2017-02-13
FR1751163A FR3062945B1 (fr) 2017-02-13 2017-02-13 Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d'une enveloppe spectrale
PCT/EP2018/053433 WO2018146305A1 (fr) 2017-02-13 2018-02-12 Methode et appareil de modification dynamique du timbre de la voix par decalage en fréquence des formants d'une enveloppe spectrale

Publications (1)

Publication Number Publication Date
JP2020507819A true JP2020507819A (ja) 2020-03-12

Family

ID=58501711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019565053A Pending JP2020507819A (ja) 2017-02-13 2018-02-12 スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置

Country Status (7)

Country Link
US (1) US20190378532A1 (ja)
EP (1) EP3580755A1 (ja)
JP (1) JP2020507819A (ja)
CN (1) CN110663080A (ja)
CA (1) CA3053032A1 (ja)
FR (1) FR3062945B1 (ja)
WO (1) WO2018146305A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817193B (zh) * 2019-02-21 2022-11-22 深圳市魔耳乐器有限公司 一种基于时变多段式频谱的音色拟合系统
CN111816198A (zh) * 2020-08-05 2020-10-23 上海影卓信息科技有限公司 改变语音音调和音色的变声方法和系统
CN112289330A (zh) * 2020-08-26 2021-01-29 北京字节跳动网络技术有限公司 一种音频处理方法、装置、设备及存储介质
CN112397087B (zh) * 2020-11-13 2023-10-31 展讯通信(上海)有限公司 共振峰包络估计、语音处理方法及装置、存储介质、终端
CN112506341B (zh) * 2020-12-01 2022-05-03 瑞声新能源发展(常州)有限公司科教城分公司 一种振动效果的生成方法、装置、终端设备及存储介质
CN113611326B (zh) * 2021-08-26 2023-05-12 中国地质大学(武汉) 一种实时语音情感识别方法及装置
EP4145444A1 (en) * 2021-09-07 2023-03-08 Avaya Management L.P. Optimizing interaction results using ai-guided manipulated speech

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104792A (ja) * 1993-10-01 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JP2016102860A (ja) * 2014-11-27 2016-06-02 日本放送協会 音声加工装置、及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP4076887B2 (ja) * 2003-03-24 2008-04-16 ローランド株式会社 ボコーダ装置
CN100440314C (zh) * 2004-07-06 2008-12-03 中国科学院自动化研究所 基于语音分析与合成的高品质实时变声方法
CN101004911B (zh) * 2006-01-17 2012-06-27 纽昂斯通讯公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置
US8224648B2 (en) * 2007-12-28 2012-07-17 Nokia Corporation Hybrid approach in voice conversion
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
CN102184731A (zh) * 2011-05-12 2011-09-14 北京航空航天大学 一种韵律类和音质类参数相结合的情感语音转换方法
WO2012159370A1 (zh) * 2011-08-05 2012-11-29 华为技术有限公司 语音增强方法和设备
CN106024010B (zh) * 2016-05-19 2019-08-20 渤海大学 一种基于共振峰曲线的语音信号动态特征提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104792A (ja) * 1993-10-01 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JP2016102860A (ja) * 2014-11-27 2016-06-02 日本放送協会 音声加工装置、及びプログラム

Also Published As

Publication number Publication date
FR3062945B1 (fr) 2019-04-05
US20190378532A1 (en) 2019-12-12
WO2018146305A1 (fr) 2018-08-16
CA3053032A1 (fr) 2018-08-16
EP3580755A1 (fr) 2019-12-18
CN110663080A (zh) 2020-01-07
FR3062945A1 (fr) 2018-08-17

Similar Documents

Publication Publication Date Title
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
Botinhao et al. Speech enhancement for a noise-robust text-to-speech synthesis system using deep recurrent neural networks
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
US8140326B2 (en) Systems and methods for reducing speech intelligibility while preserving environmental sounds
Raitio et al. Analysis of HMM-Based Lombard Speech Synthesis.
Raitio et al. Analysis and synthesis of shouted speech.
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Nathwani et al. Speech intelligibility improvement in car noise environment by voice transformation
CN106548785A (zh) 一种语音处理方法及装置、终端设备
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
Konno et al. Whisper to normal speech conversion using pitch estimated from spectrum
Kain et al. Formant re-synthesis of dysarthric speech
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
Jokinen et al. The Use of Read versus Conversational Lombard Speech in Spectral Tilt Modeling for Intelligibility Enhancement in Near-End Noise Conditions.
Hinterleitner Quality of Synthetic Speech
Chennupati et al. Spectral and temporal manipulations of SFF envelopes for enhancement of speech intelligibility in noise
Jokinen et al. Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network
Huang Prediction of perceived sound quality of synthetic speech
Pfitzinger Unsupervised speech morphing between utterances of any speakers
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
JP2013033103A (ja) 声質変換装置および声質変換方法
US20050171777A1 (en) Generation of synthetic speech
Bollepalli et al. Effect of MPEG audio compression on HMM-based speech synthesis.
KR102455709B1 (ko) 인공지능 기반 합성음성의 평가 자동화 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221004