JP2020507819A

JP2020507819A - スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置

Info

Publication number: JP2020507819A
Application number: JP2019565053A
Authority: JP
Inventors: オコーチュリエジャン−ジュリアン; アリアスパブロ; ロエベルアクセル
Original assignee: Sorbonne Universite
Current assignee: Sorbonne Universite
Priority date: 2017-02-13
Filing date: 2018-02-12
Publication date: 2020-03-12
Also published as: FR3062945B1; US20190378532A1; WO2018146305A1; CA3053032A1; EP3580755A1; CN110663080A; FR3062945A1

Abstract

本発明は、音声信号を修正する方法であって、周波数領域内で音声信号の時間フレームを獲得するステップと、少なくとも１つの時間フレームについて、周波数領域内で音声信号の第１の変換を適用するステップであって、上記少なくとも１つの時間フレームについて音声信号のスペクトル包絡線を抽出するステップと、上記スペクトル包絡線のフォルマントの周波数を計算するステップと、音声信号のスペクトル包絡線を修正するステップ（３５０）であって、上記修正することは、スペクトル包絡線のフォルマントの少なくとも２つの周波数によりパラメータ化された、スペクトル包絡線の周波数の増加連続変換関数を適用すること（３５１）を有する、ステップ（３５０）と、を有するステップと、を有する方法について記述する。【選択図】図３ａ

Description

本発明は、音響処理（traitement acoustique）の分野に関する。より詳細には、本発明は、例えば微笑音質（timbre souriant）などの音質を声に付与するための、発話（paroles）を含む音響信号（signaux acoustiques）の修正に関する。

微笑むことで、我々の声の音声は、認識できるほど変化し、そのため、顧客サービス部門は、そのセールスパーソンに電話でも微笑むように助言するほどである。顧客は、実際に微笑を見ていなくても、微笑は、顧客の満足感にプラスの影響を及ぼす。

微笑んだ声と結び付けられた音声信号（signal sonore）の特性の研究は、まだ充分に立証されていない新しい研究分野である。大頬骨筋を使用した微笑は、口腔の形状を変化させ、これが声のスペクトルに影響を及ぼす。特に、声の音声スペクトルは、話者が微笑むとき、より高い周波数へと向かい、悲しい声であるとき、より低い周波数へと向かうことが立証されている。

Ｑｕｅｎｅ，Ｈ．、Ｓｅｍｉｎ，Ｇ．Ｒ．、およびＦｏｒｏｎｉ，Ｆ．（２０１２年）、聴覚の微笑および渋面は、会話の理解に影響する（Audible smiles and frowns affect speech comprehension）、会話コミュニケーション（Speech Communication）、５４（７）、９１７〜９２２には、微笑む声のシミュレーション試験について記述されている。この実験は、被検者（expe’rimentateur）がニュートラルに発音した１つの単語を録音することからなる。この実験は、フォルマント（formants）の周波数と声の音質（timbre）との間の関係に基づく。発話音のフォルマントは、発話の音声スペクトルのエネルギ最大値である。Ｑｕｅｎｅの実験は、声が単語を発音するときの声のフォルマントを分析すること、これらのフォルマントの周波数を記憶すること、初期フォルマントの周波数を１０％だけ増加させることにより修正されたフォルマントを生成すること、その後、修正されたフォルマントで単語を再合成することからなる。

Ｑｕｅｎｅの実験は、微笑みながら発音されたものとして知覚された単語を得ることを可能にする。しかしながら、合成された単語は、ユーザにより人工的なものとして知覚されることになる音質を有する。

その上、Ｑｕｅｎｅにより提案された２段階アーキテクチャは、再合成可能になる前に信号の一部分を分析することを必要とし、したがって、単語が発音された瞬間とその変換（transformation）をブロードキャストできる瞬間との間に時間シフトを発生させる。したがって、Ｑｕｅｎｅの方法は、リアルタイムで声を修正することを可能にしない。

リアルタイムでの声の修正には、興味深い（inte’ressantes）利用分野が数多くある。例えば、声のリアルタイム修正は、コールセンタという利用分野に応用することができる。すなわち、オペレータの声は、より微笑んでいると思われるように、顧客へ伝送される前にリアルタイムで修正することができる。したがって、顧客は、その対話者（interlocuteur）が自分に微笑みかけているような感覚をもち、これにより、顧客の満足度を改善することができる。

別の利用分野は、ビデオゲームにおけるノンプレイヤ（non joueurs）キャラクタの声の修正である。ノンプレイヤキャラクタは、コンピュータによって制御される、多くの場合脇役的なキャラクタ全員である。これらのキャラクタは、プレイヤがビデオゲームのプロットの中で前進できるようにするために発するべき異なる応答と結び付けられることが多い。これらの応答は、典型的には、プレイヤがノンプレイヤキャラクタと対話する（interagit）ときに読まれるオーディオファイルの形で記憶される。単一のニュートラルオーディオファイルから、ニュートラルボイスに異なるフィルタを適用して、１つの音質、例えば微笑音質または緊張音質を生成し、こうしてノンプレイヤキャラクタの感情をシミュレートし、ゲームに没入する感覚を増強することは興味深い。

したがって、現在のコンピュータ能力を用いてリアルタイムで実行するのに充分単純であり、かつ修正された声が自然な声として知覚される、声の音質の修正方法に対するニーズが存在する。

このため、本発明は、音声信号を修正する方法であって、周波数領域内で音声信号の時間フレームを獲得するステップと、少なくとも１つの時間フレームについて、周波数領域内で音声信号の第１の変換を適用するステップであって、少なくとも１つの時間フレームについて音声信号のスペクトル包絡線を抽出するステップと、スペクトル包絡線のフォルマントの周波数を計算するステップと、音声信号のスペクトル包絡線を修正するステップであって、修正することは、スペクトル包絡線のフォルマントの少なくとも２つの周波数によりパラメータ化された、スペクトル包絡線の周波数の増加連続変換関数（fonction continue croissante de transformation）を適用することを有するステップと、を有するステップと、を有する方法について記述する。

有利には、音声信号のスペクトル包絡線を修正するステップは、同様に、スペクトル包絡線に対するフィルタを適用することをも有し、フィルタは、音声信号のスペクトル包絡線の第３のフォルマントの周波数によってパラメータ化される。

有利には、該方法は、少なくとも１つの有声フレームクラスおよび１つの非有声フレームクラスを有する時間フレームクラスセットに従って時間フレームを分類するステップを有する。

有利には、該方法は、各有声フレームについて、周波数領域内で音声信号の第１の変換を適用することと、各非有声フレームについて、周波数領域内で音声信号の第２の変換を適用することであって、第２の変換は、予め定められた周波数を中心とする音声信号のエネルギを増大させるフィルタを適用するステップを有することと、を有する。

有利には、音声信号の第２の変換は、少なくとも１つの時間フレームについて音声信号のスペクトル包絡線を抽出するステップと、直前の時間フレームについて、スペクトル包絡線の周波数の増加連続変換関数と同一の形でパラメータ化されたスペクトル包絡線の周波数の増加連続変換関数を適用することと、を有する。

有利には、スペクトル包絡線の周波数の増加連続変換関数を適用するステップは、スペクトル包絡線のフォルマントから決定された初期周波数セットについて、修正周波数を計算することと、スペクトル包絡線のフォルマントから決定された初期周波数セットの初期周波数および修正周波数間で線形補間を行うことと、を有する。

有利には、少なくとも１つの修正周波数は、初期周波数セットからの初期周波数に乗数係数を乗じることによって得られる。

有利には、スペクトル包絡線のフォルマントから決定された周波数セットは、音声信号のスペクトル包絡線の第１のフォルマントの周波数の半分から計算された第１の初期周波数と、音声信号のスペクトル包絡線の第２のフォルマントの周波数から計算された第２の初期周波数と、音声信号のスペクトル包絡線の第３のフォルマントの周波数から計算された第３の初期周波数と、音声信号のスペクトル包絡線の第４のフォルマントの周波数から計算された第４の初期周波数と、音声信号のスペクトル包絡線の第５のフォルマントの周波数から計算された第５の初期周波数と、を有する。

有利には、第１の修正周波数は、第１の初期周波数に等しいものとして計算され、第２の修正周波数は、第２の初期周波数に乗数係数を乗じることによって計算され、第３の修正周波数は、第３の初期周波数に乗数係数を乗じることによって計算され、第４の修正周波数は、第４の初期周波数に乗数係数を乗じることによって計算され、第５の修正周波数は、第５の初期周波数に等しいものとして計算される。

有利には、各初期周波数は、現在の時間フレームのフォルマントの周波数から計算される。

有利には、各初期周波数は、２つ以上の連続する時間フレームについて、同一ランクのフォルマントの周波数の平均から計算される。

有利には、該方法は、オーディオサンプルを受信するステップと、フレームを形成するのに充分な数のサンプルが利用可能である場合、オーディオサンプルの時間フレームを作成するステップと、フレームのオーディオサンプルに対して周波数変換（transformation fre’quentielle）を適用するステップと、周波数領域内で少なくとも１つの時間フレームに対して音声信号の第１の変換を適用するステップと、を有する、リアルタイムで声を有するオーディオ信号（signal audio）を修正する方法である。

方法は、同様に、本発明に係る音声信号を修正する方法を実装する、声に対する微笑音質を適用する方法であって、フォルマントの少なくとも２つの周波数は、声の微笑音質による影響を受けたフォルマントの周波数である方法をも記述する。

有利には、スペクトル包絡線の周波数の増加連続変換関数は、ニュートラルにまたは微笑みながらユーザが発した音素のスペクトル包絡線を比較することによって、トレーニング段階中に決定されたものである。

本発明は、同様に、プログラムがコンピュータ上で動作するとき、該方法のステップを実施するためにコンピュータ読み取り可能記憶媒体上に記録されたプログラムコード命令を有する、コンピュータプログラムプロダクトをも記述する。

本発明によれば、例えば微笑音質または緊張音質などの音質の影響を声に対して及ぼすべく、リアルタイムで声を修正することができる。

本発明の方法は、さほど複雑でないので、通常のコンピュータ能力を用いてリアルタイムで実施可能である。

本発明によれば、初期の声と修正された声との間に最小限の遅延しか導入されない。

本発明によれば、自然なものとして知覚される声が生成される。

本発明は、異なるプログラミング言語を用いて、大部分のプラットフォーム上で実装可能である。

他の特徴は、添付図面に照らして以下に非限定的な例として提供される詳細な説明を読んだとき、明らかになるものである。

被検者が微笑みながらおよび微笑まずに発した母音「ａ」についてのスペクトル包絡線の一例を示す図である。本発明を実装するシステムの一例を示す図である。本発明に係る２つの例示的方法のうちの１つを示す図である。本発明に係る２つの例示的方法のうちの１つを示す図である。本発明に係る、時間フレームのスペクトル包絡線の周波数の連続増加変換関数の２つの例のうちの１つを示す図である。本発明に係る、時間フレームのスペクトル包絡線の周波数の連続増加変換関数の２つの例のうちの１つを示す図である。本発明に係る、修正された母音のスペクトル包絡線の３つの例のうちの１つを示す図である。本発明に係る、修正された母音のスペクトル包絡線の３つの例のうちの１つを示す図である。本発明に係る、修正された母音のスペクトル包絡線の３つの例のうちの１つを示す図である。微笑みながらおよび微笑まずに発音された音素（phone`mes）のスペクトログラム（spectrogrammes）の３つの例のうちの１つを示す図である。微笑みながらおよび微笑まずに発音された音素のスペクトログラムの３つの例のうちの１つを示す図である。微笑みながらおよび微笑まずに発音された音素のスペクトログラムの３つの例のうちの１つを示す図である。本発明に係る母音スペクトログラム変換の一例を示す図である。本発明の３つの例示的実施形態に係る母音スペクトログラムの３つの例を示す図である。

図１は、被検者が微笑ながらおよび微笑まずに発した母音「ａ」についての、スペクトル包絡線の一例である。

グラフ１００は、２つのスペクトル包絡線を示す。すなわち、スペクトル包絡線１２０は、被検者が微笑まずに発音した母音「ａ」のスペクトル包絡線を示し、スペクトル包絡線１３０は、同じ被検者が微笑みながら言った同じ母音「ａ」を示す。２つのスペクトル包絡線１２０および１３０は、音のフーリエスペクトルのピークの補間を示す。すなわち、水平軸１１０は、対数尺度を用いて周波数を表し、垂直軸１１１は、所与の周波数における音の大きさを表す。

スペクトル包絡線１２０は、基本周波数Ｆ０１２１および、第１のフォルマントＦ１１２２、第２のフォルマントＦ２１２３、第３のフォルマントＦ３１２４、第４のフォルマントＦ４１２５および第５のフォルマントＦ５１２６を含めた複数のフォルマントを含む。

スペクトル包絡線１３０は、基本周波数Ｆ０１３１、および、第１のフォルマントＦ１１３２、第２のフォルマントＦ２１３３、第３のフォルマントＦ３１３４、第４のフォルマントＦ４１３５および第５のフォルマントＦ５１３６を含めた複数のフォルマントを含む。

２つのスペクトル包絡線の全体的様相は同一である（これにより、ユーザがこの音素を微笑みながらまたは微笑まずに発音した場合に同じ音素「ａ」を認識することが可能になる）ものの、微笑がフォルマントの周波数に影響を及ぼすことを指摘することができる。実際には、微笑みながら発音された音素のスペクトル包絡線１３０についての第１のフォルマントＦ１１３２、第２のフォルマントＦ２１３３、第３のフォルマントＦ３１３４、第４のフォルマントＦ４１３５および第５のフォルマントＦ５１３６の周波数は、それぞれ、ニュートラルに発音された音素のスペクトル包絡線１２０の第１のフォルマントＦ１１２２、第２のフォルマントＦ２１２３、第３のフォルマントＦ３１２４、第４のフォルマントＦ４１２５、第５のフォルマントＦ５１２６の周波数よりも高い。反対に、基本周波数Ｆ０１２１および１３１は、両方のスペクトル包絡線について同じである。

同時に、微笑む声のスペクトル包絡線もまた、第３のフォルマントＦ３１３４の周波数の周りでより大きな強度を有する。

これらの差異は、聞き手が発音された音素を認識すると同時に、それがどのように発音されたか（ニュートラルにまたは微笑みながら）を認識できるようにする。

図２は、本発明を実装するシステムの一例を示す。

システム２００は、ユーザ２４０とコールセンタ職員２１０との間の接続の場合の、本発明の例示的実施形態を示す。この例では、コールセンタの職員２１０は、ワークステーションに接続されマイクロホンの備わったオーディオヘッドセットを用いて通信する。このワークステーションは、例えば、コールセンタ全体またはコールセンタ職員の一群のために使用可能であるサーバ２２０に接続される。サーバ２２０は、通信リンクを用いて中継アンテナ２３０と通信し、ユーザ２４０の携帯電話との無線リンクを可能にする。

このシステムは、単に一例として示されるにすぎず、他のアーキテクチャをセットアップすることもできる。例えば、ユーザ２４０は、固定電話を使用することができる。コールセンタ職員は、同様に、サーバ２２０に接続された電話を使用することもできる。本発明は、こうして、少なくとも１つのサーバまたはワークステーションを含む、ユーザとコールセンタ職員との間の接続を可能にする全てのシステムアーキテクチャに応用可能である。

コールセンタ職員２１０は、概して、ニュートラルボイスで話す。したがって、本発明に係る方法は、例えば、リアルタイムでコールセンタ職員の声の音を修正し、自然に微笑んでいるように思われる、修正された声を顧客に送るため、コールセンタ職員２１０のワークステーションまたはサーバ２２０により応用され得る。こうして、コールセンタ職員との対話に関する顧客の感覚は、結果として改善される。見返りとして、顧客も同様に、自らには微笑んでいるように思われる声に対して機嫌良く応答することができ、このことは、顧客２４０とコールセンタ職員２１０との間の対話の全体的改善に寄与する。

しかしながら、本発明はこの例に限定されない。本発明は、例えばニュートラルボイスのリアルタイム修正のために使用可能である。例えば、本発明は、ノンプレイヤキャラクタが感動を感じている感覚をプレイヤに与えるために、ビデオゲームのノンプレイヤキャラクタのニュートラルボイスに対し音質（緊張音質、微笑音質など）を付与するのに使用可能である。本発明は、同じ原理に基づいて、人型ロボットのユーザにこのロボットが感情を体験しているという感覚を与え、かつユーザと人型ロボットとの間の対話を改善するため、人型ロボットが述べる文章をリアルタイム修正するために使用可能である。本発明は、同様に、オンラインビデオゲームのためにプレイヤの声に対して、または患者自体が微笑んでいる声で話している印象を患者に与えることにより患者の情動状態を改善するべく、患者の声をリアルタイム修正するために治療目的で利用することもできる。

図３ａおよび図３ｂは、本発明に係る２つの例示的方法を示す。

図３ａは、本発明に係る第１の例示的方法を示す。

方法３００ａは、音声信号を修正するための方法であり、例えばニュートラルに発音されたボイストラックに感情を充てがう（affecter）ために使用可能である。この感情は、声をより微笑んでいるようにすることからなり得るが、同様に、声の微笑度をより低くすること、声の緊張度を高めることまたは声に中間情動状態を充てがうことで構成される可能性もある。

該方法３００ａは、音声信号の時間フレームを得、これらの時間フレームを周波数領域内で変換するステップ３１０を含む。このステップ３１０は、音声信号を形成する連続した時間フレームを得ることからなる。

オーディオフレームは、異なる方法で得ることができる。例えば、オーディオフレームは、マイクロホンに向かって話すオペレータを録音すること、オーディオファイルを読み取ること、または、例えば、接続を通してオーディオデータを受信することによって得ることができる。

本発明の異なる実施形態によると、時間フレームは、固定の持続時間または可変の持続時間のものであり得る。例えば、時間フレームは、優れたスペクトル分析を可能にする、例えば２５ｍｓまたは５０ｍｓなどのできるかぎり短い持続時間を有することができる。この持続時間は、有利には、音声信号の修正により発生する時間差を制限する一方で、音素を代表する音声信号を得ることを可能にする。

本発明の異なる実施形態によると、音声信号は、異なるタイプのものであり得る。例えば、それは、モノ信号、ステレオ信号または３つ以上のチャネルを含む信号であり得る。方法３００ａは、信号のチャネルの全てまたは一部に適用可能である。同様にして、信号は、例えば１６０００Ｈｚ、２２０５０Ｈｚ、３２０００Ｈｚ、４４１００Ｈｚ、４８０００Ｈｚ、８８２００Ｈｚまたは９６０００Ｈｚなどの異なる周波数に応じて、サンプリングされ得る。サンプルは、異なる形で表現され得る。例えば、これらのサンプルは、８、１２、１６、２４または３２ビットにわたり表現されるサウンドサンプルであり得る。こうして本発明は、音声信号の任意のタイプのコンピュータ表現に適用可能である。

本発明の異なる実施形態によると、時間フレームは、それらの周波数変換の形で直接得られるか、または、時間領域内で獲得され周波数領域内において変換され得る。

例えば、これらの時間フレームは、例えばＭＰ３フォーマット（もしくは、Motion Picture Expert Group-1/2 Audio Layer 3の頭字語であるＭＰＥＧ−１／２ＡｕｄｉｏＬａｙｅｒ３）、ＡＡＣ（Advanced Audio Codingの頭字語）、ＷＭＡ（Windows（登録商標） Media Audioの頭字語）またはオーディオ信号（signal audio）が周波数領域内に記憶される他のあらゆる圧縮フォーマットに従って、フォーマット音声信号が圧縮オーディオフォーマットを用いて最初に記憶または伝達される場合、直接周波数領域内で獲得され得る。

フレームを、最初に時間領域で得て、その後周波数領域に転換する（converties dans le domaine fre’quentiel）ことも可能である。例えば、マイクロホン、例えばコールセンタオペレータ２１０が話しかけるマイクロホンを用いて、直接音を録音することができる。このとき、時間フレームは、最初に（フレームの持続時間および音声信号のサンプリング周波数によって定義される）所与の数の連続的サンプルを記憶することにより形成され、次に音声信号の周波数変換（transformation fre’quentielle）を適用する。周波数変換は、例えば、離散フーリエ変換（Transforme’e de Fourier Discre`te）（Direct Fourier Transform；ＤＦＴ）、離散コサイン変換（Transforme’e Cosinus Discre`te）（Direct Cosine Transform；ＤＣＴ）、修正離散コサイン変換（Transforme’e Cosinus Discre`te Modifie’e）（Modified Direct Cosine Transform；ＭＤＣＴ）、または時間領域から周波数領域へとサウンドサンプルを転換することを可能にする任意の他の適切な変換であり得る。

方法３００ａは、次に、少なくとも１つの時間フレームについて、音声信号の周波数領域における（dans）第１の変換３２０の適用を含む。

第１の変換３２０ａは、上記少なくとも１つのフレームについて、音声信号のスペクトル包絡線を抽出するステップ３３０を含む。フレームの周波数変換されること（la transforme’e fre’quentielle d'une trame）からの音声信号のスペクトル包絡線の抽出は、当業者にとって周知のことである。この周波数変換されること（la transforme’e fre’quentielle）は、当業者にとって公知の多くの方法で行われる（s'effectuer）ことができる。周波数変換されることは、例えば、Ｍａｋｈｏｕｌ，Ｊ．（１９７５年）、線形予測（Linear prediction）、チュートリアルレビュー（A tutorial review）、ＩＥＥＥ議事録（Proceedings of the IEEE）、６３（４）、５６１〜５８０により記述されるような線形予測エンコーディングによって行われることができる。周波数変換されることは、同様に、例えばＲｏｂｅｌ，Ａ．、Ｖｉｌｌａｖｉｃｅｎｃｉｏ，Ｆ．、およびＲｏｄｅｔ，Ｘ．（２００７年）、モデル次数が未知であるケプストラムおよび全極ベースのスペクトル包酪線モデリング（On cepstral and all-pole based spectral envelope modeling with unknown model order）、パターン認識レター（Pattern Recognition Letters）、２８（１１）、１３４３〜１３５０、によって記述されるように、例えばケプストラム変換によっても行われることができる。当業者にとって公知の他の任意の周波数変換方法も同様に使用可能である。

第１の変換３００ａは、同様に、上記スペクトル包絡線のフォルマントの周波数を計算するステップ３４０も含む。本発明では、フォルマントを抽出するための多くの方法を使用することができる。スペクトル包絡線のフォルマント周波数の計算は、例えば、ＭｃＣａｎｄｌｅｓｓ，Ｓ．（１９７４）、線形予測スペクトルを用いた自動フォルマント抽出に関するアルゴリズム（An algorithm for automatic formant extraction using linear prediction spectra）、音響、発話および信号処理に関するＩＥＥＥ報告書（IEEE Transactions on Acoustics, Speech, and Signal Processing）、２２、により記述される方法を用いて行なうことができる。

方法３００ａは、同様に、音声信号のスペクトル包絡線を修正するステップ３５０をも含む。音声信号のスペクトル包絡線を修正するステップにより、所望される感情をさらに代表するスペクトル包絡線を得ることを可能にする。

スペクトル包絡線を修正するステップ３５０は、スペクトル包絡線のフォルマントの少なくとも２つの周波数によってパラメータ化された、スペクトル包絡線の周波数の連続増加変換関数の適用を含む。

スペクトル包絡線の周波数を修正するのに連続増加変換関数を使用することによって、連続する周波数間に不連続性を作り出すことなく、スペクトル包絡線を修正することが可能になる。さらに、少なくとも２つのフォルマント周波数による連続増加変換関数のパラメータ化によって、所与の感情が充てがわれた一定のフォルマントの周波数によって定義されるスペクトルの一部に対して、スペクトル包絡線の連続変換を充てがうことができる。

本発明の一実施形態において、音声信号のスペクトル包絡線を修正するステップ３５０は、同様に、スペクトル包絡線に対する動的フィルタの適用３５２も含み、上記フィルタは、音声信号のスペクトル包絡線の第３のフォルマントＦ３の周波数によってパラメータ化される。

このステップにより、音声信号のスペクトル包絡線の第３のフォルマントＦ３の周波数の周りで信号の強度を増大または低減させ、こうして修正されたスペクトル包絡線を、所望の感情を伴って発出される音素の包絡線にさらに一層近付けることができる。例えば、図１に示されるように、音声信号のスペクトル包絡線の第３のフォルマントＦ３の周波数の周りの音の強度を増大させることによって、微笑みながら発せられた場合にそうなると考えられる同じ音素のスペクトル包絡線にさらに一層近いスペクトル包絡線を得ることが可能になる。

本発明の異なる実施形態によると、このステップで使用されるフィルタは、異なるタイプのものであってよい。例えば、フィルタは、第３のフォルマントＦ３の周波数を中心とした８ｄＢの利得、Ｑ＝１．２を有する４次（bi-quad）フィルタであり得る。このフィルタによって、フォルマントＦ３の周波数の周りの周波数についてスペクトルの強度を増大させ、こうして微笑む話者により得られたと考えられるものにさらに近いスペクトル包絡線を得ることができる。

ひとたびスペクトル包絡線が修正されたならば、スペクトル包絡線を音声スペクトルに対して適用することができる。音声スペクトルに対してスペクトル包絡線を適用するのに、他の多くの実施形態が考えられる。例えば、ＬｕｉｎｉＭ．ら、（２０１３年）、フェーズボコーダおよびそれを超えるもの（Phase vocoder and beyond）、Ｍｕｓｉｃａ／Ｔｅｎｏｌｏｇｉａ、Ａｕｇｕｓｔ２０１３、Ｖｏｌ．７、ｎｏ．２０１３、ｐ．７７〜８９、により記述されるように、包絡線の対応する値をスペクトルの各構成要素に乗じることが可能である。

音声スペクトルがひとたび再構成されると、本発明の異なる実施形態に従って、フレームに対し、異なる処理を適用することができる。本発明の一部の実施形態において、オーディオ信号を再構築しそれを直接聴取するために、逆周波数変換を直接サウンドフレーム（trame sonore）に適用することができる。これにより、例えばビデオゲームの修正されたノンプレイヤキャラクタの声を聴くことが可能になる。

修正された音声信号を伝送し、こうしてそれを第３者のユーザが聴くようにすることも同様に可能である。例えば、コールセンタオペレータのコールセンタに関連する実施形態の場合がこれに該当する。この場合、音声信号は、未加工（brute）または圧縮形態で、周波数領域内または時間領域内で送信され得る。

本発明のいくつかの実施形態において、方法３００ａは、ニュートラルボイスに感情を付与するために、声を含むオーディオ信号をリアルタイムに修正するのに使用可能である。このリアルタイム修正は、例えば以下のことによって行なわれ得る。
− 例えば、マイクロホンによりリアルタイムで録音されたオーディオサンプルを受信すること。
− 時間フレームを形成するのに充分な数のサンプルが利用可能である場合に、オーディオサンプルの上記フレームを作成すること。
− 上記フレームのオーディオサンプルに対して周波数変換を適用すること。
− 周波数領域の少なくとも１つの変換されたフレームに対して、音声信号の第１の変換３２０ａを適用すること。

この方法によって、リアルタイムでニュートラルボイスに対し１つの表情を適用することができる。オーディオサンプルは、フレームの全てのサンプルが受信された時点で初めて処理され得ることから、フレームを作成するステップ（またはウィンドウイング（fene^trage））は、該方法の遂行において時間差を含む。しかしながら、この時間差は、時間フレームの持続時間のみに左右され、例えば時間フレームが５０ｍｓという持続時間しか有していない場合、小さいものであり得る。

本発明は、同様に、プログラムがコンピュータ上で動作するとき、方法３００ａまたは本発明の異なる実施形態に係る他の任意の方法を実施する目的で、コンピュータ読み取り可能記憶媒体上に記録されたプログラムコード命令を含むコンピュータプログラムプロダクトにも関する。上記コンピュータプログラムは、例えば、コールセンタオペレータ２１０のワークステーション上またはサーバ２２０上で記憶されおよび／または実行され得る。

図３ｂは、本発明に係る第２の例示的方法を示す。

方法３００ｂは、同様に、時間フレームが含む情報のタイプに応じて、異なる形で時間フレームを処理することを可能にする、音声信号を修正するための方法でもある。

この目的で、方法３００ｂは、少なくとも１つの有声フレームクラスおよび１つの非有声フレームクラスを含む時間フレームクラスセットに従って、１つの時間フレームを分類するステップ３６０を含む。

このステップにより、各フレームを１つのクラスと結び付け、フレームが属するクラスに応じてフレームの処理を適応させることができる。時間フレームは、例えば、それが母音を含む場合、有声フレームクラスに属し、母音を含まない場合、例えば子音を含む場合、非有声フレームクラスに属し得る。時間フレームの有声または非有声性を決定するための異なる方法が存在する。例えば、フレームのＺＣＲ（Zero Crossing Rate（ゼロ交差率）の頭字語）を計算し、閾値と比較することができる。ＺＣＲが閾値より低い場合、フレームは、非有声とみなされ、そうでなければ有声とみなされることになる。

方法３００ｂは、各々の有声フレームについて、周波数領域内の音声信号の第１の変換３２０ａの適用を含む。図３ａを参照して論述される本発明の実施形態は、全て、方法３００ｂの環境における第１の変換３２０ａに適用され得る。

方法３００ｂは、各々の非有声フレームについて、周波数領域内の音声信号の第２の変換３２０ｂの適用を含む。

周波数領域内の音声信号の第２の変換は、例えば予め定められた周波数などの１つの周波数を中心とした音声信号３７０のエネルギを増大させるためにフィルタを適用するステップを含む。一実施形態において、このフィルタは、例えば６０００Ｈｚなどの高−中／鋭（aigu）域内の周波数を中心とした８ｄＢの利得、Ｑ＝１の４次フィルタである。

この特徴により、スペクトル包絡線がフォルマントを有していない非有声フレーム上で変換を適用することによって、オーディオ信号の変換を精緻化することができる。

本発明の一実施形態において、音声信号の第２の変換３２０ｂは、同様に、対象のフレームについて、音声信号のスペクトル包絡線を抽出するステップ３３０、およびスペクトル包絡線の周波数の連続増加変換関数を適用するステップ３５１ｂをも含む。

スペクトル包絡線の周波数の増加連続変換関数を適用するステップ３５１ｂは、直前の時間フレームについてのスペクトル包絡線の周波数の増加連続変換関数と同一の形でパラメータ化される。こうして、本発明のこの実施形態において、有声フレームの直後に非有声フレームが続く場合、包絡線の周波数の連続増加変換関数は、有声フレームのスペクトル包絡線のフォルマントの周波数に従ってパラメータ化され、その後、直後の非有声フレームに対し同じパラメータに従って適用される。複数の非有声フレームが有声フレームに後続する場合、同じパラメータに従った同じ変換関数を、連続する非有声フレームに対して適用することができる。

この特徴により、先行する有声フレームとできるかぎり一貫性を有する（cohe’rente）変換の恩恵を受けながら、これらの非有声フレームがフォルマントを含まない場合でさえ、非有声フレームのスペクトル包絡線の周波数の変換関数を適用することができる。

図４ａおよび４ｂは、本発明に係る時間フレームのスペクトル包絡線の周波数の連続増加変換関数の２つの例を示す。

図４ａは、本発明に係る時間フレームのスペクトル包絡線の周波数の第１の例示的連続増加変換関数を示す。

関数４００ａは、ｙ軸４０２に示された初期スペクトル包絡線の周波数の一関数として、ｘ軸４０１に示された修正スペクトル包絡線の周波数を定義する。こうして、この関数により、修正スペクトル包絡線を以下のように構築することができる。修正スペクトル包絡線の各周波数の強度は、関数により示された初期スペクトル包絡線の周波数の強度に等しい。例えば、修正スペクトル包絡線の周波数４１１ａについての強度は、初期スペクトル包絡線の周波数４１０ａの強度に等しい。

本発明の一組の実施形態において、周波数の変換関数は、以下のように定義される。
− 初期周波数セットの各々の初期周波数について、修正周波数が計算される。関数４００ａの例において、初期周波数４１０ａ、４２０ａ、４３０ａ、４４０ａおよび４５０ａにそれぞれ対応する修正周波数４１１ａ、４２１ａ、４３１ａ、４４１ａおよび４５１ａが計算される。
− 次に、スペクトル包絡線のフォルマントから決定された初期周波数セットの初期周波数および修正周波数間で線形補間（interpolations line’aires entre les fre’quences initiales de l'ensemble de fre’quences initiales）が行なわれる。例えば、線形補間４６０により、第１の初期周波数４１０ａと第２の初期周波数４２０ａとの間の各々の初期周波数について、第１の修正周波数４１１ａと第２の修正周波数４２１ａとの間で修正周波数を線形的に定義することができる。

同様に、
− 線形補間４６１により、第２の初期周波数４２０ａと第３の初期周波数４３０ａとの間の各々の初期周波数について、第２の修正周波数４２１ａと第３の修正周波数４３１ａとの間で修正周波数を線形的に定義することができる。
− 線形補間４６２により、第３の初期周波数４３０ａと第４の初期周波数４４０ａとの間の各々の初期周波数について、第３の修正周波数４３１ａと第４の修正周波数４４１ａとの間で修正周波数を線形的に定義することができる。
− 線形補間４６３により、第４の初期周波数４４０ａと第５の初期周波数４５０ａとの間の各々の初期周波数について、第４の修正周波数４４１ａと第５の修正周波数４５１ａとの間で修正周波数を線形的に定義することができる。

修正周波数は、異なる方法で計算可能である。そのいくつかは、初期周波数に等しくてもよい。いくつかは、例えば初期周波数に乗数係数αを乗じることによって得ることができる。これにより、乗数係数αが１より大きいか小さいかに応じて、初期周波数より高いかまたは低い修正周波数を得ることが可能になる。概して、対応する初期周波数より高い修正周波数（α＞１）が、より楽しげなまたは微笑む声と結び付けられ、一方、対応する初期周波数よりも低い修正周波数（α＜１）は、より緊張したまたは微笑の少ない声と結び付けられる。概して、乗数係数αの値が１から離れるに従って、加えられる効果は、より顕著なものとなる。したがって、係数αの値によって、声に適用されるべき変換だけでなく、この変換の大きさも定義することができる。

本発明の一組の実施形態において、変換関数をパラメータ化するための初期周波数は、以下のものである。
− 音声信号のスペクトル包絡線の第１のフォルマント（Ｆ１）の周波数の半分から計算された第１の初期周波数（４１０ａ）。
− 音声信号のスペクトル包絡線の第２のフォルマント（Ｆ２）の周波数から計算された第２の初期周波数（４２０ａ）。
− 音声信号のスペクトル包絡線の第３のフォルマント（Ｆ３）の周波数から計算された第３の初期周波数（４３０ａ）。
− 音声信号のスペクトル包絡線の第４のフォルマント（Ｆ４）の周波数から計算された第４の初期周波数（４４０ａ）。
− 音声信号のスペクトル包絡線の第５のフォルマント（Ｆ５）の周波数から計算された第５の初期周波数（４５０ａ）。

したがって、第１の初期周波数４１０ａより低く第５の初期周波数４５０ａより高いスペクトル包絡線の周波数は、修正されない。これにより、周波数の変換を、声の緊張したまたは微笑音質が充てがわれたフォルマントに対応し、例えば基本周波数Ｆ０を修正しない周波数に制限することが可能となる。

本発明の一実施形態において、初期周波数は、現在の時間フレームのフォルマントの周波数に対応する。したがって、変換関数のパラメータは、各々の時間フレームについて修正される。

初期周波数は、同様に、２つ以上の連続する時間フレームについて、同一ランクのフォルマントの周波数の平均としても計算され得る。例えば、第１の初期周波数４１０ａは、ｎ≧２として、ｎ個の連続する時間フレームのスペクトル包絡線について第１のフォルマントＦ１の周波数の平均として計算され得る。

本発明の一組の実施形態において、周波数変換は、主として、第２のフォルマントＦ２と第４のフォルマントＦ４との間で適用される。したがって、修正周波数は、以下の通りに計算される。
− 第１の初期周波数４１０ａに等しいものとして、第１の修正周波数４１１ａが計算される。
− 第２の初期周波数４２０ａに乗数係数αを乗じることによって第２の修正周波数４２１ａが計算される。
− 第３の初期周波数４３０ａに乗数係数αを乗じることによって第３の修正周波数４３１ａが計算される。
− 第４の初期周波数４４０ａに乗数係数αを乗じることによって、第４の修正周波数４４１ａが計算される。
− 第５の初期周波数４５０ａに等しいものとして、第５の修正周波数４５１ａが計算さ、れる。

例示的変換関数４００ａにより、特に第２のフォルマントＦ２と第４のフォルマントＦ４との間で、周波数がより高いことによってより微笑む声を得るために、時間フレームのスペクトル包絡線を変換することができる。

一実施形態において、乗数係数αは、予め定められたものである。例えば、乗数係数αは、１．１に等しい（周波数の１０％増加）ものであり得る。

本発明のいくつかの実施形態において、乗数係数αは、生成すべき声の修正強度（intensite` de modification）によって左右され得る。

本発明のいくつかの実施形態において、乗数係数αを、所与のユーザについて決定することができる。例えば、ユーザがまずはニュートラルボイスで、次に微笑んだ声で音素を発音するトレーニング段階中に、乗数係数を決定することができる。したがって、ニュートラルボイスおよび微笑んだ声で発音された音素について、異なるフォルマントの周波数を比較することによって、所与のユーザに適応された乗数係数αを計算することが可能になる。

本発明の一組の実施形態において、係数αの値は、音素により左右される。本発明のこれらの実施形態において、本発明に係る方法は、現在の音素を検出するステップを含み、係数αの値は、現在のフレームについて定義される。例えば、αの値は、トレーニング段階中に所与の音素について決定されたものであり得る。

図４ｂは、本発明に係る時間フレームのスペクトル包絡線の周波数の第２の例示的連続増加変換関数を示す。

図４ｂは、声に、より緊張した音質またはより微笑んだ音質を付与することを可能にする第２の関数４００ｂを示す。

図４ｂの図は、図４ａの図と同一である。すなわち、修正されたスペクトル包絡線の周波数は、ｙ軸４０２に示された初期スペクトル包絡線の周波数の関数として、ｘ軸４０１に示される。

関数４００ｂは、各々の初期周波数４１０ｂ、４２０ｂ、４３０ｂ、４４０ｂ、４５０ｂについて、修正周波数４１１ｂ、４２１ｂ、４３１ｂ、４４１ｂ、４５１ｂを計算し、次に初期周波数および修正周波数間の線形補間４６０ｂ、４６１ｂ、４６２ｂおよび４６３ｂを定義することによっても構築される。

関数４００ｂの例において、修正周波数４１１ｂおよび４５１ｂは、初期周波数４１０ｂおよび４５０ｂに等しく、一方、修正周波数４２１ｂ、４３１ｂおよび４４１ｂは、α＜１である因数αを初期周波数４２０ｂ、４３０ｂおよび４４０ｂに乗じることによって得られる。こうして、関数４００ｂによって修正されたスペクトル包絡線の第２のフォルマントＦ２、第３のフォルマントＦ３および第４のフォルマントＦ４の周波数は、初期スペクトル包絡線の対応するフォルマントの周波数よりもさらに低いものとなる。これにより、声に緊張音質を付与することが可能になる。

関数４００ａおよび４００ｂは、単に一例として提示される。本発明では、包絡線のフォルマントの周波数からパラメータ化されたスペクトル包絡線の周波数のあらゆる連続増加関数を使用することができる。例えば、声の微笑む特質に関係付けされるフォルマントの周波数に基づいて定義された関数は、本発明にとって特に好適である。

図５ａ、５ｂおよび５ｃは、本発明に係る、修正された母音のスペクトル包絡線の３つの例を示す。

図５ａは、被検者がニュートラルに発した音素「ｅ」のスペクトル包絡線５１０ａ、および被検者が微笑みながら発した同じ音素「ｅ」のスペクトル包絡線５２０ａを示す。図５ａは、同様に、声をより微笑んでいるものにするために本発明に係る方法によって修正されたスペクトル包絡線５３０ａをも示す。したがって、スペクトル包絡線５３０ａは、スペクトル包絡線５１０ａに対して本発明に係る方法を適用した結果を示す。

図５ｂは、被検者がニュートラルに発した音素「ａ」のスペクトル包絡線５１０ｂ、および被検者が微笑みながら発した同じ音素「ａ」のスペクトル包絡線５２０ｂを示す。図５ｂは、同様に、声をより微笑んでいるものにするために本発明に係る方法によって修正されたスペクトル包絡線５３０ｂをも示す。したがって、スペクトル包絡線５３０ｂは、スペクトル包絡線５１０ｂに対して本発明に係る方法を適用した結果を示す。

図５ｃは、第２の被検者がニュートラルに発した音素「ｅ」のスペクトル包絡線５１０ｃ、および第２の被検者が微笑みながら発した同じ音素「ｅ」のスペクトル包絡線５２０ｃを示す。図５ｃは、同様に、声をより微笑んでいるものにするために本発明に係る方法によって修正されたスペクトル包絡線５３０ｃをも示す。したがって、スペクトル包絡線５３０ｃは、スペクトル包絡線５１０ｃに対して本発明に係る方法を適用した結果を示す。

この例において、本発明に係る方法は、図４ａ中に示された周波数を変換するための関数４００ａの適用、および包絡線の第３のフォルマントＦ３の周波数を中心とした４次フィルタの適用を含む。

図５ａ、５ｂおよび５ｃは、本発明に係る方法によれば、自然さをなおも保ちながら微笑んでいるように思える声をシミュレートするために、一定のフォルマントの位置および振幅を修正する一方で音素の包絡線の全体的形状を維持することができる、ことを示す。

より詳細には、本発明に係る方法によれば、本発明に従って変換されたスペクトル包絡線が、それぞれ、曲線５２１ａと５３１ａと、５２１ｂと５３１ｂと、５２１ｃと５３１ｃと、の類似性によって示される通り、スペクトルの高中域の周波数について微笑む声のスペクトル包絡線に非常に類似したものとなることを可能にする、という点を特筆しておくべきである。

図６ａ、６ｂおよび６ｃは、微笑みながらおよび微笑まずに発音された音素のスペクトログラムの３つの例を示す。

図６ａは、ニュートラルに発音された音素「ａ」のスペクトログラム６１０ａと、声をより微笑んでいるものにするために本発明が適用された同じ音素「ａ」のスペクトログラム６２０ａと、を示す。図６ｂは、ニュートラルに発音された音素「ｅ」のスペクトログラム６１０ｂと、声をより微笑んでいるものにするために本発明が適用された同じ音素「ｅ」のスペクトログラム６２０ｂと、を示す。図６ｃは、ニュートラルに発音された音素「ｉ」のスペクトログラム６１０ｃと、声をより微笑んでいるものにするために本発明が適用された同じ音素「ｉ」のスペクトログラム６２０ｃと、を示す。

各スペクトログラムは、異なる周波数についての音の強度の経時的推移（e’volution dans le temps）を示し、以下のように解釈される。
− 水平軸は、音素の発音法（diction）の内部の時間を表す。
− 垂直軸は、異なる周波数を表す。
− 音の強度は、所与の時間および周波数について、対応するグレーレベルによって表される。すなわち、白は、零の強度を表し、一方、非常に濃いグレーは、対応する時点における周波数の強い強度を表す。

一般に、図１内に示されるスペクトル包絡線によると、微笑えむ声の場合、スペクトルの高中域において、エネルギは、ニュートラルボイスに比べて概して増大する、ということを考察できる。したがって、それぞれ、ゾーン６１１ａと６２１ａと、６１１ｂと６２１ｂと、６１１ｃと６２１ｃと、の間で示されるように、スペクトルの高中域における音の強度の増大を認めることができる。

図７は、本発明に係る母音スペクトログラム変換の一例を示す。

図７は、ニュートラルに発音された音素「ｉ」のスペクトログラム７１０と、声をより微笑んでいるものにするために本発明が適用された同じ音素「ｉ」のスペクトログラム７２０と、を示す。

各スペクトログラムは、図６ａ〜６ｃの図と同じ図に従って、異なる周波数についての音の強度の経時的推移を示す。

一般に、図５ａ〜５ｃ内に示されるスペクトル包絡線によると、音の強度は、スペクトルの高中域において概して増大する、ということを考察できる。したがって、ゾーン７１１と７２１との間で示されるように、スペクトルの高中域における音の強度の増大を認めることができる。こうして、微笑えむ声の効果は、図６ａ〜６ｃ中に示される実際の微笑の効果に類似する。

図８は、本発明の３つの例示的実施形態に係る母音スペクトログラム変換の３つの例を示す。

本発明の一組の実施形態において、乗数係数αの値は、例えば声の音質の漸進的修正（modification progressive）をシミュレートするために、経時的に修正され得る。例えば、乗数係数αの値は、増大して次第に微笑んでいる声の印象を与えることができ、または減少して次第に緊張する声の印象を与えることもできる。

スペクトログラム８１０は、ニュートラルトーンで発音され、定数の（constant）乗数係数αで本発明によって修正された母音のスペクトログラムを表す。スペクトログラム８２０は、ニュートラルトーンで発音され、減少する乗数係数αで本発明によって修正された母音のスペクトログラムを表す。スペクトログラム８３０は、ニュートラルトーンで発音され、増大する乗数係数αで本発明により修正された母音のスペクトログラムを表す。

これらの異なる例において経時的に修正されたスペクトログラムの推移は、異なるものであることを観察することができる。すなわち、減少する乗数係数αの場合、スペクトルの高中域における周波数の強度は、漸進的により高く８２１、次により低く８２２なる。反対に、増大する乗数係数αの場合には、スペクトルの高中域における周波数の強度は、漸進的により低く８３１、次により高く８３２なる。

この例は、例えば微笑度がより大きいまたはより小さい声を生成するために、リアルタイムで効果を生み出す目的で、スペクトル包絡線の変換を調整する本発明に係る方法の能力を実証する。

以上の例は、修正された声が自然に感じられることを保証しながら、妥当な計算の複雑さで声に音質を充てがう本発明の能力を実証する。しかしながら、これらの例は、単なる一例として提供されるにすぎず、いかなる形であれ、以下のクレームにおいて定義された本発明の範囲を限定するものではない。

Claims

音声信号を修正する方法であって、
− 周波数領域内で前記音声信号の時間フレームを獲得するステップ（３１０）と、
− 少なくとも１つの時間フレームについて、前記周波数領域内で前記音声信号の第１の変換を適用するステップ（３２０ａ）であって、
○ 前記少なくとも１つの時間フレームについて前記音声信号のスペクトル包絡線を抽出するステップ（３３０）と、
○ 前記スペクトル包絡線のフォルマントの周波数を計算するステップ（３４０）と、
○ 前記音声信号の前記スペクトル包絡線を修正するステップ（３５０）であって、前記修正することは、前記スペクトル包絡線のフォルマントの少なくとも２つの周波数によりパラメータ化された、前記スペクトル包絡線の周波数の増加連続変換関数を適用すること（３５１）を有するステップ（３５０）と、を有するステップと、を有する方法。
前記音声信号の前記スペクトル包絡線を修正する前記ステップ（３５０）は、同様に、前記スペクトル包絡線に対するフィルタを適用すること（３５２）をも有し、前記フィルタは、前記音声信号のスペクトル包絡線の第３のフォルマント（Ｆ３）の前記周波数によってパラメータ化される、請求項１に記載の方法。
少なくとも１つの有声フレームクラスおよび１つの非有声フレームクラスを有する時間フレームクラスセットに従って、時間フレームを分類するステップ（３６０）を有する、請求項１または２に記載の方法。
− 各有声フレームについて、前記周波数領域内で前記音声信号の前記第１の変換（３２０ａ）を適用することと、
− 各非有声フレームについて、前記周波数領域内で前記音声信号の第２の変換（３２０ｂ）を適用することであって、前記第２の変換は、予め定められた周波数を中心とする前記音声信号のエネルギを増大させるフィルタを適用するステップ（３７０）を有することと、を有する、請求項３に記載の方法。
前記音声信号の前記第２の変換（３２０ｂ）は、
− 前記少なくとも１つの時間フレームについて、前記音声信号のスペクトル包絡線を抽出するステップ（３３０）と、
− 直前の時間フレームについて、前記スペクトル包絡線の周波数の増加連続変換関数と同一の形でパラメータ化された前記スペクトル包絡線の前記周波数の増加連続変換関数を適用すること（３５１ｂ）と、を有する、請求項４に記載の方法。
前記スペクトル包絡線の前記周波数の増加連続変換関数を前記適用するステップ（３５１）は、
− 前記スペクトル包絡線のフォルマントから決定された初期周波数セット（４１０、４２０、４３０、４４０、４５０）について、修正周波数（４１０ａ、４２０ａ、４３０ａ、４４０ａ、４５０ａ）を計算することと、
− 前記スペクトル包絡線のフォルマントから決定された前記初期周波数セットの初期周波数および前記修正周波数間で線形補間（４６０、４６１、４６２、４６３）を行うことと、を有する、請求項１〜５のいずれか一項に記載の方法。
少なくとも１つの修正周波数（４２０ａ、４３０ａ、４４０ａ）は、前記初期周波数セットからの初期周波数（４２０、４３０、４４０）に乗数係数（α）を乗じることによって得られる、請求項５に記載の方法。
前記スペクトル包絡線のフォルマントから決定された前記周波数セットは、
− 前記音声信号の前記スペクトル包絡線の第１のフォルマント（Ｆ１）の前記周波数の半分から計算された第１の初期周波数（４１０）と、
− 前記音声信号の前記スペクトル包絡線の第２のフォルマント（Ｆ２）の前記周波数から計算された第２の初期周波数（４２０）と、
− 前記音声信号の前記スペクトル包絡線の第３のフォルマント（Ｆ３）の前記周波数から計算された第３の初期周波数（４３０）と、
− 前記音声信号の前記スペクトル包絡線の第４のフォルマント（Ｆ４）の前記周波数から計算された第４の初期周波数（４４０）と、
− 前記音声信号の前記スペクトル包絡線の第５のフォルマント（Ｆ５）の前記周波数から計算された第５の初期周波数（４５０）と、を有する、請求項７に記載の方法。
− 第１の修正周波数（４１０ａ）は、前記第１の初期周波数（４１０）に等しいものとして計算され、
− 第２の修正周波数（４２０ａ）は、前記第２の初期周波数（４２０）に前記乗数係数（α）を乗じることによって計算され、
− 第３の修正周波数（４３０ａ）は、前記第３の初期周波数（４３０）に前記乗数係数（α）を乗じることによって計算され、
− 第４の修正周波数（４４０ａ）は、前記第４の初期周波数（４４０）に前記乗数係数（α）を乗じることによって計算され、
− 第５の修正周波数（４５０ａ）は、前記第５の初期周波数（４５０）に等しいものとして計算される、請求項８に記載の方法。
各初期周波数は、現在の時間フレームのフォルマントの前記周波数から計算される、請求項８または９に記載の方法。
各初期周波数は、２つ以上の連続する時間フレームについて、同一ランクのフォルマントの前記周波数の平均から計算される、請求項８に記載の方法。
リアルタイムで前記音声信号を修正するのに適合し、
− 前記音声信号は、声を有し、
− 前記周波数領域内で前記音声信号の時間フレームを獲得するステップ（３１０）は、
○ オーディオサンプルを受信するステップと、
○ 前記フレームを形成するのに充分な数のサンプルが利用可能である場合、オーディオサンプルの時間フレームを作成するステップと、
○ 前記フレームの前記オーディオサンプルに対して周波数変換を適用するステップと、を有する、請求項１〜１１のいずれか一項に記載の方法。
声に対する微笑音質の適用に適合し、
前記フォルマントの少なくとも２つの周波数は、声の前記微笑音質による影響を受けたフォルマントの周波数である、請求項１〜１２のいずれか一項に記載の方法。
前記スペクトル包絡線の前記周波数の前記増加連続変換関数は、ニュートラルにまたは微笑みながらユーザが発した音素のスペクトル包絡線を比較することによって、トレーニング段階中に決定されたものである、請求項１３に記載の方法。
プログラムがコンピュータ上で動作するとき、請求項１〜１２のいずれか一項に記載の前記方法の前記ステップを実施するためにコンピュータ読み取り可能記憶媒体上に記録されたプログラムコード命令を有する、コンピュータプログラムプロダクト。