JP2013231999A

JP2013231999A - 音声録音における音声特性を変換するための装置および方法

Info

Publication number: JP2013231999A
Application number: JP2013145999A
Authority: JP
Inventors: Giuseppe Bardino Daniele; バルディーノ、ダニエル、ジュゼッペ; James Griffiths Richard; グリフィス、リチャード、ジェームス
Original assignee: Sony Computer Entertainment Europe Ltd
Current assignee: Sony Interactive Entertainment Europe Ltd
Priority date: 2006-10-19
Filing date: 2013-07-12
Publication date: 2013-11-14
Also published as: WO2008047114A8; GB2443027A; US8825483B2; JP2010507123A; EP2050094B1; WO2008047114A1; EP2050094A1; GB2443027B; GB0620829D0; US20100235166A1

Abstract

【課題】ビデオゲームにおけるダイアログ再生に好適な録音された発話の音声処理および再生のための装置および方法を提供する。
【解決手段】音声処理方法は、音声録音の音声特性を変換するための一つまたは複数の変換プロファイルを構成し、各変換プロファイルに対してメタデータセットを生成する処理を備える。メタデータセットは、変換プロファイルデータと、録音のどこに変換プロファイルデータが適用されるべきかを示すロケーションデータとを備える。各メタデータセットは、対応する録音と関連づけて保存される。対応する音声再生方法は、録音と該録音に関連づけられたメタデータセットをストレージから読み出し、メタデータセットの変換プロファイルに従って録音データに変換を適用し、変換された録音を出力する処理を備える。
【選択図】なし

Description

本発明は、音声処理の装置および方法に関する。特に、録音された発話の音声処理および再生のための装置および方法に関連するが、これに限られない。

ビデオゲームの生産価値が、主力映画が有する生産価値に匹敵し始めているため、ビデオゲームにおいて、録音されたダイアログ（一人または複数の声を拠出して録音したものを総称的に言及するときに使用される用語）は、プレイヤーがゲーム品質を認知する際に、いっそう重要な要因になってきている。しかしながら、ダイアログに重点をおきすぎると、コストの増加を招くと共に、より綿密に吟味することが必要になってくる
コストの増加はいくつかの点で生じる。第一に、演技者を雇って録音を行う場合にコストがかかる。また、異なる市場向けにダイアログを異なる言語で録音しなければならない場合にはコストがさらに増加する。第二に、ゲームを実行しているコンピュータのための記憶領域の空きおよび処理資源という観点からもコストがかかる。これらのコストを制限あるいは削減できれば好都合である。

プレイヤーを熱中させたり、解説を与えたり、感情移入させたり、フィードバックや物語性を与えたりすることに対してダイアログが欠かせないものになればなるほど、より綿密に吟味することになり、その結果、より価値のあるゲーム体験を与えることができる。

しかし、このビデオゲームにおけるダイアログには、従来の録音メディアと比較すると、著しい相違点がある。

相違点の一つとして、ビデオゲームを行う場合の全継続時間は、テレビ番組や映画よりも何倍も長いのが一般的である。従って、コストを制限するために、ゲームの製作者は、ゲーム内の類似する場面に対してダイアログのフラグメントを再利用することを検討する場合が多い。

別の相違点は、概してゲームのプレイヤーは、うまく前に進むためにゲームアクションのある部分を何度も繰り返す必要があり、（例えば）オブジェクトの交換や、キャラクタを回復させるためにゲームの中心部分あたりを何度も再訪問する場合がある。従って、プレイヤーは、同じダイアログに何度も何度も遭遇する可能性がある。

その結果、反復するビデオゲームシーンの中で、ダイアログが何度も繰り返される傾向がある。しかし、録音された同じダイアログラインに何度も何度も繰り返し遭遇すると、苛立ちを生じさせ、生産価値が限られている印象を与え、さらにゲーム内の幻想のリアルさが壊されてしまう可能性がある。

結果として、幅広いノンリニアなゲーム内でダイアログを繰り返すことにより、ダイアログのコストと、そのプレイヤーを満足させる力との間の緊張状態が悪化してしまう。

この問題に対する理想的な解決案は、このようなダイアログの各ラインについて数多くのバリエーションを録音することであり、これによって、ユーザが何度も繰り返し聞いたとしても、聞くたびに異なって自然に聞こえる。しかし、単に各ラインの第二バージョンを録音するだけでは、演技者の時間、複製権、録音時間、およびコンピュータのストレージ容量という点からみたコストが二倍になってしまう。録音を数多く行うというのは非実用的である。

製造時の録音を修正変更するボイスツールが従来から知られている。一般的に、これらのツールにより提供される機能は、二つの汎用カテゴリに分類される。第一のカテゴリに入るのは、人の声を規則化、または、「補正」することを可能にするツールである。例えば、平坦な調子で歌っている人のピッチを補正する。メロダイン（Melodyne）（登録商標）、ピュアピッチ（PurePitch）、およびアンタレス・オートチューン（Antares Autotune）等の周知の製品においてこのような機能が見られる。第二のカテゴリに入るのは、人の声の偽装や変質を可能にするツールである。例えば、匿名にする目的や、ゲームや映画の「非人間」キャラクタを作り出すためである。モーファボックス（MorphVOX）や、ティーシーヘリコン・ボイスプロ（TC-Helicon VoicePro）等の製品において、このような機能が見られる。第三の、中間に位置するカテゴリに入るのは、声を向上させるためのツールである。例えば、人が自然には届くことができないハーモニーを提供したり、ダイアログの一部を活気づけたり和らげたりするために、録音におけるピッチバリエーションを強調したり抑制したりする（例えば、http://www.soundtoys.eom/download/files/manuals/PurePitchv2.9.pdfを参照）。

これらのカテゴリのうち、ダイアログの録音を明瞭に規則化する場合は、上記のようなゲームシナリオにおいて使用されると、ダイアログに対するユーザの印象が悪くなりそうである。対照的に、声優の特徴を完全に変質させると、混乱が生じ、ゲームにおける幻想のリアルさが壊れる可能性がある。ダイアログのさまざまな録音バージョンのためにピッチ・エンベロープを変化させるという中間的アプローチは、ある程度表面的なバリエーションを与えるものの、ダイアログによっては非常に不適当であり、何度も繰り返して聞く場合には、十分に自然なバリエーションを与えることはできない。

さらに、これらのツールは、声優を雇うコストを制限できる一方で、スタジオでの編集の時間という点でのコストを必ずしも低減するものではなく、さらにプレイヤーのコンピュータ内またはゲーム実装メディア上の有限のストレージ空間を占有するという点においてはコストを削減できない。

本発明の実施例は、上記のような問題を軽減あるいは緩和することを目的とする。

本発明のさまざまな態様および特徴はそれぞれ、添付の請求の範囲において定義される。従属クレームに定義される特徴は、その独立クレームに適宜組み合わされ、単にクレーム内で明示されていることだけに限られない。

本発明の第一の態様において、音声処理方法は、音声録音の音声特性を変換するための、一つまたは複数の変換プロファイルを構成するステップと、該変換プロファイルまたは各変換プロファイルに対し、それぞれの変換プロファイルデータと、録音のどこに該変換プロファイルデータを適用すべきかを示すロケーションデータとから成るメタデータセットを生成するステップと、対応する録音に関連づけて該メタデータセットまたは各メタデータセットを保存するステップとを備える。

録音とともにメタデータセットを保存することによって、スタジオでダイアログを再録音したり、録音を前処理したり、別々のコピーを保存したりする必要なく、録音されたダイアログについて一つまたは複数の追加的な解釈がアクセス可能になる。

本発明の別の態様によると、音声再生方法は、録音と、変換プロファイルを含み、該録音に関連づけられたメタデータセットをストレージから読み出すステップと、該変換プロファイルに従って録音データに対して変換を適用するステップと、変換した録音を出力するステップとを備える。

選択されたメタデータセットの変換プロファイルに従って、録音に対して変換を適用することにより、追加的なあるいは前処理後の録音を保存しておく必要なく、オリジナルの録音を再生時に解釈し直すことができる。

本発明の別の態様によると、音声処理装置は、前述の音声処理方法の実行を可能とする、構成手段、メタデータセット生成手段、および、ストレージ書込手段を備える。

本発明の別の態様によると、音声再生装置は、前述の音声再生方法の実行を可能とする、ストレージ読取手段、変換処理手段、および音声出力手段を備える。

本発明の別の態様によると、データキャリアは、コンピュータに前述の音声処理方法を実行させるようにするコンピュータで読取可能な指示を備える。

本発明の別の態様によると、データキャリアは、コンピュータに前述の音声再生方法を実行させるようにするコンピュータ読取可能指示を備える。

本発明の別の態様によると、データキャリアは、音声録音と、該音声録音に関連づけられた第一メタデータセットを少なくとも含み、当該メタデータセットは、前述の音声処理方法により生成される。

以下、添付の図面を参照し、本発明の実施形態を一例として説明する。
本発明の実施形態において、ある録音に対して構成された変換プロファイル要素を示す概略図である。本発明の実施形態における音声処理方法を示す概略フロー図である。本発明の実施形態において、ある録音に適用される変換プロファイル要素を示す概略図である。本発明の実施形態における音声再生方法を示す概略フロー図である。本発明の実施形態におけるエンタテインメント装置を示す概略図である。

音声処理装置および音声処理方法を開示する。以下の説明において、いくつかの具体的な詳細は、本発明の実施形態について十分な理解を図るために示すものである。しかしながら、本発明を実施するためにこれらの具体的な詳細を必ずしも採用する必要がないことは当業者にとって明らかである。逆にいえば、当業者にとって周知の具体的な詳細は、実施形態を示すにあたり明瞭化のために省略される。

本発明の実施例によれば、録音されたダイアログを再生時にリアルタイムで変化させることが可能であり、この変化は、ゲームに基づくパラメータに対応させることもできる。例えば、「Get out [of] the car」というフレーズが、録音されたダイアログの一つのバージョンを基礎にして、ゲーム内場面に応じて、急いでいるのか落ち着いているのかが認識できるように同一キャラクタにより発言される。

本発明の実施形態において、図１ａ、図１ｂ、および図１ｃを参照すると、録音されたダイアログの特性は、音節ごとに考慮される。上記の「Get out [of] the car」という例文に対し、振幅（あるいは強度）、ピッチ、および継続時間の変更が考えられる。三つの図の全ての横軸に沿って、同一の目盛で時間が経過する。三つの図の間に亘って伸びる縦軸は、個々のワードの始めと終わりについて境界を定める。図１ａおよび図１ｂにおいて、縦軸は、振幅またはピッチという関連するパラメータの値を概略的に表す。

図１ａは、発話されたセンテンスの強度あるいは振幅に適用されるバリエーションを示している。

振幅は、次のように変化させてもよい。
i. 一つの音節に亘る均一なゲインコントロール１１０、
ii. 一つの音節に亘る可変エンベロープのゲインコントロール（１２０、１３０）、および／または、
iii. 一つの音節内の短期（以下、「ポイント」）ゲインコントロール１４０、これは典型的には音節の開始位置または終了位置であり、音節の残りの部分は無変化のまま、または（図示しないが）上記に挙げたバリエーションiまたはiiうちのいずれかが施される。

典型的には、均一なゲインコントロール１１０は、可能であれば音節ベースのコントロールに加えて、ダイアログの全ラインに適用されてもよい。

代わりに、またはこれに加えて、可変ゲインエンベロープ（１２０、１３０）が適用されてもよい。一組の定義済みのエンベロープが、増加、減少、ならびに、初期、中期、および後期のピークを含めて提供される（ピークエンベロープは、エンベロープの短い部分を強調するような形で、増加よび減少の両方において振幅を滑らかに押し上げる）。これらのエンベロープは、ワードまたは音節の強調を変えるために使用される。

代わりに、またはこれに加えて、ポイントゲインコントロール１４０が適用されてもよい。ポイントコントロールは、一つの音節の開始位置または終了位置に適用される短期のゲインエンベロープ（典型的には数十ミリ秒）である。これらは、破裂音や摩擦音を強調するために使用され、例えば、ダイアログに対して、激怒や嫌味の感情を与えるために使用される。任意に、所定範囲内で継続時間の長さを制御できるようにしてもよい。

均一なゲイン、定義済みエンベロープ、およびポイントゲインコントロールは、例えばランプ角またはピーク幅等の適切なパラメータを使用して調整可能である。

図１ｂは、発話されたセンテンスのピッチに適用できるバリエーションを表わす。

ピッチは、次のように変化させてもよい。
i. 音節ごとまたは（図示するように）ラインごとに均一なピッチコントロール２１０、および／または、
ii. 音節ごとの可変エンベロープのピッチコントロール（２２０、２３０）
均一ピッチコントロール２１０は、ワード全体または個々の音節のいずれかに適用することが好ましいが、典型的には、ダイアログの全体ラインに適用されてもよい。

代わりに、またはこれに加えて、ピッチエンベロープ（２２０、２３０）を適用してもよい。一組の定義済みエンベロープは、増加、減少、ならびに、初期、中期、および後期ピークを含めて提供される。音節（特に最後の音節）に適用されると、これらは例えば、質問と発言の間のダイアログの一つのラインを変更するために使用される。また、ピッチコントロールは、適切なパラメータを用いることにより調整可能である。

図１ｃは、発話されたセンテンスの継続時間に適用されるバリエーションを表わす。

継続時間は、次のように変化させてもよい。
i．一つの音節の延長（３４０）または短縮（３５０）
ii．ワード間のギャップの延長（３２０）または短縮（３３０）
音節（３４０、３５０）の延長または短縮は、線形であってもよく、非線形であってもよい。例えば、音節の初期、中期、または後期を引き伸ばすなど、音節の異なる部分を異なる程度で、さまざまに圧縮およびまたは拡張するプロファイルのセットによって非線形の変更が容易になる。これらは、例えば、あるワードを不明瞭に発音する、もしくはゆっくり話すために、または、母音を強調するために用いてもよい。また、継続時間制御は、適切なパラメータを用いて調整可能である。

代わりに、またはこれに加えて、ワード全体あるいはダイアログの一ライン（３１０）についての、より全体的な延長または短縮が同様に実行されてもよい。

ワード間ギャップの延長または短縮（３２０、３３０）により、センテンスの韻律における変更が可能となる。これは、緊急性、緩和感、または強調を伝えたり、ドラマチックな間（ま）を加えたりするために用いられてもよい。

上記のバリエーションのうちの複数を同時に適用できることは、当業者にとって明らかである。

しかしながら、ピッチおよび継続時間を個別に変更するためには、適切な信号処理を必要とすることはいうまでもない。

本発明の実施形態において、音節のピッチまたは継続時間を個別に変更するためには、ウェーブレット変換に基づいた処理が録音の一部に適用される。

従来のサンプリングシステムでは、信号の継続時間を変更することによって、周波数が変更されることになり、その逆もまた同様である。これは、ピッチが再生速度により決定されるからである。

より高度な技術であれば、フーリエ変換を使用できる。フーリエ変換の原理は、いかなる音波であっても、異なる周波数をもつ正弦波の重畳から合成できるという特性を利用するものである。フーリエ変換は、時間軸の音波を一連の異なる周波数の正弦波に変換する。これらの正弦波の振幅および位相は、音波を再現するために、お互いに干渉し合って強めあったり弱めあったりする。この音波のピッチは、音を再合成するために逆フーリエ変換する前に、一連の正弦波の周波数オフセットをシフトさせることによって変更することが可能である。

しかし、これによると音の継続時間を再度変更することになる。というのは、フーリエ変換は無限の継続時間の正弦波を想定している、すなわち、周波数にのみ特定して適用されるからである。実際には、フーリエ合成は、各々が約１００ミリ秒を表わす重なり合う音の周期に対して適用されるのが典型的である。従って、音の全体としての継続時間は維持されるものの、もはや正しく重なり合っていない再合成シーケンスで構成されることになり、結果として不自然な音が生成される。

対照的に、いわゆるウェーブレット変換は、周波数および継続時間の両方（例えば、ウィンドウ化された正弦波）に特化して適用される一連の（または「ファミリー」の）ウェーブレットを使用する。

従って、ウェーブレット変換に従うと、周波数における変更は、継続時間を補償する変更を伴うことができ、継続時間を維持したままのピッチの変更、あるいはその逆もまた可能となる。実際に、ピッチおよび継続時間の両方に対する（一方が他方に及ぼす影響を考慮した）変更は、音を再合成するための逆ウェーブレット変換の前に同時に行われる。

いわゆるchirplet変換等の、同様の時間・周波数変換もまた適用可能であることは、当業者にとって明らかである。

本発明の他の実施形態においては、「ピッチ同期波形重畳加算法（Pitch Synchronous Overlap Add）」（ＰＳＯＬＡ)として知られる変換が使用される。ＵｄｏＺｏｌｚｅｒｅｔ．ａｌ．著、Wiley発行、ISBN:0-471-49078-4、「DAFX - Digital Audio Effects」を参照。

最初に、ＰＳＯＬＡは、ある特定のポイントにおいて時間領域（例えば、有声発話の基本ピッチ）内のピッチ周期を決定する。

この基本ピッチは、一つのピッチ周期に等しい長さの時間履歴のセグメントを選択し、いずれか近い方をさらに離れているものとクロスフェーディングすることにより調整され、それによって有効ピッチを変更する。

都合のよいことに、ピッチにおけるこの変更は、信号の延長または短縮とは別に実施可能であり、継続時間を変更するために、一つまたは複数のピッチ周期に等しい長さの信号のセグメントが重なり合っているものが選択される。これらのセグメントは、その後、一つのピッチ周期または複数倍のピッチ周期によってクロスフェードされ、それにより、そこに含まれる見かけ上のピッチを上げたり下げたりすることなく、信号の時間履歴を短縮したり延長したりすることができる。

あるいは、所望のピッチを達成するためにセグメントをクロスフェードする際に、一つのピッチ周期に等しい長さの時間履歴のセグメントを省略するか、またはその時間履歴のセグメントを複数回使用することによって、継続時間の変更とピッチの変更という二つのステップを同時に実施することが可能である。

この方法は、また、計算的に単純であるという利点を有する。潜在的に、複数のトーンとそれによる複数のピッチ周期を伴う音声ファイル（例えば音楽）については問題があるが、有声発話の場合は、単一の基本ピッチと相対的に固定位相にある高調波を有する。従って、この方法は発話に対して汎用的に適用できる。

本発明の他の実施形態において、録音されたダイアログのピッチおよび継続時間は、音源フィルタ合成として知られる物理的なモデリング技術により変更される（http://www.fon.hum.uva.nl/praat/manual/Source_filter_synthesis.htmlを参照）。音源フィルタ合成において、録音された発話は、声道の（変化している）共振により、ある期間に亘ってフィルタをかけられた声門の音源信号の組合せとして扱われる。

等価フィルタおよび声門音源信号は、線形予測符号化技術を用いて、録音されたダイアログから別々に導出できる。

フォルマント構造にそれほど影響を与えない（あるいはフォルマント構造に対する重大な変化を回避するよう制限されていると考えられる）、継続時間から独立したピッチシフティングは、声門音源信号のピッチを変更し、その後に、決定した等価フィルタを再度適用することにより達成される。

ピッチに加えて、以下のいずれかまたはすべてを含む他の操作を、声門音源信号に対して任意に適用してもよい。
i. 声帯損傷に伴う唸り声や耳障りな声
ii. 気息音
iii. ビブラート
第一のケースにおいて、唸り声や耳障りな声は、ゲーム内キャラクタに対するダメージを反映するために使用したり、または、例えば、キャラクタがヘビースモーカーであったことを示唆したりするために使用され、音源フィルタ合成での声門音源信号に対して歪み効果を加えることにより実現されてもよい。

第二のケースにおいて、気息音は、キャラクタが敵に近付いているときや、見つけられてしまう危険があるときに使用され、例えば、声門音源信号を適宜、適切な形のノイズと混合することによって、普通の発声からささやき声まで変化させることができる。

第三のケースにおいて、声門音源信号に対して低周波ピッチの振動を加えることによって、ビブラートを働かせる。

ダイアログに対するこのような質的な操作を制御するために、いくつかのパラメータが使用可能である場合、これらのパラメータは別々にコントロールされるか、あるいは、予め決められた方法でグループ化され、例えばソフトな唸り声や不快な耳障りな声、というような効果をもたらす。

さらに、それぞれの場合において、唸り声、気息音、およびビブラートの各レベルに対する異なるエンベロープは、まさに振幅、ピッチ、および継続時間について上記で説明したように事前設定することが可能である。同様に、これらのエンベロープは、ダイアログの個々の音節、すべてのワード、すべてのラインに対して適用可能である。

例えばコーラス効果のように、声門音源信号に対し他の修正を施すことも適宜予想されることは当業者にとっては言うまでもないことである。

同様に、例えば鼻声の音声を作るために、等価フィルタの共振特性に対してわずかな修正を加えることも可能である。

ここで図２も参照すると、本発明の実施形態において、録音された発話に付随する変換メタデータを生成する方法は、
i. 録音された発話における音節を識別するステップ（Ｓ１）と、
ii. 録音された発話における一つまたは複数の音節を変換するための一つまたは複数の変換プロファイルであって、上述した変更のうちの一つまたは複数を定義する変換プロファイルを構成するステップ（Ｓ２)と、
iii. 好ましくは、録音された発話の部分に対する一つまたは複数の時間的な位置と、これらの位置決めされた時間において、どの変換（変更）を適用するかを示すインジケータとを含む変換メタデータを備える少なくとも第一ファイルを作成するステップ（Ｓ３)とを備える。

本発明の実施形態において、音節は、適切に整えられた、隠れマルコフモデル（ＨＭＭ)を使用することによって識別される（すなわち、選出あるいはセグメント化される）。例えば、ローレンス・Ｒ・ラビナー、「A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition」, IEEE会議録, 77(2), 257〜286頁, 1989年2月、特に275から276頁を参照。

ＨＭＭは、いくつかの観察された現象の特徴を表わす一連の「状態」から構成される。ＨＭＭは、ある状態にとどまるか、あるいは観察された現象の挙動を最も良く表す他の状態に遷移するかについての統計的な確率モデルを構築する。

本発明の実施形態において、これらの状態は、入力音の周波数表現を使用し、各々のＨＭＭは、与えられた音節に対する周波数表現の漸進的変化をモデル化する。それから、周知の検索アルゴリズムを用いて、観察された音を再生する最も高い可能性を有する状態機械をどのＨＭＭが構築しているかを決定することにより、音節が識別される。

人工神経回路網というような他の周知の学習分類システムをＨＭＭの代わりに使用できることは、当業者にとっては言うまでもないことである。

本発明の他の実施形態においては、有声母音が発話内のどの時点に存在するかを決定するために周波数分析が使用される。有声発話は、均一に間隔を置かれた一連の高調波周波数を生成し、それは櫛形フィルタによって検出できる。櫛形フィルタは、周波数において同じように均一に間隔が置かれた一連の検出器である。フィルタセット全体に亘って強い信号が見つかるまで、この間隔を調整することによって、高調波のピッチ離隔距離（従って、その声の基本ピッチ）を見出すことができる。しかし、子音、破裂音、および声門閉鎖音は、母音により生成される高調波構成を乱す。音節は、一般的に有声母音（または「y」のような疑似母音）の周辺に中心もつということに基づいて、この変化を使って、音節位置を近似することができる。このような高調波のセット（すなわち、この種の母音と一致しているセット）の検出を利用して、音節内でのポジションを識別することができる。このような一連のポジションを、他の連続音声ファイルセクション（すなわち、ワードに相当するセクション）内で取得できれば、そのセクションの長さを検出された音節の数で単純に割ることにより、個々の音節への分割を近似することができる。

全体の計算負荷を軽減させるために、このような分析の要素を、任意にかつ適切に、ピッチ同期波形重畳加算機能と共有してもよいことは当業者にとっては言うまでもないことである。

さらに、ワード間およびワード内で比較的静寂な期間は、音節の境界を示しており、これは振幅の閾値を使用することにより容易に検出可能である。例えば、閾値の設定は、録音されたダイアログの最初の数十ミリ秒内（一般的に全く発声されていない）の平均振幅を決定し、その後、この振幅の倍数になるように閾値を設定することにより行われる。これに代わる音声活動検出方法は、当該技術分野において周知である。

しかしながら、定義済みの強度、ピッチ、継続時間、および他の変換プロファイル要素は、複数の音節に亘ってもよいことは当業者により認められる。例えば、単語に基づくプロファイルも本発明の範囲内にあると考えられる。従って、音節レベルの識別は、このような実施形態においては必須ではない。

強度、ピッチ、または継続時間に対する均一の変更、ポイントの変更、またはエンベロープの変更、あるいは、唸り声、気息音、またはビブラート等の質的変更は、一つの音節またはワードに亘って適用される場合、便宜上、全体変換プロファイルのプロファイル要素と呼ばれる。

本発明の実施形態において、変換プロファイルを構成する際、不連続性を限定するために制限が与えられる。例えば、増加ピッチプロファイル要素を最初の音節に適用し、均一なピッチ減少を次の音節に適用すると、ピッチにおいて、好ましくないジャンプが生じる場合がある。このような場合、定義されたピッチ傾斜閾値を超えてしまうことを避けるために、ピッチプロファイル要素は音節の間で補間される。結果として、ピッチにおける見かけ上の変化が大きければ大きいほど、より多くの補間期間が各音節上に侵入して滑らかな遷移をもたらす。任意に、ピッチ傾斜閾値は、ユーザ定義可能であってもよく、また、全体的にまたは特定のプロファイル要素のペアに対して、同様の補間が再定義されてもよい。

同様の制約は、振幅または継続時間の変化に適用されてもよい。

重要なのは、加えられる修正を制限して、録音されたダイアログ内の相対的なフォルマント周波数分散が主として維持されることを保証し、修正されたダイアログが同一の声を使用していると認識できるようにすることである。

とりわけ、ＰＳＯＬＡ法は、サンプリングレートを変更するよりはむしろ、信号内で使用される周期セグメントの発生周波数を変えることによって、ピッチシフティングを達成するので、相対的なフォルマント構造を維持する。従って、周期セグメントは、それらのオリジナルのスペクトル包絡線を維持する。

同様に、声門音源信号のピッチは、声道によるフィルタ作用からは独立して変更可能であるため、物理的モデル化は、フォルマント構造にあまり影響しない。

再び図１ａおよび図１ｂを参照すると、もう一つの方法として、あるいは、さらに追加の方法として、強度、ピッチ、および他の変換プロファイルの各々の一部またはすべては、変換プロファイル形式を定義するためのフリーハンド・インターフェースを用いてユーザによって定義されてもよい。このような定義は、音節境界全体に対して効果的な連続性を提供する。

プロファイル要素および／またはフリーハンドプロファイルに基づく変換プロファイルは、メタデータのセットとして録音されたダイアログに関連づけられる。これは、（ａ）好ましくは同じ記録媒体に保存されるリンクされたメタデータファイルの形式、（ｂ）関連する音声データに対するプリアンブルまたはポストアンブルとして、あるいは（ｃ）音声データフォーマットの一部を形成するいわゆるユーザービットあるいはユーザーデータ領域等のような、様々な周知の方法で、音声データに対応づけて保存される。

上記で概説した定義済みプロファイル要素に基づく変換プロファイルの場合、これは、ダイアログおよび／または全体の録音音声ファイル内の各々に対する開始ポイントを少なくとも定義するタイミングデータと共に、適用すべき適切なパラメータデータをもったプロファイル要素のリスト形式をとってもよい。尚、この点に関し、ゲーム内ダイアログは、（下記の実施例の場合のように）ダイアログの各ラインまたは小さいグループのダイアログのラインに対して個々にアクセス可能なファイルの形式で保存されることが多い。タイミング情報は、秒数、サンプル数、バイト、またはワードオフセットなどとして記録される。変更は、（必要に応じて）変更の種類の基準（例えば振幅増加）に従って、ゲインのデシベル（ｄＢ）、サンプル乗数、ピッチ乗数などの適切なフォーマットにより特定されてもよい。典型的に、各々の変更は、それに関連するさまざまなパラメータを有する。以下の例において、時間は、音声ファイルの開始からのオフセットとしてビデオフレーム（分：秒：フレーム）により測定される。変換の種類に応じて、その変換を定義するために含まれなければならない特定データの性質が指定されるということがわかる。これらの（変換を定義している）データは、変換プロファイルとして、または一旦メタデータとして具現化されたのであれば、変換プロファイルを定義しているメタデータとして考慮されてもよい。これら例示において、各変換は、利用可能な変換のリストまたはセットから（例えば）ユーザによって選択された定義済みプロファイル要素（例えば「振幅増加」）を参照する。しかしながら、下記のようにフリーハンド変換もまた定義することが可能である。例えば利用可能なエモーションタグのリストからの、（以下に示すような）エモーションタグもまた、各変換によって伝えられるエモーションを示めすために、メタデータ内に含めることができる。暗に示されているエモーションの概念上の「程度」もまた含めることができる。これは、予め定めたものではあるが、任意のスケール上にあって、そのエモーションの異なる程度を伝える必要がある場合は、その変換をゲーム環境内で修正する(例えば強調する）ことを可能とする。

Sound_file_1
Transformation_1
start_time: 00:00:00
end_time: 00:10:00
type: amplitude ramp
start_gain: 0dB
end_gain: 10dB
emotion: surprise/degree=10
Transformation_2
start_time: 00:01:00
end_time: 00:02:23
type: constant pitch change
pitch_mult 1.2
emotion: excitement/degree=3
Transformation_3
etc ...
Sound_file_2
Transformation_l
etc ...

上に並べたパラメータは、ユーザによって調整可能であることは言うまでもない。変換を定義する期間は、ユーザによって選択可能であるか、または音節および／またはラインを検出する過程で決定してもよいと理解される。

上記のように、ダイアログの各ラインは、別々にアクセス可能なファイルまたはファイルパートとして録音することが可能である。あるいは、ダイアログの大部分を、ワードと非ワード間を区別するために単純な振幅閾値を使って、ワード間スペース（ギャップ）の機械検出によってラインに分割することも可能である。もし、平均のワード間ギャップよりかなり長い（例えば三倍長い）ワード間ギャップが生じた場合、このようなギャップがダイアログの新しいラインの開始を表わすとして任意に決定できる。

フリーハンド（ユーザー定義）の（例えば、これは編集インターフェースを介してグラフィック・タブレットを使用して作られる）プロファイルについては、これらは曲線近似が可能であり、結果として生じるスプライン形式等のカーブは、プロファイル要素と同じようにパラメータ的に表現される。あるいは、フリーハンドプロファイルは、再生時の再構築のために、比較的低いサンプルレートでサンプリングすることが可能である（例えば、５ミリ秒毎に行われるが、原則としてユーザが受け入れ可能な修正であればいかなるレートでもよい）。

例えば、非圧縮パルスコード変調の音声データを使用しているマイクロソフトウェーブファイル等の、リソース・インターチェンジ・ファイル・フォーマット（ＲＩＦＦ）で伝送できる音声データに対して、ＲＩＦＦファイルにより、フォア・キャラクタ・コード（ＦＣＣ）フォーマットを使ってメタデータの埋め込みが可能となる。変換プロファイルのためのメタデータ・フォーマットの例は、下記のようになる。

[FCC="RIFF"][size of chunk][FCC="WAVE"] //標準的なRIFF-WAVEヘッダ
[FCC="LIST"][size of chunk] [FCC="dpsp"] //検出されたピッチ同期ポイント
のリスト
[FCC="dpin"][size of chunk]<Custom meta>
[FCC="dpin"][size of chunk]<Custom meta>
[FCC="dpin"][size of chunk]<Custom meta>
：
<EndOfFile>

<Custom meta>フィールドは、サンプルオフセットに関するタイミングデータと、プロファイル要素データとを含む。

ＲＩＦＦファイルの代わるものとしては、例えば、このデータとメタデータの拡張可能なマークアップ言語（ＸＭＬ）エンコーディングが含まれる。

上記のＲＩＦＦの例のように、このようなメタデータセットは、録音ダイアログに隣接して埋め込まれてもよく、録音ダイアログとインターリーブされるかエンコードされてもよく、ルックアップテーブル等を介して録音ダイアログに関連づけられた分離オブジェクトであってもよいことは当業者にとっては言うまでもないことである。

録音ダイアログを修正するためのそれぞれ異なる変換プロファイルを表わす複数のメタデータセットが、一つの録音に対応づけられてもよい。

さらに、各修正のためのメタデータセットは、修正によって録音ダイアログ内に吹き込まれる感情の種類を示す一つまたは複数のタグを備えてもよい。このようなタグは、例えば「興奮している」とか「怖い」等の特定の感情の識別、および／または、プラス／マイナスのエモーションスケール上のどこに修正があるのかの明示をしてもよい。任意に、これらのタグは、再生中にゲームが使用する標準的なソフトウェアライブラリによって容易に識別できるように、標準的なセットに従うものである。

ここで図３を参照すると、ゲーム内での再生中に、ダイアログ録音を備える音声ファイル１０とそれに関連づけられているメタデータセット２０が選択される。

任意に、全体的な成功やキャラクタの強さ等のゲームの現在のパラメータに依存して、メタデータセットは、そのエモーションタグに従って複数の関連メタデータセットの中から選択される。例えば、プレイヤーのキャラクタが不調である場合、マイナスのエモーションスケール値がタグ付けされたメタデータセットが選択される。同様に、事前に準備されたゲーム内イベントにおいて、恐ろしいモンスターに近付く場合、「怖い」タグを伴ったメタデータセットを選択することになってもよい。

またコンビネーションアプローチも想定される。例えば、プレイヤーのキャラクタが順調であれば、ゲームは、モンスターが現れた場合に「怖い」タグを伴ったメタデータブロックを選択するよりはむしろ、「わくわくする」タグを伴ったものを選択する。この場合、「わくわくする」と「怖い」は、プラスとマイナスのエモーションスケール値に対応する、スクリプトに適した選択肢であり、その値は、スクリプトされたイベント時点のゲーム内パラメータに基づき決められる。

同様に、ある一つの録音の異なる部分に対応する複数のエモーションタグは、録音のどこで感情が変化するかを示す関連付けられたタイムスタンプを有すると想定される。

図３において、音声ファイルが読み込まれると、対応するメタデータもアクセスされる。音声ファイル１０のデータは、上記で説明したようにメタデータセット内の変換プロファイルに従って調整され、音声出力３０として再生される。

その代わりに、またはこれに加えて、ゲームからのパラメータ、ゲーム内に設定されたイベント、または上記に概説したその二つの組合せを、選択されたメタデータセット内の変換プロファイルをさらに修正するために用いることができる。それによってゲーム従属コンテクスト４０を提供する。例えば、もし有効なメタデータセットが、所望のエモーションスケール値を正確にカバーしていない場合、適宜、メタデータ内の変換プロファイル・パラメータに対して変更を適用する。例えば、メタデータセットが少し疲れたように聞こえるようにダイアログ録音に対して変更を行う場合、現在ゲームキャラクタが疲れきっているのであれば、既存の修正を推定して声がもっと疲れたように聞こえるように、キャラクタの疲労度合に比例してメタデータ内の要素パラメータを増加させることが可能である。同様に、ゲーム内エモーションレベルをよりよく近似するために、メタデータセット間でパラメータが補間されてもよい。

同様に、本発明の実施形態においては、ゲームは、録音されたダイアログを修正する前に、メタデータセット内のパラメータに対してわずかにランダムなバリエーションを与える。これにより、すべてのゲーム内パラメータが同一になる可能性を軽減し、よって、例えば保存されたゲームを同じポイントで繰り返しリロードするときに同一の修正を適用する可能性を軽減する。

任意に、ランダムなバリエーションの程度は、保存されたゲーム位置からどのくらい近い時間にゲームを開始（リロード）したかの関数であってもよい。例えば、ゲーム再開後の第一のダイアログ出力には、かなり大幅な不規則変動を与え、第二のダイアログにはやや少ない変動を、そして、第三のダイアログには、ほとんど変動を与えない。これにより、修正における感情表現の微妙さが、ランダムなバリエーションによって消されるのを避けるのは当然のこととして、プレイヤーに対して最もうっとうしいダイアログの繰り返しを軽減できる。この不規則変動は、その代わりとして、単にリロードからの時間の関数であってもよいということは当業者に明らかである。不規則変動の程度は、それによって、影響を受けるプロファイル要素の数および／またはプロファイル要素が変更される量に関連してもよいことも同様に明らかである。同じように、このようなランダムなバリエーションは、選択されたメタデータセットがない場合にも、利用可能な定義済みのプロファイル要素のいくつかまたはすべてからのランダムな構成およびパラメータ化によって、適用可能であることも明らかである。

本出願の実施例において、ゲーム内キャラクタに対するリップシンクは、録音されたダイアログを基準にして実行される。従って、継続時間プロファイル要素を備える選択されたどのメタデータ情報も、修正されたダイアログに適合するように、リップシンクパターンを修正するために使用される。例えば、特定の音節に関する振幅の増加または減少は、その音節が再生されるときに、ゲームキャラクタが開けた口の広げ具合または締め具合が伴ったものでなければならない。ピッチが増加すると、それに伴ってキャラクタの開いた口が横方向に狭められる。音節の継続時間を変更することにより、キャラクタの口が開いている継続時間を変更することなどもある。

任意に上記に加え、選択された強度、ピッチ、およびエモーションタグのメタデータもまた、ゲーム内のリップシンク処理（および、分けて考えるならば顔のアニメーション処理）に渡される場合がある。

強度およびピッチのメタデータは、キャラクタの唇および／または顔の動きを変更するために使用され、その動きに関連づけられている変更されたダイアログの強度とピッチを反映し、それによって、メタデータにより提供された音声変動に従って視覚変動が提供される。

同様に、一つまたは複数のエモーションタグは、全体的な表情を選択するために使用され、その後、リップシンク処理により修正される。これもまた、「幸せ」や「怖い」といったようなはっきりと区別ができる感情の種類、あるいはエモーションスケール値、または両方が存在する場合は、その組み合わせに基づいてもよい。

ここで図４を参照して要約すると、録音から修正されたダイアログを生成する方法は、
i. 録音されたダイアログをストレージから読み出すステップ（Ｓ４．１）と、
ii. 録音されたダイアログに関連づけられたメタデータセットをストレージから読み出すステップ（Ｓ４．２）と、
iii. メタデータ内の強度、ピッチ、および継続時間プロファイルに従って、アクセスされた録音に変換を適用するステップ（Ｓ４．３）と、
iv. 変換された録音を出力するステップ（Ｓ４．４）と、を備える。

この方法は、任意に、上記のステップに対して一つまたは複数のさらなるステップまたは修正を含んでもよい。
v. メタデータセット内のエモーションデータとゲーム内パラメータの間の対応関係の度合に応じて、どの関連づけられたメタデータをストレージから読み出すべきかを選択するステップと、
vi. 選択されたメタデータから抽出された強度、ピッチ、および継続時間の変換プロファイルのいずれかまたはすべてを調整して、ゲーム内のパラメータにより対応するようにするステップと、
vii. 録音ダイアログを伝えるキャラクタの顔をアニメ化する機能を果たすグラフィック処理に対し、強度、ピッチ、継続時間、およびエモーション情報のいずれかまたはすべてを引き渡すステップ。

ここで図５を参照すると、本発明によるエンタテインメント装置１００の実施形態についての要約した概略図が示されている。エンタテインメント装置１００は、システム・ユニットに接続可能なさまざまな周辺デバイスを備えることが可能である。

エンタテインメント装置１００は、エモーション・エンジン１１０と、グラフィックス・シンセサイザ１９０と、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）を有するサウンドプロセッサ・ユニット１３０と、読み出し専用メモリ（ＲＯＭ）１４１と、コンパクトディスク（ＣＤ）およびデジタル多用途ディスク（ＤＶＤ）のリーダ１６０と、ラムバス・ダイナミック・ランダム・アクセス・メモリ（ＲＤＲＡＭ）ユニット１４２と、専用ＲＡＭ１７５を有する入出力プロセッサ（ＩＯＰ）１７０とを備える。（任意に）外付けハードディスクドライブ（ＨＤＤ）１８０が接続されてもよい。

入出力プロセッサ１７０は、二つのユニバーサル・シリアル・バス（ＵＳＢ）ポート１７１およびｉＬｉｎｋまたはＩＥＥＥ１３９４ポート（ｉＬｉｎｋは、株式会社ソニーがＩＥＥＥ１３９４標準を実現したもの）を有する。ＩＯＰ７００は、ＵＳＢ、ｉＬｉｎｋ、およびゲームコントローラのデータトラフィックのすべてを取り扱う。例えば、ユーザがゲームをしているときに、ＩＯＰ１７０はゲームコントローラからデータを受信し、このデータをエモーション・エンジン１１０へ送り、エモーション・エンジンは、それに従ってゲームの現在の状況を更新する。ＩＯＰ１７０は、迅速なデータ転送速度を容易に実現するダイレクト・メモリ・アクセス（ＤＭＡ）アーキテクチャを有する。ＤＭＡは、ＣＰＵを通過させずにメインメモリからデバイスへデータ転送を行う。ＵＳＢインターフェースは、オープン・プライマリ・インターフェース（ＯＨＣＩ）と互換性があり、１．５Ｍｂｐｓから１２Ｍｂｐｓまでのデータ転送速度を処理できる。これらのインターフェースが装備されているということは、つまり、エンタテインメント装置１００は、ビデオカセットレコーダー（ＶＣＲｓ）、デジタルカメラ、マイクロフォン、セットトップボックス、プリンタ、キーボード、マウスおよびジョイスティック等の周辺デバイスと潜在的に互換性があることを意味する。

ＵＳＢポートとは別の、二本の他のポート１７２、１７３は、ゲーム関連の情報を格納するための専用不揮発性ＲＡＭメモリーカード１４３、手持ち式ゲームコントローラ１４０、または、例えばダンス・マット等の手持ち式コントローラに似たようなデバイス（図示せず）の接続を可能とする専用ソケットである。

エモーション・エンジン１１０は、１２８ビット中央演算処理装置（ＣＰＵ）であり、特にゲームアプリケーション用の三次元（３Ｄ）グラフィックスを効果的にシミュレーションするために設計されたものである。エモーション・エンジンの構成要素は、データバス、キャッシュメモリ、およびレジスタを含み、いずれも１２８ビットである。これによって、大容量マルチメディアデータの迅速な処理を容易にする。これと比較すると、従来のＰＣは、基本６４ビットのデータ構造を有する。プレイステーション２の浮動小数点演算性能は、６．２ＧＦＬＯＰｓである。エモーション・エンジンはまた、ＭＰＥＧ２デコーダ回路を備え、３ＤグラフィックスデータとＤＶＤデータの同時処理を可能にする。エモーション・エンジンは、数学的変換およびトランスレーションを含む幾何学的計算を実行し、更に、例えば二つのオブジェクト間の接触の計算などのシミュレーションオブジェクトの物理的過程に関連する計算を行う。これによって、その次にグラフィックス・シンセサイザ１９０によって利用される画像レンダリングコマンドのシーケンスが作成される。画像レンダリングコマンドは、表示リスト形式で出力される。表示リストとは、描画コマンドのシーケンスであり、グラフィックス・シンセサイザに対して、どの初期グラフィックオブジェクト（例えば、点、線、三角形、スプライトなど）を画面上に描くか、および、どの座標に描くかを指示する。このように、典型的な表示リストは、頂点を描くためのコマンド、ポリゴン面に陰影をつけたり、ビットマップを描いたりする等のコマンドを含む。エモーション・エンジン１１０は、非同期で複数の表示リストを作成できる。

グラフィックス・シンセサイザ１９０は、エモーション・エンジン１１０によって作成された表示リストのレンダリングを行うビデオ・アクセラレータである。グラフィックス・シンセサイザ１９０は、複数の表示リストを処理、追跡、および管理するグラフィックス・インターフェースユニット（ＧＩＦ）を含む。グラフィックス・シンセサイザ１９０のレンダリング機能は、選択肢となるいくつかの標準出力画像フォーマット、すなわちＮＴＳＣ／ＰＡＬ、高精細度デジタルテレビ、およびＶＥＳＡをサポートする画像データを作成できる。一般的に、グラフィックス・システムのレンダリング能力は、それぞれがグラフィックス・プロセッサ内に設けられたピクセルエンジンとビデオメモリの間のメモリ帯域幅により定められる。従来のグラフィックス・システムは、外付けのビデオ・ランダム・アクセス・メモリ（ＶＲＡＭ）を使用しており、これはオフチップバスを介してピクセルロジックに接続されるので、有効な帯域幅を制限する傾向にある。しかしながら、主要なエンタテインメント装置１００のグラフィックス・シンセサイザ１９０は、単一の高性能チップ上のピクセルロジックおよびビデオメモリを提供し、これによって、毎秒３８．４ギガバイトという比較的大きいメモリアクセス帯域幅を可能にする。グラフィックス・シンセサイザは、理論的に、毎秒７５００万ポリゴンの最高描画容量を達成することが可能である。テクスチャ、ライティング、およびトランスペアレンシー等のあらゆるエフェクトを用いた場合であっても、毎秒２０００万ポリゴンの持続速度で連続して描画することが可能である。従って、グラフィックス・シンセサイザ１９０は、フィルム品質の画像を描画することができる。

サウンドプロセッサ・ユニット（ＳＰＵ）１３０は、事実上、本システムのサウンドカードであり、デジタル多用途ディスク（ＤＶＤｓ）に使用されるサウンドフォーマットであるデジタル・シアター・サラウンド（ＤＴＳ（登録商標））サウンドやＡＣ−３（ドルビーデジタルとしても知られる）のような３Ｄデジタルサウンドを認識できる。

対応するラウドスピーカー構成を伴うビデオモニターあるいはテレビ等のディスプレイおよびサウンド出力装置１５０は、グラフィックス・シンセサイザ１９０およびサウンドプロセッッサ・ユニット１３０に接続され、ビデオ信号およびオーディオ信号を受信する。

エモーション・エンジン１１０をサポートするメインメモリは、ランバス（Rambus）社製のＲＤＲＡＭ（ランバス・ダイナミック・ランダムアクセスメモリ）モジュール１４２である。このＲＤＲＡＭメモリー・サブシステムは、ＲＡＭ、ＲＡＭコントローラ、およびＲＡＭをエモーション・エンジン１１０に接続するバスを備える。

本発明の実施形態において、録音された発話に伴う変換メタデータを生成する方法のステップや、録音から修正されたダイアログを生成する方法に対応する要素は、ここで説明されるようなエンタテインメント装置または同様の汎用コンピュータにおいて、適切な方法で組み込まれてもよいことは言うまでもない。例えば、第一の汎用コンピュータは、録音された発話に伴う変換メタデータを生成する方法を実施し、この変換メタデータは、録音から修正ダイアログを作成する方法を実施するよう動作可能なエンタテインメント装置１００へ入力される前に、光学媒体に保存されてもよい。他の適切なエンタテインメント装置１００は、ソニー（登録商標）プレイステーション３（登録商標）エンタテインメント機であると考えられる。

このようにして、本発明は適切な様式で実装され、適切な装置または動作を提供する。特に、ソフトウェア再構成のように、エンタテインメント装置１００または汎用コンピュータの既存のパーツを適合させることによって構築することが可能である。

こうして従来のエンタテインメント装置１００または類似の汎用コンピュータの既存のパーツを適合させることにより、例えば、その中の一つまたは複数のプロセッサを再プログラミングしてもよい。このようにして必要とされる適合は、フロッピー（登録商標）ディスク、光学ディスク、ハードディスク、ＰＲＯＭ、ＲＡＭ、フラッシュメモリ、またはこれらの、あるいは他の記録媒体との組み合わせ等のデータキャリアに保存される、または、イーサネット（登録商標）、ワイヤレスネットワーク、インターネット、またはこれらの、もしくは他のネットワークとの組み合わせ等のネットワーク上のデータ信号を介して送信される、プロセッサ実装可能な指示を備えたコンピュータプログラム製品の形態で実施される。

同様に、録音された発声に伴う変換メタデータを生成する方法についてのプロダクトは、ゲーム内に組み込まれ、または、ゲーム実行中に送信される。よって、これは、フロッピー（登録商標）ディスク、光学ディスク、ハードディスク、ＰＲＯＭ、ＲＡＭ、フラッシュメモリ、またはこれらの、あるいは他の記録媒体との組み合わせ等のデータキャリアに保存される、または、イーサネット（登録商標）、ワイヤレスネットワーク、インターネット、またはこれらの、もしくは他のネットワークとの組み合わせ等のネットワーク上のデータ信号を介して送信されるプロセッサ読み込み可能なデータを備えたコンピュータプログラム製品の形態をとる。

最後に、本発明の実施例は、以下の利点のいくつかまたはすべてをさまざまな形で提供できることは当業者にとって明らかである。
i. ダイアログを再録音する必要性の軽減。
ii. スタジオでダイアログを前処理する必要性の軽減。
iii. 記憶媒体にダイアログの追加的なバージョンを保存する必要性の軽減。
iv. ゲーム内環境に従ってダイアログ変換を選択することができる。
v. 明らかな反復性を減らすために出力ダイアログにおけるバリエーションを可能にする。
vi. 再生されるダイアログのエモーショナルコンテンツを反映するためにゲーム内キャラクタの修正を可能にする。

本発明の第一の態様において、音声再生方法は、ビデオゲームプログラム実行時の音声再生方法であって、それぞれの変換プロファイルデータと、音声録音の再生以前のステップとして音声録音のどこに当該変換プロファイルデータを適用すべきかを示すロケーションデータとを含み、音声録音の音声特性を変換し、音声録音に付随して記憶される変換プロファイル、を備える複数のメタデータセットから、ビデオゲームプログラム実行時に再生するための音声録音に関連するメタデータセットを、ビデオゲームの現在のパラメータと、前記メタデータセットの変換プロファイルに従って修正される際に前記音声録音によって伝えられるエモーションを示すメタデータセットに関連するそれぞれのエモーションタグに基づいて選択するステップと、前記音声録音と前記選択された当該録音に関連するメタデータセットをストレージから読み出すステップと、変換された音声録音を生成するため、前記変換プロファイルに従って録音に変換を適用するステップと、前記変換された音声録音を再生するステップと、を備える。

Claims

音声処理方法であって、
音声録音の音声特性を変換するための、一つまたは複数の変換プロファイルを構成するステップと、
前記変換プロファイルまたは各変換プロファイルに対し、それぞれの変換プロファイルデータと、録音のどこに該変換プロファイルデータを適用すべきかを示すロケーションデータとを含むメタデータセットを生成するステップと、
対応する録音に関連づけて前記メタデータセットまたは各メタデータセットを保存するステップと
を備えることを特徴とする音声処理方法。
請求項１に記載の音声処理方法であって、
変換プロファイルは、
ユーザによって調整可能なパラメータを持つ、定義済みプロファイル要素のシーケンスを少なくとも一つ有することを特徴とする音声処理方法。
請求項２に記載の音声処理方法であって、
前記定義済みプロファイル要素の少なくともいくつかは、
i. 振幅、ピッチ、または継続時間の均一な変更
ii. 振幅またはピッチにおける増加変化
iii. 振幅またはピッチにおける減少変化
iv. 振幅またはピッチにおけるピーク位置の変化
v. 振幅におけるポイント変化
vi. 継続時間における非線形変更
から構成されるリストから選択された一つであることを特徴とする音声処理方法。
請求項１に記載の音声処理方法であって、
変換プロファイルは、
少なくとも一つのユーザ定義プロファイルを備えることを特徴とする音声処理方法。
請求項１から４のいずれか一項に記載の音声処理方法であって、
一つまたは複数の変換プロファイルを構成する前のステップであって、録音における発話音節の場所を識別するステップをさらに備えることを特徴とする音声処理方法。
請求項５に記載の音声処理方法であって、
録音における発話音節の場所を識別するステップは、
隠れマルコフモデルによって行われることを特徴とする音声処理方法。
請求項５に記載の音声処理方法であって、
録音における発話音節の場所を識別するステップは、
有声音の高調波の発生を検出するために動作可能な櫛形フィルタによって行われることを特徴とする音声処理方法。
請求項５から請求項７のいずれかに記載の音声処理方法であって、
識別された音節に対応する録音のセグメントに適用される変換プロファイルにおいて使用するための、定義済みプロファイル要素を選択するステップを備えることを特徴とする音声処理方法。
請求項１から８のいずれか一項に記載の音声処理方法であって、
録音されたダイアログをラインに配列するステップを備えることを特徴とする音声処理方法。
請求項１から９のいずれか一項に記載の音声処理方法であって、
変換時に、録音内の発話の相対的なフォルマント構造を実質的に維持するために、変換プロファイルを制限するステップを備えることを特徴とする音声処理方法。
請求項１から１０のいずれか一項に記載の音声処理方法であって、
前記メタデータセットは、さらに、
当該メタデータセットの変換プロファイルに従って修正されるときに、録音によって伝えられるエモーションを示す第一のタグを少なくとも有することを特徴とする音声処理方法。
請求項１０に記載の音声処理方法であって、
タグは、
i. エモーション状態の設定リスト内にあるエモーション状態、および
ii. エモーション状態のプラスまたはマイナス範囲を示すスケール上の値
から構成されるリストから選択される一つまたは複数を示すことを特徴とする音声処理方法。
請求項１から１２のいずれか一項に記載の音声処理方法であって、
録音と、当該録音に関連づけられたメタデータセットであって、変換プロファイルを含むメタデータセットとをストレージから読み出すステップと、
前記変換プロファイルに従って録音データに対して変換を適用するステップと、
変換された録音を出力するステップと
を備えることを特徴とする音声処理方法。
音声処理装置であって、
構成手段と、
メタデータセット生成手段と、
ストレージ書込手段と
を備え、
当該音声処理装置は、
請求項１から請求項１３のいずれか一項に記載の方法を実行するよう動作可能であることを特徴とする音声処理装置。
音声再生方法であって、
録音と、当該録音に関連づけられたメタデータセットであって、変換プロファイルを含むメタデータセットとをストレージから読み出すステップと、
前記変換プロファイルに従って録音データに対して変換を適用するステップと、
変換した録音を出力するステップと
を備えることを特徴とする音声再生方法。
請求項１５に記載の音声再生方法であって、
i. 振幅
ii. ピッチ
iii. 継続時間
から構成されるリストから選択される、一つまたは複数の録音の特性に対して、変換が適用されることを特徴とする音声再生装置。
請求項１５に記載の音声再生方法であって、
前記変換プロファイルは、一つまたは複数のプロファイル要素を備え、
前記定義済みプロファイル要素の少なくともいくつかは、
i. 振幅、ピッチ、または継続時間の均一な変更
ii. 振幅またはピッチにおける増加変化
iii. 振幅またはピッチにおける減少変化
iv. 振幅またはピッチにおけるピーク位置の変化
v. 振幅におけるポイント変化
vi. 継続時間における非線形変更
から構成されるリストから選択されることを特徴とする音声処理方法。
請求項１５に記載の音声再生方法であって、
変換プロファイルは、
少なくとも一つのユーザ定義プロファイルを備えることを特徴とする音声再生方法。
請求項１５から請求項１８のいずれか一項に記載の音声再生方法であって、
録音に関連づけられた複数のメタデータセットの中から、メタデータセットの各々のエモーションタグに基づいて、メタデータセットを一つ選択するステップを備えることを特徴とする音声再生方法。
請求項１９に記載の音声再生方法であって、
前記エモーションタグは、
対応するメタデータセットの変換プロファイルに従って修正がなされるときに、録音によって伝えられる特定のエモーションを示すことを特徴とする音声再生方法。
請求項１９に記載の音声再生方法であって、
前記エモーションタグは、
対応するメタデータセットの変換プロファイルに従って修正がなされるときに、録音で伝えられるプラスまたはマイナスのエモーションの程度を示すエモーションスケール上の値であることを特徴とする音声再生方法。
請求項１５から２１のいずれか一項に記載の音声再生方法であって、
継続時間の変更に関する変換プロファイルデータに従って、ビデオゲームキャラクタが発声するダイアログが修正されるときに、当該変換プロファイルデータに従ってビデオゲームキャラクタのリップシンクを修正するステップを備えることを特徴とする音声再生方法。
請求項１５から２２のいずれか一項に記載の音声再生方法であって、
振幅およびピッチのいずれかまたは両方の変更に関する変換プロファイルデータに従って、ビデオゲームキャラクタが発声するダイアログが修正されるときに、当該変換プロファイルデータに従ってビデオゲームキャラクタのフェイシャル・アニメーションを修正するステップを備えることを特徴とする音声再生方法。
請求項１５から２３のいずれか一項に記載の音声再生方法であって、
ビデオゲームキャラクタが発声するダイアログが、選択されたメタデータセットと関連づけられた変換プロファイルデータに従って修正されるときに、選択されたメタデータセットのエモーションタグに従ってビデオゲームキャラクタの表情を修正するステップを備えることを特徴とする音声再生方法。
請求項１５から２４のいずれかに記載の音声再生方法は、
録音を出力するビデオゲームの一つまたは複数のパラメータの値に従って、録音に対して変換を適用する前に変換プロファイルの一つまたは複数の値を変更するステップを備えることを特徴とする音声再生方法。
請求項１５から２５のいずれか一項に記載の音声再生方法であって、
録音に対して変換を適用する前に変換プロファイルの一つまたは複数の値を、不規則に変更するステップを備えることを特徴とする音声再生方法。
請求項２６に記載の音声再生方法であって、
i. 不規則変化の程度、および
ii. 不規則変化の回数
のいずれかまたは両方は、録音を出力しているビデオゲームを最後にリロードしてからのゲームプレイの継続時間に依存することを特徴とする音声再生方法。
請求項１５から２４のいずれか一項に記載の音声再生方法であって、
一つまたは複数の利用可能な定義済みプロファイル要素から、変換プロファイルを不規則に構成するステップを備えることを特徴とする音声再生方法。
請求項１５から２８のいずれか一項に記載の音声再生方法であって、
変換時に、録音の相対的フォルマント構造を実質的に維持するために、変換プロファイルに対するいかなる変更も制限することを特徴とする音声再生方法。
音声再生装置であって、
ストレージ読取手段と、
変換処理手段と、
音声出力手段と
を備え、
当該音声再生装置は、
請求項１３から２７のいずれか一項に記載の方法を実行するよう動作可能であることを特徴とする音声再生装置。
コンピュータ読取可能な指示を備えるデータキャリアであって、
コンピュータによって実行された場合に、請求項１から１３のいずれか一項に記載の音声処理方法をコンピュータに実行させることを特徴とするデータキャリア。
音声録音と、
前記音声録音に関連づけられた少なくとも第一のメタデータセットと
を備え、
前記メタデータセットは、
請求項１から１３のいずれかに従う音声処理方法により生成されることを特徴とするデータキャリア。
コンピュータ読取可能な指示を備えるデータキャリアであって、
コンピュータによって実行された場合に、請求項１５から２９のいずれか一項に記載の音声再生方法をコンピュータに実行させることを特徴とするデータキャリア。
コンピュータ読取可能な指示を備えるデータ信号であって、
コンピュータによって実行された場合に、請求項１から１３のいずれか一項に記載の音声処理方法をコンピュータに実行させることを特徴とするデータ信号。
音声録音と、
前記音声録音に関連づけられた少なくとも第一のメタデータセットと
を備え、
前記メタデータセットは、
請求項１から１３のいずれかに従う音声処理方法により生成されることを特徴とするデータ信号。
コンピュータ読取可能な指示を備えるデータ信号であって、
コンピュータによって実行された場合に、請求項１５から２９のいずれか一項に記載の音声再生方法をコンピュータに実行させることを特徴とするデータ信号。
音声処理装置であって、
音声録音の音声特性を変換するための一つまたは複数の変換プロファイルを構成するためのプロファイル構成部と、
前記変換プロファイルまたは各変換プロファイルに対し、それぞれの変換プロファイルデータと、録音のどこに該変換プロファイルデータを適用すべきかを示すロケーションデータとから構成されるメタデータセットを生成する生成部と、
対応する録音に関連づけて前記メタデータセットまたは各メタデータセットを保存するメタデータ記憶部と
を備えることを特徴とする音声処理装置。
音声再生装置であって、
録音と、前記録音に関連づけられたメタデータセットであって、変換プロファイルを含むメタデータセットとをストレージから読み出すストレージ読取部と、
前記変換プロファイルに従って録音データに対して変換を適用する変換部と、
変換した録音を出力する出力部と
を備えることを特徴とする音声再生装置。