JP2013231999A - 音声録音における音声特性を変換するための装置および方法 - Google Patents
音声録音における音声特性を変換するための装置および方法 Download PDFInfo
- Publication number
- JP2013231999A JP2013231999A JP2013145999A JP2013145999A JP2013231999A JP 2013231999 A JP2013231999 A JP 2013231999A JP 2013145999 A JP2013145999 A JP 2013145999A JP 2013145999 A JP2013145999 A JP 2013145999A JP 2013231999 A JP2013231999 A JP 2013231999A
- Authority
- JP
- Japan
- Prior art keywords
- recording
- audio
- conversion
- profile
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000001131 transforming effect Effects 0.000 title abstract 2
- 230000009466 transformation Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000003860 storage Methods 0.000 claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims description 78
- 230000008451 emotion Effects 0.000 claims description 45
- 238000003672 processing method Methods 0.000 claims description 35
- 230000008859 change Effects 0.000 claims description 32
- 230000001788 irregular Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims description 2
- 238000000844 transformation Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004904 shortening Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001914 calming effect Effects 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007794 irritation Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/54—Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/66—Methods for processing data by generating or executing the game program for rendering three dimensional images
- A63F2300/6607—Methods for processing data by generating or executing the game program for rendering three dimensional images for animating game characters, e.g. skeleton kinematics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Abstract
【解決手段】音声処理方法は、音声録音の音声特性を変換するための一つまたは複数の変換プロファイルを構成し、各変換プロファイルに対してメタデータセットを生成する処理を備える。メタデータセットは、変換プロファイルデータと、録音のどこに変換プロファイルデータが適用されるべきかを示すロケーションデータとを備える。各メタデータセットは、対応する録音と関連づけて保存される。対応する音声再生方法は、録音と該録音に関連づけられたメタデータセットをストレージから読み出し、メタデータセットの変換プロファイルに従って録音データに変換を適用し、変換された録音を出力する処理を備える。
【選択図】なし
Description
コストの増加はいくつかの点で生じる。第一に、演技者を雇って録音を行う場合にコストがかかる。また、異なる市場向けにダイアログを異なる言語で録音しなければならない場合にはコストがさらに増加する。第二に、ゲームを実行しているコンピュータのための記憶領域の空きおよび処理資源という観点からもコストがかかる。これらのコストを制限あるいは削減できれば好都合である。
i. 一つの音節に亘る均一なゲインコントロール110、
ii. 一つの音節に亘る可変エンベロープのゲインコントロール(120、130)、および/または、
iii. 一つの音節内の短期(以下、「ポイント」)ゲインコントロール140、これは典型的には音節の開始位置または終了位置であり、音節の残りの部分は無変化のまま、または(図示しないが)上記に挙げたバリエーションiまたはiiうちのいずれかが施される。
i. 音節ごとまたは(図示するように)ラインごとに均一なピッチコントロール210、および/または、
ii. 音節ごとの可変エンベロープのピッチコントロール(220、230)
均一ピッチコントロール210は、ワード全体または個々の音節のいずれかに適用することが好ましいが、典型的には、ダイアログの全体ラインに適用されてもよい。
i. 一つの音節の延長(340)または短縮(350)
ii. ワード間のギャップの延長(320)または短縮(330)
音節(340、350)の延長または短縮は、線形であってもよく、非線形であってもよい。例えば、音節の初期、中期、または後期を引き伸ばすなど、音節の異なる部分を異なる程度で、さまざまに圧縮およびまたは拡張するプロファイルのセットによって非線形の変更が容易になる。これらは、例えば、あるワードを不明瞭に発音する、もしくはゆっくり話すために、または、母音を強調するために用いてもよい。また、継続時間制御は、適切なパラメータを用いて調整可能である。
i. 声帯損傷に伴う唸り声や耳障りな声
ii. 気息音
iii. ビブラート
第一のケースにおいて、唸り声や耳障りな声は、ゲーム内キャラクタに対するダメージを反映するために使用したり、または、例えば、キャラクタがヘビースモーカーであったことを示唆したりするために使用され、音源フィルタ合成での声門音源信号に対して歪み効果を加えることにより実現されてもよい。
i. 録音された発話における音節を識別するステップ(S1)と、
ii. 録音された発話における一つまたは複数の音節を変換するための一つまたは複数の変換プロファイルであって、上述した変更のうちの一つまたは複数を定義する変換プロファイルを構成するステップ(S2)と、
iii. 好ましくは、録音された発話の部分に対する一つまたは複数の時間的な位置と、これらの位置決めされた時間において、どの変換(変更)を適用するかを示すインジケータとを含む変換メタデータを備える少なくとも第一ファイルを作成するステップ(S3)とを備える。
Transformation_1
start_time: 00:00:00
end_time: 00:10:00
type: amplitude ramp
start_gain: 0dB
end_gain: 10dB
emotion: surprise/degree=10
Transformation_2
start_time: 00:01:00
end_time: 00:02:23
type: constant pitch change
pitch_mult 1.2
emotion: excitement/degree=3
Transformation_3
etc ...
Sound_file_2
Transformation_l
etc ...
[FCC="LIST"][size of chunk] [FCC="dpsp"] //検出されたピッチ同期ポイント
のリスト
[FCC="dpin"][size of chunk]<Custom meta>
[FCC="dpin"][size of chunk]<Custom meta>
[FCC="dpin"][size of chunk]<Custom meta>
:
<EndOfFile>
i. 録音されたダイアログをストレージから読み出すステップ(S4.1)と、
ii. 録音されたダイアログに関連づけられたメタデータセットをストレージから読み出すステップ(S4.2)と、
iii. メタデータ内の強度、ピッチ、および継続時間プロファイルに従って、アクセスされた録音に変換を適用するステップ(S4.3)と、
iv. 変換された録音を出力するステップ(S4.4)と、を備える。
v. メタデータセット内のエモーションデータとゲーム内パラメータの間の対応関係の度合に応じて、どの関連づけられたメタデータをストレージから読み出すべきかを選択するステップと、
vi. 選択されたメタデータから抽出された強度、ピッチ、および継続時間の変換プロファイルのいずれかまたはすべてを調整して、ゲーム内のパラメータにより対応するようにするステップと、
vii. 録音ダイアログを伝えるキャラクタの顔をアニメ化する機能を果たすグラフィック処理に対し、強度、ピッチ、継続時間、およびエモーション情報のいずれかまたはすべてを引き渡すステップ。
i. ダイアログを再録音する必要性の軽減。
ii. スタジオでダイアログを前処理する必要性の軽減。
iii. 記憶媒体にダイアログの追加的なバージョンを保存する必要性の軽減。
iv. ゲーム内環境に従ってダイアログ変換を選択することができる。
v. 明らかな反復性を減らすために出力ダイアログにおけるバリエーションを可能にする。
vi. 再生されるダイアログのエモーショナルコンテンツを反映するためにゲーム内キャラクタの修正を可能にする。
Claims (38)
- 音声処理方法であって、
音声録音の音声特性を変換するための、一つまたは複数の変換プロファイルを構成するステップと、
前記変換プロファイルまたは各変換プロファイルに対し、それぞれの変換プロファイルデータと、録音のどこに該変換プロファイルデータを適用すべきかを示すロケーションデータとを含むメタデータセットを生成するステップと、
対応する録音に関連づけて前記メタデータセットまたは各メタデータセットを保存するステップと
を備えることを特徴とする音声処理方法。 - 請求項1に記載の音声処理方法であって、
変換プロファイルは、
ユーザによって調整可能なパラメータを持つ、定義済みプロファイル要素のシーケンスを少なくとも一つ有することを特徴とする音声処理方法。 - 請求項2に記載の音声処理方法であって、
前記定義済みプロファイル要素の少なくともいくつかは、
i. 振幅、ピッチ、または継続時間の均一な変更
ii. 振幅またはピッチにおける増加変化
iii. 振幅またはピッチにおける減少変化
iv. 振幅またはピッチにおけるピーク位置の変化
v. 振幅におけるポイント変化
vi. 継続時間における非線形変更
から構成されるリストから選択された一つであることを特徴とする音声処理方法。 - 請求項1に記載の音声処理方法であって、
変換プロファイルは、
少なくとも一つのユーザ定義プロファイルを備えることを特徴とする音声処理方法。 - 請求項1から4のいずれか一項に記載の音声処理方法であって、
一つまたは複数の変換プロファイルを構成する前のステップであって、録音における発話音節の場所を識別するステップをさらに備えることを特徴とする音声処理方法。 - 請求項5に記載の音声処理方法であって、
録音における発話音節の場所を識別するステップは、
隠れマルコフモデルによって行われることを特徴とする音声処理方法。 - 請求項5に記載の音声処理方法であって、
録音における発話音節の場所を識別するステップは、
有声音の高調波の発生を検出するために動作可能な櫛形フィルタによって行われることを特徴とする音声処理方法。 - 請求項5から請求項7のいずれかに記載の音声処理方法であって、
識別された音節に対応する録音のセグメントに適用される変換プロファイルにおいて使用するための、定義済みプロファイル要素を選択するステップを備えることを特徴とする音声処理方法。 - 請求項1から8のいずれか一項に記載の音声処理方法であって、
録音されたダイアログをラインに配列するステップを備えることを特徴とする音声処理方法。 - 請求項1から9のいずれか一項に記載の音声処理方法であって、
変換時に、録音内の発話の相対的なフォルマント構造を実質的に維持するために、変換プロファイルを制限するステップを備えることを特徴とする音声処理方法。 - 請求項1から10のいずれか一項に記載の音声処理方法であって、
前記メタデータセットは、さらに、
当該メタデータセットの変換プロファイルに従って修正されるときに、録音によって伝えられるエモーションを示す第一のタグを少なくとも有することを特徴とする音声処理方法。 - 請求項10に記載の音声処理方法であって、
タグは、
i. エモーション状態の設定リスト内にあるエモーション状態、および
ii. エモーション状態のプラスまたはマイナス範囲を示すスケール上の値
から構成されるリストから選択される一つまたは複数を示すことを特徴とする音声処理方法。 - 請求項1から12のいずれか一項に記載の音声処理方法であって、
録音と、当該録音に関連づけられたメタデータセットであって、変換プロファイルを含むメタデータセットとをストレージから読み出すステップと、
前記変換プロファイルに従って録音データに対して変換を適用するステップと、
変換された録音を出力するステップと
を備えることを特徴とする音声処理方法。 - 音声処理装置であって、
構成手段と、
メタデータセット生成手段と、
ストレージ書込手段と
を備え、
当該音声処理装置は、
請求項1から請求項13のいずれか一項に記載の方法を実行するよう動作可能であることを特徴とする音声処理装置。 - 音声再生方法であって、
録音と、当該録音に関連づけられたメタデータセットであって、変換プロファイルを含むメタデータセットとをストレージから読み出すステップと、
前記変換プロファイルに従って録音データに対して変換を適用するステップと、
変換した録音を出力するステップと
を備えることを特徴とする音声再生方法。 - 請求項15に記載の音声再生方法であって、
i. 振幅
ii. ピッチ
iii. 継続時間
から構成されるリストから選択される、一つまたは複数の録音の特性に対して、変換が適用されることを特徴とする音声再生装置。 - 請求項15に記載の音声再生方法であって、
前記変換プロファイルは、一つまたは複数のプロファイル要素を備え、
前記定義済みプロファイル要素の少なくともいくつかは、
i. 振幅、ピッチ、または継続時間の均一な変更
ii. 振幅またはピッチにおける増加変化
iii. 振幅またはピッチにおける減少変化
iv. 振幅またはピッチにおけるピーク位置の変化
v. 振幅におけるポイント変化
vi. 継続時間における非線形変更
から構成されるリストから選択されることを特徴とする音声処理方法。 - 請求項15に記載の音声再生方法であって、
変換プロファイルは、
少なくとも一つのユーザ定義プロファイルを備えることを特徴とする音声再生方法。 - 請求項15から請求項18のいずれか一項に記載の音声再生方法であって、
録音に関連づけられた複数のメタデータセットの中から、メタデータセットの各々のエモーションタグに基づいて、メタデータセットを一つ選択するステップを備えることを特徴とする音声再生方法。 - 請求項19に記載の音声再生方法であって、
前記エモーションタグは、
対応するメタデータセットの変換プロファイルに従って修正がなされるときに、録音によって伝えられる特定のエモーションを示すことを特徴とする音声再生方法。 - 請求項19に記載の音声再生方法であって、
前記エモーションタグは、
対応するメタデータセットの変換プロファイルに従って修正がなされるときに、録音で伝えられるプラスまたはマイナスのエモーションの程度を示すエモーションスケール上の値であることを特徴とする音声再生方法。 - 請求項15から21のいずれか一項に記載の音声再生方法であって、
継続時間の変更に関する変換プロファイルデータに従って、ビデオゲームキャラクタが発声するダイアログが修正されるときに、当該変換プロファイルデータに従ってビデオゲームキャラクタのリップシンクを修正するステップを備えることを特徴とする音声再生方法。 - 請求項15から22のいずれか一項に記載の音声再生方法であって、
振幅およびピッチのいずれかまたは両方の変更に関する変換プロファイルデータに従って、ビデオゲームキャラクタが発声するダイアログが修正されるときに、当該変換プロファイルデータに従ってビデオゲームキャラクタのフェイシャル・アニメーションを修正するステップを備えることを特徴とする音声再生方法。 - 請求項15から23のいずれか一項に記載の音声再生方法であって、
ビデオゲームキャラクタが発声するダイアログが、選択されたメタデータセットと関連づけられた変換プロファイルデータに従って修正されるときに、選択されたメタデータセットのエモーションタグに従ってビデオゲームキャラクタの表情を修正するステップを備えることを特徴とする音声再生方法。 - 請求項15から24のいずれかに記載の音声再生方法は、
録音を出力するビデオゲームの一つまたは複数のパラメータの値に従って、録音に対して変換を適用する前に変換プロファイルの一つまたは複数の値を変更するステップを備えることを特徴とする音声再生方法。 - 請求項15から25のいずれか一項に記載の音声再生方法であって、
録音に対して変換を適用する前に変換プロファイルの一つまたは複数の値を、不規則に変更するステップを備えることを特徴とする音声再生方法。 - 請求項26に記載の音声再生方法であって、
i. 不規則変化の程度、および
ii. 不規則変化の回数
のいずれかまたは両方は、録音を出力しているビデオゲームを最後にリロードしてからのゲームプレイの継続時間に依存することを特徴とする音声再生方法。 - 請求項15から24のいずれか一項に記載の音声再生方法であって、
一つまたは複数の利用可能な定義済みプロファイル要素から、変換プロファイルを不規則に構成するステップを備えることを特徴とする音声再生方法。 - 請求項15から28のいずれか一項に記載の音声再生方法であって、
変換時に、録音の相対的フォルマント構造を実質的に維持するために、変換プロファイルに対するいかなる変更も制限することを特徴とする音声再生方法。 - 音声再生装置であって、
ストレージ読取手段と、
変換処理手段と、
音声出力手段と
を備え、
当該音声再生装置は、
請求項13から27のいずれか一項に記載の方法を実行するよう動作可能であることを特徴とする音声再生装置。 - コンピュータ読取可能な指示を備えるデータキャリアであって、
コンピュータによって実行された場合に、請求項1から13のいずれか一項に記載の音声処理方法をコンピュータに実行させることを特徴とするデータキャリア。 - 音声録音と、
前記音声録音に関連づけられた少なくとも第一のメタデータセットと
を備え、
前記メタデータセットは、
請求項1から13のいずれかに従う音声処理方法により生成されることを特徴とするデータキャリア。 - コンピュータ読取可能な指示を備えるデータキャリアであって、
コンピュータによって実行された場合に、請求項15から29のいずれか一項に記載の音声再生方法をコンピュータに実行させることを特徴とするデータキャリア。 - コンピュータ読取可能な指示を備えるデータ信号であって、
コンピュータによって実行された場合に、請求項1から13のいずれか一項に記載の音声処理方法をコンピュータに実行させることを特徴とするデータ信号。 - 音声録音と、
前記音声録音に関連づけられた少なくとも第一のメタデータセットと
を備え、
前記メタデータセットは、
請求項1から13のいずれかに従う音声処理方法により生成されることを特徴とするデータ信号。 - コンピュータ読取可能な指示を備えるデータ信号であって、
コンピュータによって実行された場合に、請求項15から29のいずれか一項に記載の音声再生方法をコンピュータに実行させることを特徴とするデータ信号。 - 音声処理装置であって、
音声録音の音声特性を変換するための一つまたは複数の変換プロファイルを構成するためのプロファイル構成部と、
前記変換プロファイルまたは各変換プロファイルに対し、それぞれの変換プロファイルデータと、録音のどこに該変換プロファイルデータを適用すべきかを示すロケーションデータとから構成されるメタデータセットを生成する生成部と、
対応する録音に関連づけて前記メタデータセットまたは各メタデータセットを保存するメタデータ記憶部と
を備えることを特徴とする音声処理装置。 - 音声再生装置であって、
録音と、前記録音に関連づけられたメタデータセットであって、変換プロファイルを含むメタデータセットとをストレージから読み出すストレージ読取部と、
前記変換プロファイルに従って録音データに対して変換を適用する変換部と、
変換した録音を出力する出力部と
を備えることを特徴とする音声再生装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0620829A GB2443027B (en) | 2006-10-19 | 2006-10-19 | Apparatus and method of audio processing |
GB0620829.2 | 2006-10-19 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009532891A Division JP2010507123A (ja) | 2006-10-19 | 2007-10-17 | 音声録音における音声特性を変換するための装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013231999A true JP2013231999A (ja) | 2013-11-14 |
Family
ID=37508046
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009532891A Pending JP2010507123A (ja) | 2006-10-19 | 2007-10-17 | 音声録音における音声特性を変換するための装置および方法 |
JP2013145999A Pending JP2013231999A (ja) | 2006-10-19 | 2013-07-12 | 音声録音における音声特性を変換するための装置および方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009532891A Pending JP2010507123A (ja) | 2006-10-19 | 2007-10-17 | 音声録音における音声特性を変換するための装置および方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8825483B2 (ja) |
EP (1) | EP2050094B1 (ja) |
JP (2) | JP2010507123A (ja) |
GB (1) | GB2443027B (ja) |
WO (1) | WO2008047114A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5521908B2 (ja) | 2010-08-30 | 2014-06-18 | ヤマハ株式会社 | 情報処理装置、音響処理装置、音響処理システムおよびプログラム |
JP5518638B2 (ja) * | 2010-08-30 | 2014-06-11 | ヤマハ株式会社 | 情報処理装置、音響処理装置、音響処理システム、プログラムおよびゲームプログラム |
US9324330B2 (en) * | 2012-03-29 | 2016-04-26 | Smule, Inc. | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm |
US20130297297A1 (en) * | 2012-05-07 | 2013-11-07 | Erhan Guven | System and method for classification of emotion in human speech |
CN103856390B (zh) * | 2012-12-04 | 2017-05-17 | 腾讯科技(深圳)有限公司 | 即时通讯方法及系统、通讯信息处理方法、终端 |
US9230542B2 (en) * | 2014-04-01 | 2016-01-05 | Zoom International S.R.O. | Language-independent, non-semantic speech analytics |
JP5729508B2 (ja) * | 2014-04-08 | 2015-06-03 | ヤマハ株式会社 | 情報処理装置、音響処理装置、音響処理システムおよびプログラム |
JP5729509B2 (ja) * | 2014-04-08 | 2015-06-03 | ヤマハ株式会社 | 情報処理装置、音響処理装置、音響処理システムおよびプログラム |
US9613620B2 (en) * | 2014-07-03 | 2017-04-04 | Google Inc. | Methods and systems for voice conversion |
US20160042766A1 (en) * | 2014-08-06 | 2016-02-11 | Echostar Technologies L.L.C. | Custom video content |
US10269375B2 (en) * | 2016-04-22 | 2019-04-23 | Conduent Business Services, Llc | Methods and systems for classifying audio segments of an audio signal |
US10509922B2 (en) * | 2017-09-28 | 2019-12-17 | Verizon Patent And Licensing Inc. | Systems and methods for masking user input and sensor data at a user device |
US20190043239A1 (en) * | 2018-01-07 | 2019-02-07 | Intel Corporation | Methods, systems, articles of manufacture and apparatus for generating a response for an avatar |
CN109031438A (zh) * | 2018-06-15 | 2018-12-18 | 中国科学院地质与地球物理研究所 | 用于多通道接收器的抗干扰方法及系统 |
WO2020010329A1 (en) * | 2018-07-06 | 2020-01-09 | Zya, Inc. | Systems and methods for generating animated multimedia compositions |
US10981073B2 (en) * | 2018-10-22 | 2021-04-20 | Disney Enterprises, Inc. | Localized and standalone semi-randomized character conversations |
US10733497B1 (en) * | 2019-06-25 | 2020-08-04 | Progressive Casualty Insurance Company | Tailored artificial intelligence |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001009157A (ja) * | 1999-06-30 | 2001-01-16 | Konami Co Ltd | ビデオゲームの制御方法、ビデオゲーム装置、並びにビデオゲームのプログラムを記録したコンピュータ読み取り可能な媒体 |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
JP2001190844A (ja) * | 2000-01-06 | 2001-07-17 | Konami Co Ltd | ゲームシステムおよびゲーム用プログラムが記憶されたコンピュータ読み取り可能な記録媒体 |
JP2001333378A (ja) * | 2000-03-13 | 2001-11-30 | Fuji Photo Film Co Ltd | 画像処理機及びプリンタ |
JP2002113262A (ja) * | 2000-10-10 | 2002-04-16 | Taito Corp | 多肢選択型ビデオゲーム機 |
JP2004313767A (ja) * | 2003-03-31 | 2004-11-11 | Koei:Kk | プログラム、記憶媒体及びゲーム装置 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5113449A (en) * | 1982-08-16 | 1992-05-12 | Texas Instruments Incorporated | Method and apparatus for altering voice characteristics of synthesized speech |
US5630017A (en) * | 1991-02-19 | 1997-05-13 | Bright Star Technology, Inc. | Advanced tools for speech synchronized animation |
JP3296648B2 (ja) * | 1993-11-30 | 2002-07-02 | 三洋電機株式会社 | ディジタル音程変換における不連続点の改善処理方法およびその装置 |
US5749073A (en) * | 1996-03-15 | 1998-05-05 | Interval Research Corporation | System for automatically morphing audio information |
US20030110026A1 (en) * | 1996-04-23 | 2003-06-12 | Minoru Yamamoto | Systems and methods for communicating through computer animated images |
JP3674808B2 (ja) * | 1996-07-12 | 2005-07-27 | コナミ株式会社 | 音声加工方法、ゲームシステム及び記録媒体 |
US6446040B1 (en) * | 1998-06-17 | 2002-09-03 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
JP2001154681A (ja) * | 1999-11-30 | 2001-06-08 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
AU2002232928A1 (en) * | 2000-11-03 | 2002-05-15 | Zoesis, Inc. | Interactive character system |
GB2370954B (en) * | 2001-01-04 | 2005-04-13 | British Broadcasting Corp | Producing a soundtrack for moving picture sequences |
US7200558B2 (en) * | 2001-03-08 | 2007-04-03 | Matsushita Electric Industrial Co., Ltd. | Prosody generating device, prosody generating method, and program |
CN1156819C (zh) * | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
JP2002351489A (ja) * | 2001-05-29 | 2002-12-06 | Namco Ltd | ゲーム情報、情報記憶媒体、及びゲーム装置 |
JP2003036100A (ja) | 2001-07-23 | 2003-02-07 | Arcadia:Kk | 音声修正装置、音声修正方法 |
US6950799B2 (en) * | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
US7379872B2 (en) * | 2003-01-17 | 2008-05-27 | International Business Machines Corporation | Method, apparatus, and program for certifying a voice profile when transmitting text messages for synthesized speech |
WO2004077368A2 (en) * | 2003-02-21 | 2004-09-10 | Walker, Digital, Llc Et Al. | Method and apparatus for setting game parameters |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
JP2005065191A (ja) * | 2003-08-20 | 2005-03-10 | Ntt Comware Corp | 動画メタデータ自動作成装置及び動画メタデータ自動作成プログラム |
JP2005210196A (ja) * | 2004-01-20 | 2005-08-04 | Sony Corp | 情報処理装置、情報処理方法 |
JP3930489B2 (ja) * | 2004-03-31 | 2007-06-13 | 株式会社コナミデジタルエンタテインメント | チャットシステム、通信装置、その制御方法及びプログラム |
WO2005109399A1 (ja) * | 2004-05-11 | 2005-11-17 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置および方法 |
US7865365B2 (en) * | 2004-08-05 | 2011-01-04 | Nuance Communications, Inc. | Personalized voice playback for screen reader |
JP2006079712A (ja) * | 2004-09-09 | 2006-03-23 | Hitachi Ltd | 記録媒体、再生装置及び記録装置 |
WO2006040908A1 (ja) * | 2004-10-13 | 2006-04-20 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置及び音声合成方法 |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
US7672835B2 (en) * | 2004-12-24 | 2010-03-02 | Casio Computer Co., Ltd. | Voice analysis/synthesis apparatus and program |
US20060259303A1 (en) * | 2005-05-12 | 2006-11-16 | Raimo Bakis | Systems and methods for pitch smoothing for text-to-speech synthesis |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US7831420B2 (en) * | 2006-04-04 | 2010-11-09 | Qualcomm Incorporated | Voice modifier for speech processing systems |
US8036899B2 (en) * | 2006-10-20 | 2011-10-11 | Tal Sobol-Shikler | Speech affect editing systems |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
-
2006
- 2006-10-19 GB GB0620829A patent/GB2443027B/en active Active
-
2007
- 2007-10-17 WO PCT/GB2007/003956 patent/WO2008047114A1/en active Application Filing
- 2007-10-17 JP JP2009532891A patent/JP2010507123A/ja active Pending
- 2007-10-17 EP EP07824206A patent/EP2050094B1/en active Active
- 2007-10-17 US US12/375,792 patent/US8825483B2/en active Active
-
2013
- 2013-07-12 JP JP2013145999A patent/JP2013231999A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001009157A (ja) * | 1999-06-30 | 2001-01-16 | Konami Co Ltd | ビデオゲームの制御方法、ビデオゲーム装置、並びにビデオゲームのプログラムを記録したコンピュータ読み取り可能な媒体 |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
JP2001190844A (ja) * | 2000-01-06 | 2001-07-17 | Konami Co Ltd | ゲームシステムおよびゲーム用プログラムが記憶されたコンピュータ読み取り可能な記録媒体 |
JP2001333378A (ja) * | 2000-03-13 | 2001-11-30 | Fuji Photo Film Co Ltd | 画像処理機及びプリンタ |
JP2002113262A (ja) * | 2000-10-10 | 2002-04-16 | Taito Corp | 多肢選択型ビデオゲーム機 |
JP2004313767A (ja) * | 2003-03-31 | 2004-11-11 | Koei:Kk | プログラム、記憶媒体及びゲーム装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2008047114A8 (en) | 2009-01-29 |
GB2443027A (en) | 2008-04-23 |
US8825483B2 (en) | 2014-09-02 |
JP2010507123A (ja) | 2010-03-04 |
EP2050094B1 (en) | 2011-06-22 |
WO2008047114A1 (en) | 2008-04-24 |
EP2050094A1 (en) | 2009-04-22 |
GB2443027B (en) | 2009-04-01 |
GB0620829D0 (en) | 2006-11-29 |
US20100235166A1 (en) | 2010-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013231999A (ja) | 音声録音における音声特性を変換するための装置および方法 | |
US20210142818A1 (en) | System and method for animated lip synchronization | |
CA2257298C (en) | Non-uniform time scale modification of recorded audio | |
US20220392430A1 (en) | System Providing Expressive and Emotive Text-to-Speech | |
JP5103974B2 (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム | |
WO2017006766A1 (ja) | 音声対話方法および音声対話装置 | |
KR20210019534A (ko) | 객체 기반 오디오 콘텐츠 생성 방법 및 시스템 | |
CN111418006A (zh) | 声音合成方法、声音合成装置及程序 | |
JP2010014913A (ja) | 声質変換音声生成装置および声質変換音声生成システム | |
CN111105776A (zh) | 有声播放装置及其播放方法 | |
JP2002108382A (ja) | リップシンクを行うアニメーション方法および装置 | |
CA2959862A1 (en) | System and method for animated lip synchronization | |
JP4651168B2 (ja) | 合成音声出力装置およびその方法並びに記録媒体 | |
JPH05282371A (ja) | マルチメディア再生システム | |
KR20000063615A (ko) | 구간 지정된 문자에 대응하는 오디오신호의 재생방법과이를 위한 재생장치 | |
JP4563418B2 (ja) | 音声処理装置、音声処理方法、ならびに、プログラム | |
JP6911398B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
Heinrichs | Human expressivity in the control and integration of computationally generated audio | |
JP6185136B1 (ja) | 音声生成プログラムおよびゲーム装置 | |
JP2006162760A (ja) | 語学学習装置 | |
JP3463804B2 (ja) | 音声合成装置並びに方法及び情報記憶媒体 | |
Lansky | The Importance of Being Digital | |
JP3830200B2 (ja) | 人物画像合成装置 | |
Karila | Techniques for retro sound design | |
JP2018159777A (ja) | 音声再生装置、および音声再生プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20131105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140206 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140212 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140311 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140404 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140603 |