JP7252266B2 - オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム - Google Patents
オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム Download PDFInfo
- Publication number
- JP7252266B2 JP7252266B2 JP2020568423A JP2020568423A JP7252266B2 JP 7252266 B2 JP7252266 B2 JP 7252266B2 JP 2020568423 A JP2020568423 A JP 2020568423A JP 2020568423 A JP2020568423 A JP 2020568423A JP 7252266 B2 JP7252266 B2 JP 7252266B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- effects
- information
- semantic analysis
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 132
- 230000000694 effects Effects 0.000 claims description 98
- 238000004458 analytical method Methods 0.000 claims description 97
- 230000015572 biosynthetic process Effects 0.000 claims description 51
- 238000003786 synthesis reaction Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 16
- 238000009877 rendering Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 230000001133 acceleration Effects 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 description 18
- 238000004590 computer program Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Description
本出願は2018年7月19日に出願されたスペイン特許出願第P201830728号、2018年9月27日に出願された米国仮特許出願第62/737,330号、および2018年10月19日に出願された欧州特許出願第18201444.9号からの優先権の利益を主張するものであり、それらの各々は参照によりその全体が援用される。
図1の例を参照して、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法のフロー図を示す。最初のステップ、ステップ101では、テキスト入力が受信される。テキスト入力は、任意の考えられる方法、例えば、サーバ、記憶媒体から受信されてもよく、またはユーザによって入力されてもよい。また、テキスト入力のフォーマットに制限はない。テキスト入力は、標準テキストでも生テキストでもよい。一実施形態では、テキスト入力が生のテキスト、すなわち標準テキストではない場合、生のテキストは正規化されてもよい。標準テキストを生成するために、例えば、数字、略語および/または記号は、書かれたワードと同等のものに変換されてもよい。例示的な一実施形態では、ステップ102でセマンティック解析を実行する前に、受信されたテキスト入力はシンタクティック的に解析される。シンタクティック解析では、ワード順序を含むテキストの構造(内在する意味ではない)を解析してもよい。
以下、ステップ102で実行されるセマンティック解析の一例をより詳細に説明する。セマンティック解析は、受信したテキスト入力に内在する意味を決定することを意図している。例示的な実施形態では、セマンティック解析の1つまたは複数の結果として、スピーチおよびエフェクトのオリジンを決定することができる。例示的な実施形態では、代替的または追加的に、セマンティック解析の1つまたは複数の結果として、スピーチ情報およびエフェクト情報を決定することができる。スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して決定されてもよい。さらなる例示的な実施形態では、代替的または追加的に、セマンティック解析の1つまたは複数の結果として、空間情報を決定することができる。空間情報は、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して決定されてもよい。例示的な実施形態では、セマンティック解析の1つまたは複数の結果として、感情情報を決定することができる。
-シーン内のサイズと形状
-シーン内の位置:位置は、1次元、2次元、または3次元で確立され得る。
-コヒーレンス
-シーンを通過する移動方向
-シーンを通過する速度および/または加速度
-そのアイテムのアクティビティに関連する特徴に基づく分類
-上記パラメータの過去の値の履歴または集計された統計値、およびアクティビティのデューティサイクル、アクティビティの長さの統計値など、シーン周辺の推定値
ステップ102におけるセマンティック解析の1つまたは複数の結果に基づいて、ステップ103において、スピーチおよびエフェクトが合成される。例示的な一実施形態では、スピーチおよびエフェクトは、スピーチ情報およびエフェクト情報に基づいて合成されることができる。本開示は、この点に関していかなる特定の技術にも限定されない。スピーチおよびエフェクトは、最新技術のテキスト・ツー・スピーチ技術(TTS)またはエフェクト合成技術を使用して合成することができる。エフェクト合成には、例えば、NSynthを用いることができる。既存のTTS技法の例には、連結的合成、正弦波合成、隠れマルコフモデル(HMM)ベースの合成、フォルマント合成、および調音合成が含まれる。例示的な実施形態では、ユニット選択合成を使用して、ステップ103でスピーチを合成することができる。スピーチおよびエフェクトを合成するために、オーディオライブラリデータベースにアクセスして、合成用のそれぞれのオーディオデータを選択することができる。
-ヴォイスのピッチ
-音の長さ
-音の大きさまたは目立ち
-音色
-音質
-休止
ステップ103では、スピーチおよびエフェクトの合成に加えて、各オーディオオブジェクトについてのメタデータ(例えば空間メタデータ)も生成される。一実施形態では、メタデータは、ステップ102でセマンティック解析の1つまたは複数の結果として決定された空間情報に基づいて生成されてもよい。また、空間情報の他に、スピーチやエフェクトなどのオーディオオブジェクトの種類、アクターの名前や雨などのエフェクトの種類などのオーディオオブジェクトの名前や識別子、シーン全体の解析、オーディオオブジェクトを出力するための特定のスピーカーなどに基づいて、メタデータを生成してもよい。
ステップ104で、1つまたは複数のオーディオオブジェクトとそれぞれのメタデータとを含むオブジェクトベースのオーディオコンテンツを作成することができる(例えば、出力)。例示的な一実施形態では、ステップ104で作成されたオブジェクトベースのオーディオコンテンツが符号化され、配信される。これにより、複数の表現を提供し、ユーザが従来のオーディオブックと、アクターやエフェクトなどを使ったオーディオプレイの間で選択できるようになる。オブジェクトベースのオーディオコンテンツを符号化する方法は、本開示に限定されず、オーディオオブジェクトタイプに基づいて決定されてもよい。
本開示は、オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするための特定の方法に限定されない。この点に関して、イマーシブリスニング体験を生成するために、任意の考えられる方法を適用することができる。
特に明記しない限り、以下の説明から明らかなように、開示された説明全体を通して、「処理する」、「計算する」、「算出する」、「決定する」、「解析する」などの用語を利用することは、電子量などの物理量として表されるデータを、物理量として同様に表される他のデータに操作および/または変換する、コンピュータまたはコンピューティングシステム、または同様の電子コンピューティングデバイスの動作および/またはプロセスを指すことが理解される。
1.オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
a)テキスト入力を受信するステップと、
b)受信された前記テキスト入力のセマンティック解析を実行するステップと、
c)前記セマンティック解析の前記1つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、1つまたは複数のオーディオオブジェクトを生成するステップと、
d)前記1つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
e)前記1つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
を含む、方法。
2.前記方法は、bi)前記セマンティック解析の前記1つまたは複数の結果として、スピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップ、をさらに含む、EEE1に記載の方法。
3.スピーチおよびエフェクトの前記オリジンは、アクター、ナレーター、アイテム、およびアンビエンスのうちの1つまたは複数を含む、EEE2に記載の方法。
4.bii)前記セマンティック解析の1つまたは複数の結果としてスピーチ情報および/またはエフェクト情報を決定するステップをさらに含む、EEE1~3のいずれかに記載の方法。
5.前記スピーチ情報は、名前、性別、1人または複数のアクターの性質、および1人または複数のアクターの背景のうちの1つまたは複数に関する情報を含む、EEE4に記載の方法。
6.前記スピーチ情報は、前記セマンティック解析の1つまたは複数の結果として感情情報をさらに含む、EEE4またはEEE5に記載の方法。
7.前記感情情報は、少なくとも幸福、中立性、怒り、および悲しみに関する情報を含む、EEE6に記載の方法。
8.前記エフェクト情報は、雑音、音楽、周囲音、およびアイテム固有音のうちの1つまたは複数に関する情報を含む、EEE4~7のいずれかに記載の方法。
9.biii)前記セマンティックの1つまたは複数の結果として空間情報を決定するステップをさらに含む、EEE1~8のいずれかに記載の方法。
10.前記空間情報は、移動方向、速度、サイズ、形状、位置、コヒーレンス、または加速度のうちの1つまたは複数に関する情報を含む、EEE9に記載の方法。
11.ai)受信された前記テキスト入力を正規化するステップをさらに含む、EEE1~10のいずれかに記載の方法。
12.aii)受信された前記テキスト入力のシンタクティック解析を実行するステップをさらに含む、EEE1~11のいずれかに記載の方法。
13.前記セマンティック解析は、受信された前記テキスト入力のセグメント化を含む、EEE1~12のいずれかに記載の方法。
14.前記セマンティック解析は、感情解析を含む、EEE1~13のいずれかに記載の方法。
15.前記感情解析は、ルールベースである、EEE14に記載の方法。
16.前記セマンティック解析は、機械学習を伴う自然言語処理を含む、EEE1~15のいずれかに記載の方法。
17.前記スピーチは、テキスト・ツー・スピーチ合成を使用して合成される、EEE1~16のいずれかに記載の方法。
18.前記テキスト・ツー・スピーチ合成は、ユニット選択スピーチ合成を含む、EEE17に記載の方法。
19.前記スピーチ合成は、スタイル、韻律、およびヴォイスのうちの1つまたは複数の合成を含む、EEE1~18のいずれかに記載の方法。
20.前記スピーチ合成は、感情的なスピーチの合成を含む、EEE1~19のいずれかに記載の方法。
21.追加の記録および/またはエフェクトを導入することをさらに含む、EEE1~20のいずれかに記載の方法。
22.f)前記オブジェクトベースのオーディオコンテンツを符号化するステップをさらに含む、EEE1~21のいずれかに記載の方法。
23.オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
a)テキスト入力を受信するステップと、
b)受信された前記テキスト入力のセマンティック解析を実行するステップと、
c)前記セマンティック解析の前記1つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、1つまたは複数のオーディオオブジェクトを生成するステップと、
d)前記1つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
e)前記1つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
f)前記オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするステップと、
を含む、方法。
24.bi)前記セマンティック解析の1つまたは複数の結果としてスピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップをさらに含む、EEE23に記載の方法。
25.bii)前記セマンティック解析の1つまたは複数の結果としてスピーチ情報およびエフェクト情報を決定するステップをさらに含む、EEE23またはEEE24に記載の方法。
26.biii)前記セマンティック解析の1つまたは複数の結果として空間情報を決定するステップをさらに含む、EEE23~25のいずれか一項に記載の方法。
27.前記チャネルベースのフォーマットは、5.1、7.1、7.1.4、B-フォーマット、アンビソニックス、ステレオおよびバイノーラルを含む、EEE23~26のいずれかに記載の方法。
28.ai)受信された前記テキスト入力を正規化するステップをさらに含む、EEE23~27のいずれか一項に記載の方法。
29.aii)受信された前記テキスト入力のシンタクティック解析を実行するステップをさらに含む、EEE23~28のいずれか一項に記載の方法。
30.追加の記録および/またはエフェクトを導入することをさらに含む、EEE23~29のいずれか一項に記載の方法。
31.EE1~22のいずれか一項に記載の方法を実行するように構成された1つまたは複数のプロセッサを含む、コンピュータベースのシステム。
32.テキスト入力の選択を容易にするためのユーザインターフェースを含む、EEE31に記載のコンピュータベースのシステム。
33.EE23~30のいずれか一項に記載の方法を実行するように構成された1つまたは複数のプロセッサを含む、コンピュータベースのシステム。
34.テキスト入力の選択を容易にするためのユーザインターフェースを含む、EEE33に記載のコンピュータベースのシステム。
35.処理能力を有するデバイスによって実行されたときに、EEE1~22のいずれか一項に記載の方法を実行するように構成された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。
36.処理能力を有するデバイスによって実行されたときに、EEE23~30のいずれか一項に記載の方法を実行するように構成された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。
Claims (15)
- オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
a)テキスト入力を受信するステップと、
b)受信された前記テキスト入力のセマンティック解析を実行するステップと、
bi)セマンティック解析の1つまたは複数の結果として空間情報を決定するステップと、
c)前記セマンティック解析の前記1つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、1つまたは複数のオーディオオブジェクトを生成するステップと、
d)前記1つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
e)前記1つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
を含む、方法。 - bii)前記セマンティック解析の前記1つまたは複数の結果として、スピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップ、をさらに含む、請求項1に記載の方法。
- スピーチおよびエフェクトの前記オリジンは、アクター、ナレーター、アイテム、およびアンビエンスのうちの1つまたは複数を含む、請求項2に記載の方法。
- 前記空間情報は、スピーチおよびエフェクトの1つまたは複数のオリジンについて決定される、請求項2~3のいずれか一項に記載の方法。
- 前記空間情報は、移動方向、速度、サイズ、形状、位置、コヒーレンスまたは加速度のうちの1つまたは複数に関する情報を含む、請求項1~4のいずれか一項に記載の方法。
- aii)前記受信されたテキスト入力のシンタクティック解析を実行するステップをさらに含む、請求項1~5のいずれか一項に記載の方法。
- 前記セマンティック解析は、前記受信されたテキスト入力のセグメント化を含む、請求項1~6のいずれか一項に記載の方法。
- 前記スピーチは、テキスト・ツー・スピーチ合成を使用して合成される、請求項1~7のいずれか一項に記載の方法。
- 前記テキスト・ツー・スピーチ合成は、ユニット選択スピーチ合成を含む、請求項8に記載の方法。
- 前記スピーチの合成は、スタイル、韻律、およびヴォイスのうちの1つまたは複数の合成を含む、請求項1~9のいずれか一項に記載の方法。
- f)オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするステップをさらに含む、請求項1~10のいずれか一項に記載の方法。
- 前記チャネルベースのフォーマットは、5.1、7.1、7.1.4、B-フォーマット、アンビソニックス、ステレオ、およびバイノーラルを含む、請求項11に記載の方法。
- 請求項1~12のいずれか一項に記載の方法を実行するように構成された1つまたは複数のプロセッサを含む、コンピュータベースのシステム。
- テキスト入力の選択を容易にするためのユーザインターフェースを含む、請求項13に記載のコンピュータベースのシステム。
- 処理能力を有するデバイスによって実行されるときに、請求項1~12のいずれか一項に記載の方法を実行するように適合された命令を有するコンピュータ可読記憶媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES201830728 | 2018-07-19 | ||
ESP201830728 | 2018-07-19 | ||
US201862737330P | 2018-09-27 | 2018-09-27 | |
US62/737,330 | 2018-09-27 | ||
EP18201444 | 2018-10-19 | ||
EP18201444.9 | 2018-10-19 | ||
PCT/US2019/042293 WO2020018724A1 (en) | 2018-07-19 | 2019-07-17 | Method and system for creating object-based audio content |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021530726A JP2021530726A (ja) | 2021-11-11 |
JP7252266B2 true JP7252266B2 (ja) | 2023-04-04 |
Family
ID=67470763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020568423A Active JP7252266B2 (ja) | 2018-07-19 | 2019-07-17 | オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP3824461B1 (ja) |
JP (1) | JP7252266B2 (ja) |
KR (1) | KR102493141B1 (ja) |
CN (1) | CN112334973B (ja) |
WO (1) | WO2020018724A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292715B (zh) * | 2020-02-03 | 2023-04-07 | 北京奇艺世纪科技有限公司 | 语音合成方法、装置、电子设备及计算机可读存储介质 |
CN113628609A (zh) * | 2020-05-09 | 2021-11-09 | 微软技术许可有限责任公司 | 自动音频内容生成 |
CN112967728B (zh) * | 2021-05-19 | 2021-07-30 | 北京世纪好未来教育科技有限公司 | 结合声传递函数的端到端语音合成方法及装置 |
CN113539235B (zh) * | 2021-07-13 | 2024-02-13 | 标贝(青岛)科技有限公司 | 文本分析与语音合成方法、装置、系统及存储介质 |
CN113838450B (zh) * | 2021-08-11 | 2022-11-25 | 北京百度网讯科技有限公司 | 音频合成及相应的模型训练方法、装置、设备及存储介质 |
CN113851106B (zh) * | 2021-08-17 | 2023-01-06 | 北京百度网讯科技有限公司 | 音频播放方法、装置、电子设备和可读存储介质 |
CN113963725A (zh) * | 2021-09-18 | 2022-01-21 | 赛因芯微(北京)电子科技有限公司 | 音频对象元数据和产生方法、电子设备及存储介质 |
KR102389995B1 (ko) * | 2021-09-29 | 2022-04-27 | 주식회사 인피닉 | 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
WO2024122284A1 (ja) * | 2022-12-05 | 2024-06-13 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002518711A (ja) | 1998-06-17 | 2002-06-25 | ヤフー! インコーポレイテッド | インテリジェント・テキストツースピーチ合成 |
JP2010529519A (ja) | 2007-04-28 | 2010-08-26 | ノキア コーポレイション | テキスト専用アプリケーションのための娯楽オーディオ |
US9183831B2 (en) | 2014-03-27 | 2015-11-10 | International Business Machines Corporation | Text-to-speech for digital literature |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075435B (zh) * | 2007-04-19 | 2011-05-18 | 深圳先进技术研究院 | 一种智能聊天系统及其实现方法 |
KR101594057B1 (ko) * | 2009-08-19 | 2016-02-15 | 삼성전자주식회사 | 텍스트 데이터의 처리 방법 및 장치 |
EP2705515A4 (en) * | 2011-05-06 | 2015-04-29 | Seyyer Inc | GENERATING VIDEO BASED ON TEXT |
US10672399B2 (en) * | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US20140278403A1 (en) * | 2013-03-14 | 2014-09-18 | Toytalk, Inc. | Systems and methods for interactive synthetic character dialogue |
CN103761963A (zh) * | 2014-02-18 | 2014-04-30 | 大陆汽车投资(上海)有限公司 | 包含情感类信息的文本的处理方法 |
US9570065B2 (en) | 2014-09-29 | 2017-02-14 | Nuance Communications, Inc. | Systems and methods for multi-style speech synthesis |
US10147416B2 (en) | 2015-12-09 | 2018-12-04 | Amazon Technologies, Inc. | Text-to-speech processing systems and methods |
WO2017109759A1 (en) * | 2015-12-23 | 2017-06-29 | Booktrack Holdings Limited | System and method for the creation and playback of soundtrack-enhanced audiobooks |
CN107516511B (zh) * | 2016-06-13 | 2021-05-25 | 微软技术许可有限责任公司 | 意图识别和情绪的文本到语音学习系统 |
US20180032305A1 (en) | 2016-07-29 | 2018-02-01 | Paul Charles Cameron | Systems and methods for automatic-creation of soundtracks for text |
-
2019
- 2019-07-17 WO PCT/US2019/042293 patent/WO2020018724A1/en active Application Filing
- 2019-07-17 CN CN201980043489.1A patent/CN112334973B/zh active Active
- 2019-07-17 EP EP19745954.8A patent/EP3824461B1/en active Active
- 2019-07-17 KR KR1020217000980A patent/KR102493141B1/ko active IP Right Grant
- 2019-07-17 JP JP2020568423A patent/JP7252266B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002518711A (ja) | 1998-06-17 | 2002-06-25 | ヤフー! インコーポレイテッド | インテリジェント・テキストツースピーチ合成 |
JP2010529519A (ja) | 2007-04-28 | 2010-08-26 | ノキア コーポレイション | テキスト専用アプリケーションのための娯楽オーディオ |
US9183831B2 (en) | 2014-03-27 | 2015-11-10 | International Business Machines Corporation | Text-to-speech for digital literature |
Also Published As
Publication number | Publication date |
---|---|
KR20210019534A (ko) | 2021-02-22 |
KR102493141B1 (ko) | 2023-01-31 |
JP2021530726A (ja) | 2021-11-11 |
EP3824461B1 (en) | 2022-08-31 |
CN112334973A (zh) | 2021-02-05 |
EP3824461A1 (en) | 2021-05-26 |
CN112334973B (zh) | 2024-04-26 |
WO2020018724A1 (en) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7252266B2 (ja) | オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム | |
CN108806656B (zh) | 歌曲的自动生成 | |
WO2022121181A1 (zh) | 新闻智能播报方法、装置、设备及存储介质 | |
US8937620B1 (en) | System and methods for generation and control of story animation | |
TWI511489B (zh) | 語意音軌混合器 | |
Tihelka et al. | Current state of text-to-speech system ARTIC: a decade of research on the field of speech technologies | |
KR101594057B1 (ko) | 텍스트 데이터의 처리 방법 및 장치 | |
US20130246063A1 (en) | System and Methods for Providing Animated Video Content with a Spoken Language Segment | |
US10453434B1 (en) | System for synthesizing sounds from prototypes | |
CN114999441A (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
Charalambous et al. | Audio‐driven emotional speech animation for interactive virtual characters | |
Van Deemter et al. | Fully generated scripted dialogue for embodied agents | |
US11195511B2 (en) | Method and system for creating object-based audio content | |
CN116798405A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN116825090B (zh) | 语音合成模型的训练方法、装置及语音合成方法、装置 | |
Lu et al. | Multi-dimensional fusion: transformer and GANs-based multimodal audiovisual perception robot for musical performance art | |
Sharma et al. | Towards understanding and verbalizing spatial sound phenomena in electronic music | |
Li et al. | FastFoley: Non-autoregressive Foley Sound Generation Based on Visual Semantics | |
King | A reading list of recent advances in speech synthesis | |
CN116863909B (zh) | 基于因子图的语音合成方法、装置及系统 | |
US20230386446A1 (en) | Modifying an audio signal to incorporate a natural-sounding intonation | |
Liu et al. | Adaptive music resizing with stretching, cropping and insertion: A generic content-aware music resizing framework | |
Loh et al. | Accuracy performance and potentiality of real-time avatar lip sync animation in different languages | |
JP4563418B2 (ja) | 音声処理装置、音声処理方法、ならびに、プログラム | |
Patil et al. | Expressive speech analysis for story telling application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7252266 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |