JP7252266B2 - オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム - Google Patents

オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム Download PDF

Info

Publication number
JP7252266B2
JP7252266B2 JP2020568423A JP2020568423A JP7252266B2 JP 7252266 B2 JP7252266 B2 JP 7252266B2 JP 2020568423 A JP2020568423 A JP 2020568423A JP 2020568423 A JP2020568423 A JP 2020568423A JP 7252266 B2 JP7252266 B2 JP 7252266B2
Authority
JP
Japan
Prior art keywords
speech
effects
information
semantic analysis
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020568423A
Other languages
English (en)
Other versions
JP2021530726A (ja
Inventor
トニ ヒルヴォネン
ダニエル アルテアガ
プラ エドゥアルド アイロン
マニング アレックス カブレル
リー ルー
カール ヨナス ローデン
Original Assignee
ドルビー・インターナショナル・アーベー
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2021530726A publication Critical patent/JP2021530726A/ja
Application granted granted Critical
Publication of JP7252266B2 publication Critical patent/JP7252266B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Description

関連出願の相互参照
本出願は2018年7月19日に出願されたスペイン特許出願第P201830728号、2018年9月27日に出願された米国仮特許出願第62/737,330号、および2018年10月19日に出願された欧州特許出願第18201444.9号からの優先権の利益を主張するものであり、それらの各々は参照によりその全体が援用される。
本開示は、一般に、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力に基づいてオブジェクトベースのオーディオコンテンツを作成するための方法に関するものであり、より具体的には、テキスト入力のより深いセマンティック解析に基づいてオブジェクトベースのオーディオコンテンツを作成することに関する。
いくつかの実施形態は、その開示を特に参照して本明細書で説明されるが、本開示はそのような使用分野に限定されず、より広い状況で適用可能であることが理解されるのであろう。
本開示全体にわたる背景技術のいかなる議論も、そのような技術が広く知られている、または当分野の共通な一般知識の一部を形成している、ことを自認するものとして考えられるべきではない。
今日、オーディオブックおよびオーディオプレイは、単に書かれたワードを超える経験豊富な文芸を提供している。オーディオブックやオーディオプレイで再生するためのテキストのスピーチへの変換は、よく認識され、絶え間なく開発されている。合成されたスピーチサウンドをより自然に、より感情的にすることは、到達されるべき1つの目標に過ぎない。
米国特許出願公開第2017/0169811号明細書は、例えば、文学作品のようなテキスト作品のテキスト・ツー・スピーチ(text-to-speech)(TTS)処理を実行するためのシステムおよび方法を開示している。これらの作品のテキストが処理され、チャプタ、パラグラフ、センテンス、ワード、ダイアローグのセクション、および他の文脈のセクションのうちの1つまたは複数に対応するオフセットが決定される。これらのオフセットを使用して、高品質のオーディオ出力を生成するために、TTS処理を使用して、作品のどの部分および作品のどれくらいの量が一度に処理されるべきかがさらに決定される。次いで、このオーディオ出力は、ユーザデバイスに送信され、該デバイス上で再生されることができる。
米国特許出願公開第2016/0093289号は、例えば、マルチスタイルスピーチ合成を実行するための技術を開示している。これらの技法は、テキストを含む入力と、テキストをスピーチとしてレンダリングする際に使用するための第1のスピーチスタイルの識別と、を得ること含む。テキストをスピーチとしてレンダリングする際に使用するための複数のスピーチセグメントがさらに識別され、識別された複数のスピーチセグメントは、第1のスピーチスタイルを有する第1のスピーチセグメントと、第1のスピーチスタイルとは異なる第2のスピーチスタイルを有する第2のスピーチセグメントとを含む。次いで、テキストは、識別された複数のスピーチセグメントを使用することにより、少なくとも部分的に、第1のスピーチスタイルを有するスピーチとしてレンダリングされる。
また、合成スピーチをより自然に、より感情的にすることに加えて、より深い感情体験を作り出すことによって、ユーザのリスニング体験を向上させることも試みられている。
欧州特許出願公開第3 276 623号は、例えば、関連するテキストの読み取りと同期再生することを意図したデジタルサウンドトラックを自動的に生成する方法を開示している。この方法は、セグメントレベルでテキストをシンタクティック的および/またはセマンティック的に解析して、連続感情モデルの文脈で各テキストセグメントの感情プロファイルを生成することを含む。次に、再生のために選択されるテキスト領域に対して、それぞれのサウンドトラックが生成される。
従来、オーディオコンテンツは、チャネルベースのフォーマットで作成および保存される。本明細書で使用されるように、「オーディオチャネル」または「チャネル」という用語は、通常、所定の物理的位置を有するオーディオコンテンツを指す。例えば、ステレオ、サラウンド5.1、サラウンド7.1等はすべて、オーディオコンテンツのためのチャネルベースのフォーマットである。近年、マルチメディア産業の発展に伴い、3次元(3D)オーディオコンテンツは、特に映画館および家庭においてますます人気が高まっている。
本明細書で使用されるように、「オーディオオブジェクト」という用語は、サウンドフィールド内に定義された持続時間の間存在する個々のオーディオ要素を指す。オーディオオブジェクトは、動的であっても静的であってもよい。任意選択的に、オーディオオブジェクトは、オブジェクトの位置、速度、およびサイズを記述する空間情報など、関連するメタデータを有することができる。改善された3Dリスニング体験を提供するために、オブジェクトベースのオーディオコンテンツが開発されている。サウンドデザイナーおよびアーティストは、3D空間でオーディオを自由にミックスし、サラウンドチャネルを介してエフェクトをステアリングし、高さチャネルを有するシームレスなオーバーヘッドディメンションを追加することができる。
ホームシアターおよびシネマの分野において既に広く適用されているが、オーディオブックおよび/またはオーディオプレイを聴くユーザにも、オブジェクトベースのオーディオコンテンツの利点を提供することが望ましい。したがって、本発明の目的は、オーディオブックまたはオーディオプレイを聴いている時間にイマーシブリスニング体験をユーザに提供するための方法、システムおよびコンピュータプログラム製品を提供することである。
米国特許出願公開第2017/0169811号明細書 米国特許出願公開第2016/0093289号明細書 欧州特許出願公開第3 276 623号明細書
本開示の第1の態様によれば、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法が提供される。本方法は、a)テキスト入力を受信するステップを含むことができる。本方法は、b)受信されたテキスト入力のセマンティック解析を実行するステップをさらに含むことができる。本方法は、c)セマンティック解析の1つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、1つまたは複数のオーディオオブジェクトを生成するステップをさらに含むことができる。本方法は、d)1つまたは複数のオーディオオブジェクトのメタデータを生成するステップをさらに含むことができる。また、本方法は、e)1つまたは複数のオーディオオブジェクトおよびメタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップをさらに含むことができる。
一実施形態では、本方法は、bi)セマンティック解析の1つまたは複数の結果として、スピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップをさらに含むことができる。スピーチおよびエフェクトの1つまたは複数のオリジンを識別することにより、1つまたは複数のオーディオオブジェクトを、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して生成することができる。
一実施形態では、本方法は、bii)セマンティック解析の1つまたは複数の結果としてスピーチ情報およびエフェクト情報を決定するステップをさらに含むことができる。スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの合成をガイドするために使用されてもよい。スピーチおよびエフェクトの1つまたは複数のオリジンが識別される場合、スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して決定されてもよい。
一実施形態では、本方法は、biii)セマンティック解析の1つまたは複数の結果として、空間情報を決定するステップをさらに含むことができる。空間情報を決定することにより、空間情報に基づいてメタデータを生成することができる。スピーチおよびエフェクトの1つまたは複数のオリジンが識別される場合、空間情報は、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して決定されてもよい。
例えば、一実施形態では、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法は、テキスト入力を受信するステップを含むことができる。本方法は、受信されたテキスト入力のセマンティック解析を実行するステップをさらに含むことができる。本方法は、セマンティック解析に基づいて、スピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップをさらに含むことができる。本方法は、セマンティック解析に基づいてスピーチ情報およびエフェクト情報を決定するステップをさらに含んでもよい。本方法は、セマンティック解析に基づいて1つまたは複数のオリジンについての空間情報を決定するステップをさらに含むことができる。本方法は、スピーチ情報およびエフェクト情報に基づいてスピーチおよびエフェクトを合成して、スピーチおよびエフェクトの1つまたは複数のオリジンに関連する1つまたは複数のオーディオオブジェクトを生成するステップをさらに含むことができる。本方法は、空間情報に基づいて1つまたは複数のオーディオオブジェクトについてのメタデータを生成するステップをさらに含むことができる。本方法は、1つまたは複数のオーディオオブジェクトおよびメタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップをさらに含むことができる。
一実施形態では、本方法は、ai)受信されたテキスト入力を正規化するステップをさらに含むことができる。正規化を実行することにより、受信されたテキスト入力は、例えば、数字、略語および/または記号を書かれたワードと同等のものに変換することによって、標準テキストに変換されてもよい。したがって、ステップb)において、標準テキストをより効率的に解析することができる。
一実施形態では、この方法は、aii)受信されたテキスト入力のシンタクティック解析を実行するステップをさらに含むことができる。シンタクティック解析を行うことにより、受信されたテキスト入力の構造を得ることができる。したがって、テキスト構造の知識は、受信されたテキスト入力のより効率的なセグメント化を可能にし、したがって、より効率的なセマンティック解析を可能にする。
一実施形態では、セマンティック解析は、受信されたテキスト入力のセグメント化を含むことができる。セグメント化を適用することにより、受信されたテキスト入力は、所望のサイズのセグメント、例えば、ワード、センテンス、またはパラグラフに分離される。したがって、セマンティック解析では、各セグメントを個別に解析して、1つまたは複数の隣接セグメントを解析することにより文脈の決定も可能にすることができる。
一実施形態では、セマンティック解析は感情解析を含むことができる。感情解析は、ルールベースであってもよい。感情解析は、キーワードによりガイドされることもできる。したがって、セマンティック解析の1つまたは複数の結果は、受信されたテキスト入力に内在する意味を解析することにより効率的かつ正確な方法で決定することができる。
一実施形態では、セマンティック解析は、機械学習(例えば、ディープラーニング)を伴う自然言語処理を含むことができる。したがって、受信されたテキスト入力に内在する意味のより深い理解を達成することができる。
一実施形態では、スピーチおよびエフェクトのオリジンは、アクター、ナレーター、アイテム、およびアンビエンスのうちの1つまたは複数を含むことができる。
一実施形態では、スピーチ情報は、名前、性別、1人または複数のアクターの性質、および1人または複数のアクターの背景のうちの1つまたは複数に関する情報を含むことができる。
一実施形態では、スピーチは、テキスト・ツー・スピーチ合成を使用して合成することができる。テキスト・ツー・スピーチ合成は、ユニット選択スピーチ合成を含むことができる。
一実施形態では、スピーチの合成は、スタイル、韻律、およびヴォイスのうちの1つまたは複数の合成を含むことができる。
一実施形態では、スピーチの合成は、感情的なスピーチの合成を含むことができる。
一実施形態では、スピーチ情報は、セマンティック解析の1つまたは複数の結果として感情情報をさらに含むことができる。感情情報は、感情的なスピーチの合成をガイドするために使用されてもよい。感情情報には、少なくとも幸福、悲しみ、怒り、および中立性についての情報が含まれることがある。
一実施形態では、エフェクト情報は、雑音、音楽、周囲音、およびアイテム固有音のうちの1つまたは複数に関する情報を含むことができる。
一実施形態では、空間情報は、移動方向、速度、サイズ、形状、位置、コヒーレンス、および/または加速度のうちの1つまたは複数に関する情報を含むことができる。したがって、空間情報は、オーディオブックまたはオーディオプレイの再生中に、ユーザにイマーシブリスニング体験を提供することを可能にしてもよい。
一実施形態では、本方法は、追加の記録および/またはエフェクトを導入することをさらに含むことができる。
一実施形態では、本方法は、f)オブジェクトベースのオーディオコンテンツを符号化するステップをさらに含むことができる。
本開示の第2の態様によれば、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法が提供される。本方法は、a)テキスト入力を受信するステップを含むことができる。本方法は、b)受信されたテキスト入力のセマンティック解析を実行するステップをさらに含むことができる。本方法は、c)セマンティック解析の1つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、1つまたは複数のオーディオオブジェクトを生成するステップをさらに含むことができる。本方法は、d)1つまたは複数のオーディオオブジェクトのメタデータを生成するステップをさらに含むことができる。本方法は、e)1つまたは複数のオーディオオブジェクトおよびメタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップをさらに含むことができる。そして、本方法は、f)オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするステップをさらに含むことができる。
一実施形態では、本方法は、bi)セマンティック解析の1つまたは複数の結果としてスピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップをさらに含むことができる。
一実施形態では、本方法は、bii)セマンティック解析の1つまたは複数の結果としてスピーチ情報およびエフェクト情報を決定するステップをさらに含むことができる。
一実施形態では、本方法は、biii)セマンティック解析の1つまたは複数の結果として空間情報を決定するステップをさらに含むことができる。
一実施形態では、チャネルベースのフォーマットは、5.1、7.1、7.1.4、B-フォーマット、アンビソニックス、ステレオ、およびバイノーラルを含むことができる。
一実施形態では、本方法は、ai)受信されたテキスト入力を正規化するステップをさらに含むことができる。
一実施形態では、本方法は、aii)受信されたテキスト入力のシンタクティック解析を実行するステップをさらに含むことができる。
一実施形態では、本方法は、追加の記録および/またはエフェクトを導入することをさらに含むことができる。
本開示の別の態様によれば、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法を実行するように構成された1つまたは複数のプロセッサを含む、コンピュータベースのシステムが提供される。
一実施形態では、コンピュータベースのシステムは、テキスト入力の選択を容易にするためのユーザインターフェースを含むことができる。
本開示のさらに別の態様によれば、処理能力を有するデバイスによって実行されたときに、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法を実行するように構成された命令を有するコンピュータ可読記憶媒体を備えるコンピュータプログラム製品が提供される。
ここで、本開示の例示的な実施形態を、添付の図面を参照して、単に例として説明する。
オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法の一例のフロー図を示す。 「銀河ヒッチハイク・ガイド(Hitchhiker’s Guide to the Galaxy)の抜粋に対して実行されるセマンティック解析の一例を示す。 ルールベースのセマンティック解析の一例を概略的に示す。
概要
図1の例を参照して、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法のフロー図を示す。最初のステップ、ステップ101では、テキスト入力が受信される。テキスト入力は、任意の考えられる方法、例えば、サーバ、記憶媒体から受信されてもよく、またはユーザによって入力されてもよい。また、テキスト入力のフォーマットに制限はない。テキスト入力は、標準テキストでも生テキストでもよい。一実施形態では、テキスト入力が生のテキスト、すなわち標準テキストではない場合、生のテキストは正規化されてもよい。標準テキストを生成するために、例えば、数字、略語および/または記号は、書かれたワードと同等のものに変換されてもよい。例示的な一実施形態では、ステップ102でセマンティック解析を実行する前に、受信されたテキスト入力はシンタクティック的に解析される。シンタクティック解析では、ワード順序を含むテキストの構造(内在する意味ではない)を解析してもよい。
ステップ102で、受信されたテキスト入力は、セマンティック解析を実行して解析される。詳細は、以下にさらに記載される。例示的な実施形態では、セマンティック解析の1つまたは複数の結果として、スピーチおよびエフェクトのオリジンを識別することができる。例示的な実施形態では、代替的または追加的に、セマンティック解析の1つまたは複数の結果として、スピーチ情報およびエフェクト情報を決定することができる。スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して決定されてもよい。例示的な実施形態では、セマンティック解析の1つまたは複数の結果として、スピーチ情報は、感情情報をさらに含むことができる。さらなる例示的な実施形態では、代替的または追加的に、セマンティック解析の1つまたは複数の結果として、空間情報を決定することができる。空間情報は、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して決定されてもよい。本開示によれば、ステップ102におけるセマンティック解析の1つまたは複数の結果を決定することは限定されないが、例示的な実施形態では、スピーチおよびエフェクトの少なくとも1つまたは複数のオリジンおよび空間情報は、セマンティック解析の1つまたは複数の結果として決定されてもよい。
ステップ103では、次に、スピーチ103aとエフェクト103bは、セマンティック解析の1つまたは複数の結果に基づいて合成され、このようにして1つまたは複数のオーディオオブジェクトが生成される。詳細は、以下にさらに記載される。例示的な実施形態では、スピーチおよびエフェクトの合成は、スピーチ情報およびエフェクト情報にそれぞれ基づいてもよい。例示的な実施形態では、1つまたは複数のオーディオオブジェクトは、スピーチおよびエフェクトの識別されたオリジンのそれぞれに関連して生成されてもよい。例えば、各オリジンに対して、1つのオーディオオブジェクトを生成することができる。代替的または追加的に、スピーチおよびエフェクトの2つ以上のオリジンは、所与のオーディオオブジェクトにマッピングされてもよい。ステップ103cでは、1つまたは複数のオーディオオブジェクトについてのメタデータも生成される。一実施形態では、メタデータは、空間情報に基づいて生成されてもよい。さらなる例示的な実施形態では、メタデータは、スピーチおよびエフェクトの識別されたオリジンのそれぞれに関連して生成されてもよい。
ステップ104で、1つまたは複数のオーディオオブジェクトおよびメタデータを含むオブジェクトベースのオーディオコンテンツが作成される。
一実施形態では、オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法は、以下のステップを含むことができる。最初のステップでは、テキスト入力が受信されてもよい。次のステップでは、受信されたテキスト入力のセマンティック解析が実行されてもよい。次のステップでは、スピーチおよびエフェクトの1つまたは複数のオリジンがセマンティック解析の1つまたは複数の結果として識別されてもよい。次のステップでは、スピーチ情報およびエフェクト情報がセマンティック解析の1つまたは複数の結果として決定されてもよい。次のステップでは、スピーチおよびエフェクトの1つ以上のオリジンの空間情報が、セマンティック解析の1つまたは複数の結果として決定されてもよい。次のステップでは、スピーチおよびエフェクトが、スピーチおよびエフェクトの1つまたは複数のオリジンに関連する1つまたは複数のオーディオオブジェクトを生成するために、スピーチ情報およびエフェクト情報に基づいて合成されてもよい。次のステップでは、空間情報に基づいて、1つまたは複数のオーディオオブジェクトについて、メタデータが生成されてもよい。次のステップでは、1つまたは複数のオーディオオブジェクトとメタデータとを含むオブジェクトベースのオーディオコンテンツを作成することができる。
さらなる例示的な実施形態では、スピーチ情報は感情情報を含むことができ、スピーチの合成は、次いで、感情情報に基づく感情的なスピーチの合成を含むことができる。
セマンティック解析
以下、ステップ102で実行されるセマンティック解析の一例をより詳細に説明する。セマンティック解析は、受信したテキスト入力に内在する意味を決定することを意図している。例示的な実施形態では、セマンティック解析の1つまたは複数の結果として、スピーチおよびエフェクトのオリジンを決定することができる。例示的な実施形態では、代替的または追加的に、セマンティック解析の1つまたは複数の結果として、スピーチ情報およびエフェクト情報を決定することができる。スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して決定されてもよい。さらなる例示的な実施形態では、代替的または追加的に、セマンティック解析の1つまたは複数の結果として、空間情報を決定することができる。空間情報は、スピーチおよびエフェクトの1つまたは複数のオリジンに関連して決定されてもよい。例示的な実施形態では、セマンティック解析の1つまたは複数の結果として、感情情報を決定することができる。
例示的な実施形態では、セマンティック解析は、受信されたテキスト入力のセグメンテーションを含むことができる。テキストセグメントは、例えば、シラブル、ワードまたはセンテンス、パラグラフ、ページまたはチャプタであってもよい。いくつかの例示的な実施形態では、シンタクティック解析は、解析されたテキスト構造に基づいてテキストのセグメント化を単純化することを可能にするために、セマンティック解析の前に実行されてもよい。テキストセグメントのサイズは、決定されるべき情報のタイプに適合させることができる。例えば、スピーチ情報またはエフェクト情報を決定するために、センテンスのフォーマットのセグメント化が実行されてもよい。
セマンティック解析を使用して、例示的な実施形態では、スピーチおよびエフェクトのオリジンは、受信されたテキスト入力において決定されてもよい。例示的な実施形態では、スピーチおよびエフェクトのオリジンは、1つまたは複数のアクター、ナレーター、アイテム、およびアンビエンスを含むことができる。セマンティック解析を実行する方法は限定されない。例示的な実施形態では、感情解析を実行することができる。感情解析では、キーワードを定義し、これらのキーワードに基づいてテキストを解析することができる。
感情解析の例は、1979年10月12日に最初に発行されたDouglas Adamsによって作成された「銀河ヒッチハイク・ガイド(Hitchhiker’s Guide to the Galaxy)の抜粋により図2で与えられる。括弧内のワードは、Y軸上に示されるように、それぞれのテキストセグメント、この場合はセンテンスから抽出されたキーワードに対応する。キーワードは、ユーザが定義することも、データベースから取り出すこともできる。後者の場合、データベースは機械学習に基づいて作成されてもよい。したがって、ユーザの好みのジャンルに応じて、キーワードデータベースは、ユーザの好みに応じてパーソナライズされてもよい。感情解析の結果は、2つのグラフ201、202の形で示されている。この場合、ナレーター201およびアクター202は、スピーチのオリジンとして識別される。
例示的な実施形態では、感情解析がルールベースであってもよい。図3の例を参照すると、ルールベースの解析の結果が概略的に示されている。結果は、ナレーター301と、2人のアクター302、303とにより、スピーチおよびアンビエンスのオリジンとして、この場合、雨305および雷304をエフェクトのオリジンとして、分類される。
セマンティック解析を使用して、例示的な実施形態では、スピーチ情報およびエフェクト情報は、識別されたオリジンのそれぞれについて決定される。
例示的な実施形態では、スピーチ情報は、名前、性別、1人または複数のアクターの性質、および1人または複数のアクターの背景のうちの1つまたは複数に関する情報を含むことができる。スピーチ情報は、ステップ103において、スピーチの合成をガイドするために使用されてもよい。
例示的な実施形態では、エフェクト情報は、雑音、音楽、周囲音、およびアイテム固有音のうちの1つまたは複数に関する情報を含むことができる。エフェクト情報は、ステップ103において、エフェクトの合成をガイドするために使用されてもよい。
セマンティック解析を実行するために、テキストセグメントとその内在する意味との間の関係を確立することができる。そのような関係を確立するために利用され得る様々な技術が存在する。そのような技法の一例は形式意味論であり、センテンスの真理値および他のセンテンスに対するその論理的関係が、モデルに対して評価される。真理条件付き意味論では、自然言語センテンスは、それが真である条件のメタ言語記述に関連する。概念意味論の技法は、フレーズのシンタクティック特性がフレーズの頭にあるワードの意味を反映すると仮定する。語彙的意味論は、ワードの意味がその文脈により完全に反映されると仮定する。
上記の技術の各々は、ステップ102において、セマンティック解析を実行するための基礎として利用されてもよい。しかしながら、本開示は、一般的な技術、または特に上記の技術のうちの1つの適用に限定されない。ステップ102におけるセマンティック解析は、受信されたテキスト入力の内在する意味が決定され得る限り、任意の他の考えられる方法で実行されてもよい。
再び図2の例を参照すると、この場合、決定されたスピーチ情報は、識別されたアクター202について、名前「アーサー」、性別「男性」を含むことができ、また、例えば、「毅然とした」などの特徴も含むことができる。しかしながら、特徴という用語は、アクターの個々の性質を包含するだけでなく、見た目の外観、衣服のスタイルなどの情報も包含することができる。アクター202「アーサー」の背景もまた、小説の別の部分に基づいて決定することができる。アクターの背景には、仕事や特殊な能力に関する情報が含まれる。一般に、受信されたテキスト入力の解析された部分が大きいほど、スピーチ情報の決定はより洗練される。
図2の例を参照すると、エフェクトのオリジンとして、雨、ブルドーザー、および巨大な物体を識別することができる。この場合、一例として、決定されたエフェクト情報は、スコールの雨であるという周囲音の例として、ブルドーザーが瓦礫の上をゆっくり進むアイテム固有の音の例として、および巨大な黄色の物体が雲を通って悲鳴をあげるように見えるアイテム固有の音の別の例として、含んでもよい。
例示的な実施形態では、スピーチ情報は感情情報も含むことができる。感情情報には、少なくとも幸福、悲しみ、怒り、中立などが含まれる。感情情報は、感情情報のより洗練された決定、したがって感情的なスピーチのより洗練された合成を可能にするために、より多くの感情をさらに含むことができる。連続感情モデルなどのモデルを使用して、感情情報を決定することができる。感情情報は、感情的なスピーチの合成をガイドするために使用されてもよい。識別されたアクターの感情の決定がより正確であればあるほど、感情的なスピーチの合成はより現実的である。この場合、ユーザは、全体的なリスニング体験を向上させるニュアンスを含めて、それぞれの感情をより容易に気付くことができる。
例示的な実施形態では、ステップ102におけるセマンティック解析は、機械学習(例えば、ディープラーニング)に基づく自然言語処理を含むことができる。このようにして、感情情報を決定することもできる。機械学習は、それぞれのテキストに内在する意味のより深い理解を可能にする。この点で留意すべきは、テキストがセグメント化されている場合、ステップ102のセマンティック解析中に、テキストセグメントのサイズが変化する可能性があることである。さらに、個々のセグメント自体が解析されるだけでなく、それら自体が解析されてもよい。隣接するセグメントの解析は、テキストセグメントの正しい意味を決定するための関連する文脈を提供することができる。例えば、テキストセグメントが1つのワードの大きさであるならば、「ジャンプ」というワードは、その文脈によって異なる見方をされるかもしれない。「私はそれらにジャンプする!」というセンテンスは、「私は喜びのあまりジャンプしている!」という文脈とは異なる感情状態と解釈を意味するかもしれない。第1の場合は怒りと解釈され得るが、第2の場合は反対、すなわち幸福を表す。他のサイズのテキストセグメントについても同様である。
例示的な実施形態では、空間情報は、ステップ102におけるセマンティック解析の1つまたは複数の結果として決定されてもよい。空間情報は、機械学習に基づく自然言語処理を使用して決定することができる。セマンティック解析のこの部分は、また、空間情報に関連するテキストの意味を識別するように適合された多数の可能なサブルーチンを実行することを含むことができる。一実施形態では、空間情報は、生成されたオーディオオブジェクトの各々のためのメタデータを生成するために使用されてもよい。例示的な実施形態では、スピーチオブジェクトは、スピーチおよびエフェクトの識別されたオリジンそれぞれについて、個別に生成されてもよい。代替的または追加的に、例えば、オリジンが互いに近接している場合、またはオリジンの同時移動のために、スピーチおよびエフェクトのオリジンを単一のオーディオオブジェクトにマッピングすることもできる。例示的な実施形態では、空間情報は、スピーチおよびエフェクトの識別されたオリジンのそれぞれについて決定されてもよい。空間情報の例は以下を含む:
-シーン内のサイズと形状
-シーン内の位置:位置は、1次元、2次元、または3次元で確立され得る。
-コヒーレンス
-シーンを通過する移動方向
-シーンを通過する速度および/または加速度
-そのアイテムのアクティビティに関連する特徴に基づく分類
-上記パラメータの過去の値の履歴または集計された統計値、およびアクティビティのデューティサイクル、アクティビティの長さの統計値など、シーン周辺の推定値
図2の例を参照すると、空間情報は、例えば、瓦礫の上をゆっくり進みながら近づいてくるブルドーザー、または天井から悲鳴を上げている巨大な黄色い物体のような、オーディオコンテンツの再生中に、イマーシブリスニング体験を提供することを可能にすることができる。
スピーチとエフェクトの合成
ステップ102におけるセマンティック解析の1つまたは複数の結果に基づいて、ステップ103において、スピーチおよびエフェクトが合成される。例示的な一実施形態では、スピーチおよびエフェクトは、スピーチ情報およびエフェクト情報に基づいて合成されることができる。本開示は、この点に関していかなる特定の技術にも限定されない。スピーチおよびエフェクトは、最新技術のテキスト・ツー・スピーチ技術(TTS)またはエフェクト合成技術を使用して合成することができる。エフェクト合成には、例えば、NSynthを用いることができる。既存のTTS技法の例には、連結的合成、正弦波合成、隠れマルコフモデル(HMM)ベースの合成、フォルマント合成、および調音合成が含まれる。例示的な実施形態では、ユニット選択合成を使用して、ステップ103でスピーチを合成することができる。スピーチおよびエフェクトを合成するために、オーディオライブラリデータベースにアクセスして、合成用のそれぞれのオーディオデータを選択することができる。
例示的な実施形態では、ステップ103において、スピーチは、ナレーターおよび1人または複数のアクターなど、識別されたスピーチのオリジンについて合成されることができる。エフェクトは、アイテムおよびアンビエンスのようなエフェクトの識別されたオリジンに対して合成されてもよい。このようにして、スピーチオブジェクトは、スピーチおよびエフェクトの識別されたオリジンごとに個別に生成され得る。代替的または追加的に、例えば、オリジンが互いに近接している場合、またはオリジンの同時移動のために、スピーチおよびエフェクトのオリジンを単一のオーディオオブジェクトにマッピングすることもできる。
例示的な実施形態では、スピーチおよびエフェクトの合成のためのガイドとして、ステップ102でセマンティック解析の1つまたは複数の結果として決定されたスピーチ情報およびエフェクト情報を使用することができる。例示的な実施形態では、スピーチ合成は、感情情報によりガイドされる感情的なスピーチの合成を含むことができる。
例示的な実施形態では、スピーチ合成は、スタイル、韻律、およびヴォイスの合成を含むことができる。スタイルは、例えば、小説の設定、すなわち、歴史的設定またはサイエンスフィクション設定に関連して、または、例えば、アンカーマンであるようなアクターの特定の機能に関連して選択されてもよい。
ヴォイスは、話すこと、歌うこと、叫ぶことなど、スピーチ内容の調音または表現の形態に関連し得る。ヴォイスは、また、性別にも関係し得る。ヴォイスは、また、異なるトーンに関して合成されてもよい。
韻律に関して、合成は、以下を含むそれぞれの韻律パラメータに基づくことができる:
-ヴォイスのピッチ
-音の長さ
-音の大きさまたは目立ち
-音色
-音質
-休止
例えば、ヴォイスのピッチを変えることは、ステートメントの強調を反映するために使用されてもよい。これらのパラメータの選択的な組み合わせは、例えば、イントネーション、ストレス、リズム、テンポ、およびスピーチの音量を実現することを可能にできる。特定のイントネーションは例えば、言語の性質を反映するように合成されてもよい。ピッチ範囲を調整することは、例えば、ピッチ範囲のより高い部分に位置する興奮または恐怖を反映するための感情的なスピーチの合成に使用されてもよい。強勢のあるシラブルは、ピッチの目立ち(隣接するシラブルのピッチレベルとは異なるピッチレベル)、長さ、ラウドネス、および音色を調整することによって合成することができる。強勢のあるシラブルは、リスナーにより発音されるように体験されてもよい。また、強勢のあるシラブルを使用して、アクターの性質または背景を作成するためのツールとすることができる、合成されたスピーチにおける文法およびシンタクティックを反映することもできる。また、このようにして、スピーチのテンポやリズムを合成してもよい。スピーチ合成では、スタイリスティックメジャーとして休止を使用することもできる。休止は、呼吸を反映することがあり、したがって感情を反映するために使用することもできる。休止で満たされた場合は、ためらいを反映することがある。休止の欠如は、また、ワードのグループ化またはワードまたはフレーズの集合体を作成するために使用できる。文字またはシラブルの省略と組み合わせた休止の欠如は、特定のスタイルのスピーチまたは方言を反映するために使用されてもよい。
テキストからのスピーチの合成においても、テキストのパースは、リスナーがテキストのシンタクティック構造を認識できるようにすると考えることができる。スタイリスティックメジャーとして、抑揚と強勢の組み合わせは、センテンスの意図した意味を達成するために、特定のワードまたはシラブルを強調するために使用されてもよい。
韻律パラメータは、また、1人または複数のアクター間の談話を反映するために使用されてもよい。
既に上述したように、例示的な一実施形態では、スピーチの合成は、感情的なスピーチの合成を含むことができる。この点に関して、韻律一般および特に韻律パラメータの組み合わせは、リスナーに感情を移入することを可能にできる。
ステップ103では、既に述べたように、スピーチ以外に、エフェクトも合成される。スピーチおよびエフェクトの合成は、並列トラックで行うことができる。背景技術イベントまたは戦闘シーンなどの特定のシーンなどの特定のイベントを、このコンテキストで合成することができる。
メタデータ
ステップ103では、スピーチおよびエフェクトの合成に加えて、各オーディオオブジェクトについてのメタデータ(例えば空間メタデータ)も生成される。一実施形態では、メタデータは、ステップ102でセマンティック解析の1つまたは複数の結果として決定された空間情報に基づいて生成されてもよい。また、空間情報の他に、スピーチやエフェクトなどのオーディオオブジェクトの種類、アクターの名前や雨などのエフェクトの種類などのオーディオオブジェクトの名前や識別子、シーン全体の解析、オーディオオブジェクトを出力するための特定のスピーカーなどに基づいて、メタデータを生成してもよい。
オブジェクトベースのオーディオコンテンツ
ステップ104で、1つまたは複数のオーディオオブジェクトとそれぞれのメタデータとを含むオブジェクトベースのオーディオコンテンツを作成することができる(例えば、出力)。例示的な一実施形態では、ステップ104で作成されたオブジェクトベースのオーディオコンテンツが符号化され、配信される。これにより、複数の表現を提供し、ユーザが従来のオーディオブックと、アクターやエフェクトなどを使ったオーディオプレイの間で選択できるようになる。オブジェクトベースのオーディオコンテンツを符号化する方法は、本開示に限定されず、オーディオオブジェクトタイプに基づいて決定されてもよい。
本開示の一態様によれば、ステップ104で作成されたオブジェクトベースのオーディオコンテンツは、チャネルベースのフォーマットにレンダリングされてもよい。例示的な一実施形態では、チャネルベースのフォーマットは、5.1、7.1、7.1.4、B-フォーマット、アンビソニックス、ステレオおよびバイノーラルを含む。
ステップ104で作成されたオブジェクトベースのオーディオコンテンツは、プロ・ツールス(ProTools)およびドルビーアトモスプロダクションスイート(Dolby Atmos production suite)を含むさらなるミキシングおよびレンダリングのために、ドルビーアトモス(Dolby Atmos)コンテンツ作成ワークフローにインポートすることもできる。
オブジェクトベースのオーディオコンテンツのレンダリング
本開示は、オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするための特定の方法に限定されない。この点に関して、イマーシブリスニング体験を生成するために、任意の考えられる方法を適用することができる。
一例として、オブジェクトおよびチャネルレンダラを使用することができる。オブジェクトおよびチャネルレンダラは、ソースパンナー、ランピングミキサ、スピーカーデコリレータ、およびミキシングステージを含んでもよい。オブジェクトおよびチャネルレンダラは、メタデータ、オーディオデータ、および任意でリスニング環境のスピーカーレイアウトを入力として受け取ることができる。オブジェクトおよびチャネルレンダラは、1つまたは複数のスピーカーフィードを出力することができる。ソースパンナーは、メタデータを取得し、ソースをパンしてスピーカーゲインを生成することができる。ランピングミキサは、スピーカーフィードを生成するために、オーディオデータをスピーカーゲインとミックスすることができる。ソースパンナーおよびランピングミキサ、および任意選択でスピーカーデコリレータは、レンダリングユニットを形成するということができる。
解釈
特に明記しない限り、以下の説明から明らかなように、開示された説明全体を通して、「処理する」、「計算する」、「算出する」、「決定する」、「解析する」などの用語を利用することは、電子量などの物理量として表されるデータを、物理量として同様に表される他のデータに操作および/または変換する、コンピュータまたはコンピューティングシステム、または同様の電子コンピューティングデバイスの動作および/またはプロセスを指すことが理解される。
同様の方法で、「プロセッサ」という用語は、たとえば、レジスタおよび/またはメモリから、その電子データをレジスタおよび/またはメモリに格納できる他の電子データに変換するための、電子データを処理するデバイスまたはデバイスの任意のデバイスまたは部分を指す。「コンピュータ」または「コンピューティングマシン」または「コンピューティングプラットフォーム」は、1つまたは複数のプロセッサを含むことができる。
本明細書に記載する方法論は、一実施形態において、本明細書に記載する方法の少なくとも1つを実行する1つまたは複数のプロセッサによって実行されるときに、命令のセットを含むコンピュータ可読(マシン可読)コードを受け入れる1つまたは複数のプロセッサによって実行可能である。取られるべきアクションを指定する命令のセット(シーケンシャルまたはその他)を実行することができる任意のプロセッサが含まれる。したがって、一例は、1つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、およびプログラマブルDSPユニットのうちの1つまたは複数を含むことができる。処理システムは、さらに、メインRAMおよび/またはスタティックRAM、および/またはROMを含むメモリサブシステムを含むことができる。コンポーネント間の通信のために、バスサブシステムが含まれてもよい。処理システムは、さらに、ネットワークによって結合されたプロセッサを有する分散処理システムであってもよい。処理システムがディスプレイを必要とする場合、そのようなディスプレイは、例えば、液晶ディスプレイ(LCD)またはブラウン管ディスプレイ(CRT)を含むことができる。手動データ入力が必要な場合、処理システムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御デバイス、などのうちの1つまたは複数の入力デバイスも含む。処理システムは、ディスクドライブユニットなどのストレージシステムを含むこともできる。いくつかの構成では、処理システムは、サウンド出力デバイス、およびネットワークインターフェースデバイスを含んでもよい。したがって、メモリサブシステムは、1つ以上のプロセッサにより本明細書に記載する1つ以上の方法を実行させる命令のセットを含むコンピュータ可読コード(例えば、ソフトウェア)を搬送するコンピュータ可読キャリア媒体を含む。本方法がいくつかの要素、例えばいくつかのステップを含む場合、特に記述されない限り、そのような要素の順序付けは暗示されないことに留意されたい。ソフトウェアはハードディスク内に存在してもよく、あるいは、コンピュータシステムによる実行中に、RAM内および/またはプロセッサ内に、完全にまたは少なくとも部分的に存在してもよい。したがって、メモリおよびプロセッサは、また、コンピュータ可読コードを搬送するコンピュータ可読キャリア媒体を構成する。さらに、コンピュータ可読キャリア媒体は、コンピュータプログラム製品を形成してもよく、またはコンピュータプログラム製品に含まれてもよい。
代替の実施形態では、1つまたは複数のプロセッサは、スタンドアロンデバイスとして動作するか、または例えば、他のプロセッサにネットワーク接続されてもよく、ネットワーク化された展開において、1つまたは複数のプロセッサは、サーバユーザネットワーク環境におけるサーバまたはユーザマシンの容量において、またはピアツーピアまたは分散ネットワーク環境におけるピアマシンとして動作してもよい。1つまたは複数のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチ、もしくはブリッジ、またはそのマシンによってとられるべきアクションを指定する(シーケンシャルまたは他の方法で)一組の命令を実行することができる任意のマシンを形成してもよい。
「機械」という用語は、また、本明細書に記載される方法のいずれか1つまたは複数を実行するための命令のセット(または複数のセット)を個別にまたは共同で実行する機械のいずれかの集合を含むと解釈されることに留意されたい。
したがって、本明細書で説明される方法のそれぞれの1つの例示的な実施形態は、命令のセット、たとえば、1つまたは複数のプロセッサ、たとえば、ウェブサーバ構成の一部である1つまたは複数のプロセッサ上で実行するためのコンピュータプログラムを搬送するコンピュータ可読キャリア媒体の形態である。したがって、当業者によって理解されるように、本開示の例示的な実施形態は、方法、専用装置などの装置、データ処理システムなどの装置、またはコンピュータ可読キャリア媒体、たとえばコンピュータプログラム製品として実施されてもよい。コンピュータ可読キャリア媒体は、1つまたは複数のプロセッサで実行されると、プロセッサに方法を実装させる命令セットを含むコンピュータ可読コードを搬送する。したがって、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、またはソフトウェアおよびハードウェアの態様を組み合わせた例示的な実施形態の形態をとることができる。さらに、本開示は、媒体に具現化されたコンピュータ可読プログラムコードを搬送するキャリア媒体(例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品)の形態をとることができる。
ソフトウェアは、さらに、ネットワークインターフェースデバイスを介して、ネットワークに亘って送受信されてもよい。キャリア媒体は例示的な実施形態では単一の媒体であるが、「キャリア媒体」という用語は、1つまたは複数の命令セットを格納する単一の媒体または複数の媒体(例えば、集中型または分散型データベース、および/または関連するキャッシュおよびサーバ)を含むものと解釈されるべきである。「キャリア媒体」という用語は、1つまたは複数のプロセッサによって実行される命令セットを格納、符号化、または搬送することができ、1つまたは複数のプロセッサに本開示の方法のうちの任意の1つまたは複数を実行させる任意の媒体も含むものと解釈されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、および伝送媒体を含むが、これらに限定されない多くの形態をとることができる。不揮発性媒体には、例えば、光ディスク、磁気ディスク、光磁気ディスクが含まれる。揮発性媒体は、メインメモリのようなダイナミックメモリを含む。伝送媒体には、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線および光ファイバが含まれる。伝送媒体はまた、電波および赤外線データ通信中に生成されるような音波または光波の形態をとってもよい。したがって、例えば、「キャリア媒体」という用語は、ソリッドステートメモリ、光媒体および磁気媒体で実施されるコンピュータ製品、少なくとも1つのプロセッサまたは1つ以上のプロセッサによって検出可能であり、実行されたときに方法を実施する命令のセットを表す伝搬信号を担持する媒体、および1つまたは複数のプロセッサのうちの少なくとも1つのプロセッサによって検出可能であり、命令のセットを表す伝搬信号を担持するネットワーク内の伝送媒体を含むが、これらに限定されないものと解釈されるべきである。
方法のステップは、記憶デバイスに記憶された処理(例えば、コンピュータ可読コード)の適切なプロセッサ(またはプロセッサ)によって一実施例で実行されることが理解されるのであろう。本開示は任意の特定の実装またはプログラミング技法に限定されず、本開示は本明細書で説明される機能を実装するための任意の適切な技法を使用して実装され得ることも理解されるのであろう。本開示は、いかなる特定のプログラミング言語またはオペレーティングシステムにも限定されない。
本開示全体を通して「1つの例示的な実施形態」、「いくつかの例示的な実施形態」または「例示的な一実施形態」と言及することは、例示的な実施形態に関連して説明された特定の特徴、構造または性質が本開示の少なくとも1つの例示的な実施形態に含まれることを意味し、したがって、本開示全体を通して様々な場所における「1つの例示的な実施形態において」、「いくつかの例示的な実施形態において」または「例示的な一実施形態において」という語句の出現は必ずしもすべて同じ例示的な実施形態を言及するわけではない。さらに、特定の特徴、構造、または特性は、1つまたは複数の例示的な実施形態において、本開示から当業者には明らかであるように、任意の適切な方法で組み合わせることができる。
本明細書で使用されるように、共通のオブジェクトを記述するための順序形容詞「第1」、「第2」、「第3」などの使用は、単に、類似のオブジェクトの異なるインスタンスが参照されていることを示し、そのように記述されたオブジェクトが、時間的、空間的、ランキングで、または任意の他の方法で、所与のシーケンスでなければならないことを暗示することを意図していない。
以下の特許請求の範囲および本明細書の説明において、備える(comprised of)、または備える(which comprises)の任意の1つの用語は、その用語に続く要素/特徴を少なくとも備えるが、他を除外しないことを意味するオープンな用語である。したがって、備えるという用語は、特許請求の範囲で使用される場合、その後に列挙される手段または要素またはステップに限定するものとして解釈されるべきではない。例えば、AおよびBを備えるデバイスという表現の範囲は、要素AおよびBのみからなるデバイスに限定されるべきではない。本明細書で使用されるような、含む(including)、または含む(which includes)、または含む(that includes)という用語のうちの任意の1つの用語はまた、その用語に続く要素/特徴を少なくとも含むことを意味するが、他を排除しないオープンな用語である。したがって、含むこと(including)は備えること(comprising)と同義であり、それを意味する。
本開示の例示的な実施形態の上記の説明では、本開示の様々な特徴が本開示を合理化し、様々な発明の態様のうちの1つまたは複数の理解を助けるために、単一の例示的な実施形態、図、またはそれらの説明に一緒にグループ化されることがあることを理解されたい。しかしながら、この開示方法は、特許請求の範囲が各特許請求の範囲に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、前述の開示された単一の例示的な実施形態のすべての特徴よりも少ない特徴にある。したがって、本明細書に続く特許請求の範囲は本明細書に明確に組み込まれ、各特許請求の範囲はそれ自体が本開示の別個の例示的な実施形態として存在する。
さらに、本明細書に記載されるいくつかの例示的な実施形態は他の例示的な実施形態に含まれる他の特徴ではないいくつかの特徴を含むが、異なる例示的な実施形態の特徴の組合せは、当業者によって理解されるように、本開示の範囲内にあることを意味し、異なる例示的な実施形態を形成する。例えば、以下の特許請求の範囲では、特許請求の範囲に記載された実施形態のいずれも、任意の組み合わせで使用することができる。
本明細書で提供される説明では、多数の具体的な詳細が記載される。しかしながら、本開示の例示的な実施形態は、これらの特定の詳細なしに実施されてもよいことが理解される。他の例では、この説明の理解を不明瞭にしないために、周知の方法、構造、および技法は詳細に示されていない。
したがって、開示の最良の形態であると考えられるものが説明されてきたが、当業者は開示の精神から逸脱することなく、他のおよびさらなる修正がそれに対して行われ得ることを認識し、開示の範囲内にあるようなすべてのそのような変更および修正を請求することが意図される。例えば、上記の任意の方式は、使用され得る手順を単に代表するものである。機能はブロック図に追加されてもよいし、ブロック図から削除されてもよく、動作は、機能ブロック間で交換されてもよい。ステップは、本開示の範囲内で説明される方法に追加または削除されてもよい。
本発明の様々な態様は、以下の列挙された例示的な実施形態(enumerated example embodiments:EEE)から理解され得る:
1.オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
a)テキスト入力を受信するステップと、
b)受信された前記テキスト入力のセマンティック解析を実行するステップと、
c)前記セマンティック解析の前記1つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、1つまたは複数のオーディオオブジェクトを生成するステップと、
d)前記1つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
e)前記1つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
を含む、方法。
2.前記方法は、bi)前記セマンティック解析の前記1つまたは複数の結果として、スピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップ、をさらに含む、EEE1に記載の方法。
3.スピーチおよびエフェクトの前記オリジンは、アクター、ナレーター、アイテム、およびアンビエンスのうちの1つまたは複数を含む、EEE2に記載の方法。
4.bii)前記セマンティック解析の1つまたは複数の結果としてスピーチ情報および/またはエフェクト情報を決定するステップをさらに含む、EEE1~3のいずれかに記載の方法。
5.前記スピーチ情報は、名前、性別、1人または複数のアクターの性質、および1人または複数のアクターの背景のうちの1つまたは複数に関する情報を含む、EEE4に記載の方法。
6.前記スピーチ情報は、前記セマンティック解析の1つまたは複数の結果として感情情報をさらに含む、EEE4またはEEE5に記載の方法。
7.前記感情情報は、少なくとも幸福、中立性、怒り、および悲しみに関する情報を含む、EEE6に記載の方法。
8.前記エフェクト情報は、雑音、音楽、周囲音、およびアイテム固有音のうちの1つまたは複数に関する情報を含む、EEE4~7のいずれかに記載の方法。
9.biii)前記セマンティックの1つまたは複数の結果として空間情報を決定するステップをさらに含む、EEE1~8のいずれかに記載の方法。
10.前記空間情報は、移動方向、速度、サイズ、形状、位置、コヒーレンス、または加速度のうちの1つまたは複数に関する情報を含む、EEE9に記載の方法。
11.ai)受信された前記テキスト入力を正規化するステップをさらに含む、EEE1~10のいずれかに記載の方法。
12.aii)受信された前記テキスト入力のシンタクティック解析を実行するステップをさらに含む、EEE1~11のいずれかに記載の方法。
13.前記セマンティック解析は、受信された前記テキスト入力のセグメント化を含む、EEE1~12のいずれかに記載の方法。
14.前記セマンティック解析は、感情解析を含む、EEE1~13のいずれかに記載の方法。
15.前記感情解析は、ルールベースである、EEE14に記載の方法。
16.前記セマンティック解析は、機械学習を伴う自然言語処理を含む、EEE1~15のいずれかに記載の方法。
17.前記スピーチは、テキスト・ツー・スピーチ合成を使用して合成される、EEE1~16のいずれかに記載の方法。
18.前記テキスト・ツー・スピーチ合成は、ユニット選択スピーチ合成を含む、EEE17に記載の方法。
19.前記スピーチ合成は、スタイル、韻律、およびヴォイスのうちの1つまたは複数の合成を含む、EEE1~18のいずれかに記載の方法。
20.前記スピーチ合成は、感情的なスピーチの合成を含む、EEE1~19のいずれかに記載の方法。
21.追加の記録および/またはエフェクトを導入することをさらに含む、EEE1~20のいずれかに記載の方法。
22.f)前記オブジェクトベースのオーディオコンテンツを符号化するステップをさらに含む、EEE1~21のいずれかに記載の方法。
23.オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
a)テキスト入力を受信するステップと、
b)受信された前記テキスト入力のセマンティック解析を実行するステップと、
c)前記セマンティック解析の前記1つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、1つまたは複数のオーディオオブジェクトを生成するステップと、
d)前記1つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
e)前記1つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
f)前記オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするステップと、
を含む、方法。
24.bi)前記セマンティック解析の1つまたは複数の結果としてスピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップをさらに含む、EEE23に記載の方法。
25.bii)前記セマンティック解析の1つまたは複数の結果としてスピーチ情報およびエフェクト情報を決定するステップをさらに含む、EEE23またはEEE24に記載の方法。
26.biii)前記セマンティック解析の1つまたは複数の結果として空間情報を決定するステップをさらに含む、EEE23~25のいずれか一項に記載の方法。
27.前記チャネルベースのフォーマットは、5.1、7.1、7.1.4、B-フォーマット、アンビソニックス、ステレオおよびバイノーラルを含む、EEE23~26のいずれかに記載の方法。
28.ai)受信された前記テキスト入力を正規化するステップをさらに含む、EEE23~27のいずれか一項に記載の方法。
29.aii)受信された前記テキスト入力のシンタクティック解析を実行するステップをさらに含む、EEE23~28のいずれか一項に記載の方法。
30.追加の記録および/またはエフェクトを導入することをさらに含む、EEE23~29のいずれか一項に記載の方法。
31.EE1~22のいずれか一項に記載の方法を実行するように構成された1つまたは複数のプロセッサを含む、コンピュータベースのシステム。
32.テキスト入力の選択を容易にするためのユーザインターフェースを含む、EEE31に記載のコンピュータベースのシステム。
33.EE23~30のいずれか一項に記載の方法を実行するように構成された1つまたは複数のプロセッサを含む、コンピュータベースのシステム。
34.テキスト入力の選択を容易にするためのユーザインターフェースを含む、EEE33に記載のコンピュータベースのシステム。
35.処理能力を有するデバイスによって実行されたときに、EEE1~22のいずれか一項に記載の方法を実行するように構成された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。
36.処理能力を有するデバイスによって実行されたときに、EEE23~30のいずれか一項に記載の方法を実行するように構成された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。

Claims (15)

  1. オーディオブックおよび/またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
    a)テキスト入力を受信するステップと、
    b)受信された前記テキスト入力のセマンティック解析を実行するステップと、
    bi)セマンティック解析の1つまたは複数の結果として空間情報を決定するステップと、
    c)前記セマンティック解析の前記1つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、1つまたは複数のオーディオオブジェクトを生成するステップと、
    d)前記1つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
    e)前記1つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
    を含む、方法。
  2. bii)前記セマンティック解析の前記1つまたは複数の結果として、スピーチおよびエフェクトの1つまたは複数のオリジンを識別するステップ、をさらに含む、請求項1に記載の方法。
  3. スピーチおよびエフェクトの前記オリジンは、アクター、ナレーター、アイテム、およびアンビエンスのうちの1つまたは複数を含む、請求項2に記載の方法。
  4. 前記空間情報は、スピーチおよびエフェクトの1つまたは複数のオリジンについて決定される、請求項2~3のいずれか一項に記載の方法。
  5. 前記空間情報は、移動方向、速度、サイズ、形状、位置、コヒーレンスまたは加速度のうちの1つまたは複数に関する情報を含む、請求項1~4のいずれか一項に記載の方法。
  6. aii)前記受信されたテキスト入力のシンタクティック解析を実行するステップをさらに含む、請求項1~5のいずれか一項に記載の方法。
  7. 前記セマンティック解析は、前記受信されたテキスト入力のセグメント化を含む、請求項1~6のいずれか一項に記載の方法。
  8. 前記スピーチは、テキスト・ツー・スピーチ合成を使用して合成される、請求項1~7のいずれか一項に記載の方法。
  9. 前記テキスト・ツー・スピーチ合成は、ユニット選択スピーチ合成を含む、請求項8に記載の方法。
  10. 前記スピーチの合成は、スタイル、韻律、およびヴォイスのうちの1つまたは複数の合成を含む、請求項1~9のいずれか一項に記載の方法。
  11. f)オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするステップをさらに含む、請求項1~10のいずれか一項に記載の方法。
  12. 前記チャネルベースのフォーマットは、5.1、7.1、7.1.4、B-フォーマット、アンビソニックス、ステレオ、およびバイノーラルを含む、請求項11に記載の方法。
  13. 請求項1~12のいずれか一項に記載の方法を実行するように構成された1つまたは複数のプロセッサを含む、コンピュータベースのシステム。
  14. テキスト入力の選択を容易にするためのユーザインターフェースを含む、請求項13に記載のコンピュータベースのシステム。
  15. 処理能力を有するデバイスによって実行されるときに、請求項1~12のいずれか一項に記載の方法を実行するように適合された命令を有するコンピュータ可読記憶媒体。
JP2020568423A 2018-07-19 2019-07-17 オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム Active JP7252266B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
ES201830728 2018-07-19
ESP201830728 2018-07-19
US201862737330P 2018-09-27 2018-09-27
US62/737,330 2018-09-27
EP18201444 2018-10-19
EP18201444.9 2018-10-19
PCT/US2019/042293 WO2020018724A1 (en) 2018-07-19 2019-07-17 Method and system for creating object-based audio content

Publications (2)

Publication Number Publication Date
JP2021530726A JP2021530726A (ja) 2021-11-11
JP7252266B2 true JP7252266B2 (ja) 2023-04-04

Family

ID=67470763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020568423A Active JP7252266B2 (ja) 2018-07-19 2019-07-17 オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム

Country Status (5)

Country Link
EP (1) EP3824461B1 (ja)
JP (1) JP7252266B2 (ja)
KR (1) KR102493141B1 (ja)
CN (1) CN112334973B (ja)
WO (1) WO2020018724A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292715B (zh) * 2020-02-03 2023-04-07 北京奇艺世纪科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质
CN113628609A (zh) * 2020-05-09 2021-11-09 微软技术许可有限责任公司 自动音频内容生成
CN112967728B (zh) * 2021-05-19 2021-07-30 北京世纪好未来教育科技有限公司 结合声传递函数的端到端语音合成方法及装置
CN113539235B (zh) * 2021-07-13 2024-02-13 标贝(青岛)科技有限公司 文本分析与语音合成方法、装置、系统及存储介质
CN113838450B (zh) * 2021-08-11 2022-11-25 北京百度网讯科技有限公司 音频合成及相应的模型训练方法、装置、设备及存储介质
CN113851106B (zh) * 2021-08-17 2023-01-06 北京百度网讯科技有限公司 音频播放方法、装置、电子设备和可读存储介质
CN113963725A (zh) * 2021-09-18 2022-01-21 赛因芯微(北京)电子科技有限公司 音频对象元数据和产生方法、电子设备及存储介质
KR102389995B1 (ko) * 2021-09-29 2022-04-27 주식회사 인피닉 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
WO2024122284A1 (ja) * 2022-12-05 2024-06-13 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002518711A (ja) 1998-06-17 2002-06-25 ヤフー! インコーポレイテッド インテリジェント・テキストツースピーチ合成
JP2010529519A (ja) 2007-04-28 2010-08-26 ノキア コーポレイション テキスト専用アプリケーションのための娯楽オーディオ
US9183831B2 (en) 2014-03-27 2015-11-10 International Business Machines Corporation Text-to-speech for digital literature

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
KR101594057B1 (ko) * 2009-08-19 2016-02-15 삼성전자주식회사 텍스트 데이터의 처리 방법 및 장치
EP2705515A4 (en) * 2011-05-06 2015-04-29 Seyyer Inc GENERATING VIDEO BASED ON TEXT
US10672399B2 (en) * 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US20140278403A1 (en) * 2013-03-14 2014-09-18 Toytalk, Inc. Systems and methods for interactive synthetic character dialogue
CN103761963A (zh) * 2014-02-18 2014-04-30 大陆汽车投资(上海)有限公司 包含情感类信息的文本的处理方法
US9570065B2 (en) 2014-09-29 2017-02-14 Nuance Communications, Inc. Systems and methods for multi-style speech synthesis
US10147416B2 (en) 2015-12-09 2018-12-04 Amazon Technologies, Inc. Text-to-speech processing systems and methods
WO2017109759A1 (en) * 2015-12-23 2017-06-29 Booktrack Holdings Limited System and method for the creation and playback of soundtrack-enhanced audiobooks
CN107516511B (zh) * 2016-06-13 2021-05-25 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
US20180032305A1 (en) 2016-07-29 2018-02-01 Paul Charles Cameron Systems and methods for automatic-creation of soundtracks for text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002518711A (ja) 1998-06-17 2002-06-25 ヤフー! インコーポレイテッド インテリジェント・テキストツースピーチ合成
JP2010529519A (ja) 2007-04-28 2010-08-26 ノキア コーポレイション テキスト専用アプリケーションのための娯楽オーディオ
US9183831B2 (en) 2014-03-27 2015-11-10 International Business Machines Corporation Text-to-speech for digital literature

Also Published As

Publication number Publication date
KR20210019534A (ko) 2021-02-22
KR102493141B1 (ko) 2023-01-31
JP2021530726A (ja) 2021-11-11
EP3824461B1 (en) 2022-08-31
CN112334973A (zh) 2021-02-05
EP3824461A1 (en) 2021-05-26
CN112334973B (zh) 2024-04-26
WO2020018724A1 (en) 2020-01-23

Similar Documents

Publication Publication Date Title
JP7252266B2 (ja) オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム
CN108806656B (zh) 歌曲的自动生成
WO2022121181A1 (zh) 新闻智能播报方法、装置、设备及存储介质
US8937620B1 (en) System and methods for generation and control of story animation
TWI511489B (zh) 語意音軌混合器
Tihelka et al. Current state of text-to-speech system ARTIC: a decade of research on the field of speech technologies
KR101594057B1 (ko) 텍스트 데이터의 처리 방법 및 장치
US20130246063A1 (en) System and Methods for Providing Animated Video Content with a Spoken Language Segment
US10453434B1 (en) System for synthesizing sounds from prototypes
CN114999441A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
Charalambous et al. Audio‐driven emotional speech animation for interactive virtual characters
Van Deemter et al. Fully generated scripted dialogue for embodied agents
US11195511B2 (en) Method and system for creating object-based audio content
CN116798405A (zh) 语音合成方法、装置、存储介质和电子设备
CN116825090B (zh) 语音合成模型的训练方法、装置及语音合成方法、装置
Lu et al. Multi-dimensional fusion: transformer and GANs-based multimodal audiovisual perception robot for musical performance art
Sharma et al. Towards understanding and verbalizing spatial sound phenomena in electronic music
Li et al. FastFoley: Non-autoregressive Foley Sound Generation Based on Visual Semantics
King A reading list of recent advances in speech synthesis
CN116863909B (zh) 基于因子图的语音合成方法、装置及系统
US20230386446A1 (en) Modifying an audio signal to incorporate a natural-sounding intonation
Liu et al. Adaptive music resizing with stretching, cropping and insertion: A generic content-aware music resizing framework
Loh et al. Accuracy performance and potentiality of real-time avatar lip sync animation in different languages
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
Patil et al. Expressive speech analysis for story telling application

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230323

R150 Certificate of patent or registration of utility model

Ref document number: 7252266

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150