JP7252266B2

JP7252266B2 - オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム

Info

Publication number: JP7252266B2
Application number: JP2020568423A
Authority: JP
Inventors: トニヒルヴォネン; ダニエルアルテアガ; プラエドゥアルドアイロン; マニングアレックスカブレル; リールー; カールヨナスローデン
Original assignee: ドルビー・インターナショナル・アーベー; ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2018-07-19
Filing date: 2019-07-17
Publication date: 2023-04-04
Anticipated expiration: 2039-07-17
Also published as: KR20210019534A; KR102493141B1; JP2021530726A; EP3824461B1; CN112334973A; EP3824461A1; CN112334973B; WO2020018724A1

Description

関連出願の相互参照
本出願は２０１８年７月１９日に出願されたスペイン特許出願第Ｐ２０１８３０７２８号、２０１８年９月２７日に出願された米国仮特許出願第６２／７３７，３３０号、および２０１８年１０月１９日に出願された欧州特許出願第１８２０１４４４．９号からの優先権の利益を主張するものであり、それらの各々は参照によりその全体が援用される。

本開示は、一般に、オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力に基づいてオブジェクトベースのオーディオコンテンツを作成するための方法に関するものであり、より具体的には、テキスト入力のより深いセマンティック解析に基づいてオブジェクトベースのオーディオコンテンツを作成することに関する。

いくつかの実施形態は、その開示を特に参照して本明細書で説明されるが、本開示はそのような使用分野に限定されず、より広い状況で適用可能であることが理解されるのであろう。

本開示全体にわたる背景技術のいかなる議論も、そのような技術が広く知られている、または当分野の共通な一般知識の一部を形成している、ことを自認するものとして考えられるべきではない。

今日、オーディオブックおよびオーディオプレイは、単に書かれたワードを超える経験豊富な文芸を提供している。オーディオブックやオーディオプレイで再生するためのテキストのスピーチへの変換は、よく認識され、絶え間なく開発されている。合成されたスピーチサウンドをより自然に、より感情的にすることは、到達されるべき１つの目標に過ぎない。

米国特許出願公開第２０１７／０１６９８１１号明細書は、例えば、文学作品のようなテキスト作品のテキスト・ツー・スピーチ（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈ）（ＴＴＳ）処理を実行するためのシステムおよび方法を開示している。これらの作品のテキストが処理され、チャプタ、パラグラフ、センテンス、ワード、ダイアローグのセクション、および他の文脈のセクションのうちの１つまたは複数に対応するオフセットが決定される。これらのオフセットを使用して、高品質のオーディオ出力を生成するために、ＴＴＳ処理を使用して、作品のどの部分および作品のどれくらいの量が一度に処理されるべきかがさらに決定される。次いで、このオーディオ出力は、ユーザデバイスに送信され、該デバイス上で再生されることができる。

米国特許出願公開第２０１６／００９３２８９号は、例えば、マルチスタイルスピーチ合成を実行するための技術を開示している。これらの技法は、テキストを含む入力と、テキストをスピーチとしてレンダリングする際に使用するための第１のスピーチスタイルの識別と、を得ること含む。テキストをスピーチとしてレンダリングする際に使用するための複数のスピーチセグメントがさらに識別され、識別された複数のスピーチセグメントは、第１のスピーチスタイルを有する第１のスピーチセグメントと、第１のスピーチスタイルとは異なる第２のスピーチスタイルを有する第２のスピーチセグメントとを含む。次いで、テキストは、識別された複数のスピーチセグメントを使用することにより、少なくとも部分的に、第１のスピーチスタイルを有するスピーチとしてレンダリングされる。

また、合成スピーチをより自然に、より感情的にすることに加えて、より深い感情体験を作り出すことによって、ユーザのリスニング体験を向上させることも試みられている。

欧州特許出願公開第３２７６６２３号は、例えば、関連するテキストの読み取りと同期再生することを意図したデジタルサウンドトラックを自動的に生成する方法を開示している。この方法は、セグメントレベルでテキストをシンタクティック的および／またはセマンティック的に解析して、連続感情モデルの文脈で各テキストセグメントの感情プロファイルを生成することを含む。次に、再生のために選択されるテキスト領域に対して、それぞれのサウンドトラックが生成される。

従来、オーディオコンテンツは、チャネルベースのフォーマットで作成および保存される。本明細書で使用されるように、「オーディオチャネル」または「チャネル」という用語は、通常、所定の物理的位置を有するオーディオコンテンツを指す。例えば、ステレオ、サラウンド５．１、サラウンド７．１等はすべて、オーディオコンテンツのためのチャネルベースのフォーマットである。近年、マルチメディア産業の発展に伴い、３次元（３Ｄ）オーディオコンテンツは、特に映画館および家庭においてますます人気が高まっている。

本明細書で使用されるように、「オーディオオブジェクト」という用語は、サウンドフィールド内に定義された持続時間の間存在する個々のオーディオ要素を指す。オーディオオブジェクトは、動的であっても静的であってもよい。任意選択的に、オーディオオブジェクトは、オブジェクトの位置、速度、およびサイズを記述する空間情報など、関連するメタデータを有することができる。改善された３Ｄリスニング体験を提供するために、オブジェクトベースのオーディオコンテンツが開発されている。サウンドデザイナーおよびアーティストは、３Ｄ空間でオーディオを自由にミックスし、サラウンドチャネルを介してエフェクトをステアリングし、高さチャネルを有するシームレスなオーバーヘッドディメンションを追加することができる。

ホームシアターおよびシネマの分野において既に広く適用されているが、オーディオブックおよび／またはオーディオプレイを聴くユーザにも、オブジェクトベースのオーディオコンテンツの利点を提供することが望ましい。したがって、本発明の目的は、オーディオブックまたはオーディオプレイを聴いている時間にイマーシブリスニング体験をユーザに提供するための方法、システムおよびコンピュータプログラム製品を提供することである。

米国特許出願公開第２０１７／０１６９８１１号明細書米国特許出願公開第２０１６／００９３２８９号明細書欧州特許出願公開第３２７６６２３号明細書

本開示の第１の態様によれば、オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法が提供される。本方法は、ａ）テキスト入力を受信するステップを含むことができる。本方法は、ｂ）受信されたテキスト入力のセマンティック解析を実行するステップをさらに含むことができる。本方法は、ｃ）セマンティック解析の１つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、１つまたは複数のオーディオオブジェクトを生成するステップをさらに含むことができる。本方法は、ｄ）１つまたは複数のオーディオオブジェクトのメタデータを生成するステップをさらに含むことができる。また、本方法は、ｅ）１つまたは複数のオーディオオブジェクトおよびメタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップをさらに含むことができる。

一実施形態では、本方法は、ｂｉ）セマンティック解析の１つまたは複数の結果として、スピーチおよびエフェクトの１つまたは複数のオリジンを識別するステップをさらに含むことができる。スピーチおよびエフェクトの１つまたは複数のオリジンを識別することにより、１つまたは複数のオーディオオブジェクトを、スピーチおよびエフェクトの１つまたは複数のオリジンに関連して生成することができる。

一実施形態では、本方法は、ｂｉｉ）セマンティック解析の１つまたは複数の結果としてスピーチ情報およびエフェクト情報を決定するステップをさらに含むことができる。スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの合成をガイドするために使用されてもよい。スピーチおよびエフェクトの１つまたは複数のオリジンが識別される場合、スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの１つまたは複数のオリジンに関連して決定されてもよい。

一実施形態では、本方法は、ｂｉｉｉ）セマンティック解析の１つまたは複数の結果として、空間情報を決定するステップをさらに含むことができる。空間情報を決定することにより、空間情報に基づいてメタデータを生成することができる。スピーチおよびエフェクトの１つまたは複数のオリジンが識別される場合、空間情報は、スピーチおよびエフェクトの１つまたは複数のオリジンに関連して決定されてもよい。

例えば、一実施形態では、オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法は、テキスト入力を受信するステップを含むことができる。本方法は、受信されたテキスト入力のセマンティック解析を実行するステップをさらに含むことができる。本方法は、セマンティック解析に基づいて、スピーチおよびエフェクトの１つまたは複数のオリジンを識別するステップをさらに含むことができる。本方法は、セマンティック解析に基づいてスピーチ情報およびエフェクト情報を決定するステップをさらに含んでもよい。本方法は、セマンティック解析に基づいて１つまたは複数のオリジンについての空間情報を決定するステップをさらに含むことができる。本方法は、スピーチ情報およびエフェクト情報に基づいてスピーチおよびエフェクトを合成して、スピーチおよびエフェクトの１つまたは複数のオリジンに関連する１つまたは複数のオーディオオブジェクトを生成するステップをさらに含むことができる。本方法は、空間情報に基づいて１つまたは複数のオーディオオブジェクトについてのメタデータを生成するステップをさらに含むことができる。本方法は、１つまたは複数のオーディオオブジェクトおよびメタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップをさらに含むことができる。

一実施形態では、本方法は、ａｉ）受信されたテキスト入力を正規化するステップをさらに含むことができる。正規化を実行することにより、受信されたテキスト入力は、例えば、数字、略語および／または記号を書かれたワードと同等のものに変換することによって、標準テキストに変換されてもよい。したがって、ステップｂ）において、標準テキストをより効率的に解析することができる。

一実施形態では、この方法は、ａｉｉ）受信されたテキスト入力のシンタクティック解析を実行するステップをさらに含むことができる。シンタクティック解析を行うことにより、受信されたテキスト入力の構造を得ることができる。したがって、テキスト構造の知識は、受信されたテキスト入力のより効率的なセグメント化を可能にし、したがって、より効率的なセマンティック解析を可能にする。

一実施形態では、セマンティック解析は、受信されたテキスト入力のセグメント化を含むことができる。セグメント化を適用することにより、受信されたテキスト入力は、所望のサイズのセグメント、例えば、ワード、センテンス、またはパラグラフに分離される。したがって、セマンティック解析では、各セグメントを個別に解析して、１つまたは複数の隣接セグメントを解析することにより文脈の決定も可能にすることができる。

一実施形態では、セマンティック解析は感情解析を含むことができる。感情解析は、ルールベースであってもよい。感情解析は、キーワードによりガイドされることもできる。したがって、セマンティック解析の１つまたは複数の結果は、受信されたテキスト入力に内在する意味を解析することにより効率的かつ正確な方法で決定することができる。

一実施形態では、セマンティック解析は、機械学習（例えば、ディープラーニング）を伴う自然言語処理を含むことができる。したがって、受信されたテキスト入力に内在する意味のより深い理解を達成することができる。

一実施形態では、スピーチおよびエフェクトのオリジンは、アクター、ナレーター、アイテム、およびアンビエンスのうちの１つまたは複数を含むことができる。

一実施形態では、スピーチ情報は、名前、性別、１人または複数のアクターの性質、および１人または複数のアクターの背景のうちの１つまたは複数に関する情報を含むことができる。

一実施形態では、スピーチは、テキスト・ツー・スピーチ合成を使用して合成することができる。テキスト・ツー・スピーチ合成は、ユニット選択スピーチ合成を含むことができる。

一実施形態では、スピーチの合成は、スタイル、韻律、およびヴォイスのうちの１つまたは複数の合成を含むことができる。

一実施形態では、スピーチの合成は、感情的なスピーチの合成を含むことができる。

一実施形態では、スピーチ情報は、セマンティック解析の１つまたは複数の結果として感情情報をさらに含むことができる。感情情報は、感情的なスピーチの合成をガイドするために使用されてもよい。感情情報には、少なくとも幸福、悲しみ、怒り、および中立性についての情報が含まれることがある。

一実施形態では、エフェクト情報は、雑音、音楽、周囲音、およびアイテム固有音のうちの１つまたは複数に関する情報を含むことができる。

一実施形態では、空間情報は、移動方向、速度、サイズ、形状、位置、コヒーレンス、および／または加速度のうちの１つまたは複数に関する情報を含むことができる。したがって、空間情報は、オーディオブックまたはオーディオプレイの再生中に、ユーザにイマーシブリスニング体験を提供することを可能にしてもよい。

一実施形態では、本方法は、追加の記録および／またはエフェクトを導入することをさらに含むことができる。

一実施形態では、本方法は、ｆ）オブジェクトベースのオーディオコンテンツを符号化するステップをさらに含むことができる。

本開示の第２の態様によれば、オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法が提供される。本方法は、ａ）テキスト入力を受信するステップを含むことができる。本方法は、ｂ）受信されたテキスト入力のセマンティック解析を実行するステップをさらに含むことができる。本方法は、ｃ）セマンティック解析の１つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、１つまたは複数のオーディオオブジェクトを生成するステップをさらに含むことができる。本方法は、ｄ）１つまたは複数のオーディオオブジェクトのメタデータを生成するステップをさらに含むことができる。本方法は、ｅ）１つまたは複数のオーディオオブジェクトおよびメタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップをさらに含むことができる。そして、本方法は、ｆ）オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするステップをさらに含むことができる。

一実施形態では、本方法は、ｂｉ）セマンティック解析の１つまたは複数の結果としてスピーチおよびエフェクトの１つまたは複数のオリジンを識別するステップをさらに含むことができる。

一実施形態では、本方法は、ｂｉｉ）セマンティック解析の１つまたは複数の結果としてスピーチ情報およびエフェクト情報を決定するステップをさらに含むことができる。

一実施形態では、本方法は、ｂｉｉｉ）セマンティック解析の１つまたは複数の結果として空間情報を決定するステップをさらに含むことができる。

一実施形態では、チャネルベースのフォーマットは、５．１、７．１、７．１．４、Ｂ－フォーマット、アンビソニックス、ステレオ、およびバイノーラルを含むことができる。

一実施形態では、本方法は、ａｉ）受信されたテキスト入力を正規化するステップをさらに含むことができる。

一実施形態では、本方法は、ａｉｉ）受信されたテキスト入力のシンタクティック解析を実行するステップをさらに含むことができる。

本開示の別の態様によれば、オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法を実行するように構成された１つまたは複数のプロセッサを含む、コンピュータベースのシステムが提供される。

一実施形態では、コンピュータベースのシステムは、テキスト入力の選択を容易にするためのユーザインターフェースを含むことができる。

本開示のさらに別の態様によれば、処理能力を有するデバイスによって実行されたときに、オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法を実行するように構成された命令を有するコンピュータ可読記憶媒体を備えるコンピュータプログラム製品が提供される。

ここで、本開示の例示的な実施形態を、添付の図面を参照して、単に例として説明する。
オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法の一例のフロー図を示す。「銀河ヒッチハイク・ガイド（Ｈｉｔｃｈｈｉｋｅｒ’ｓＧｕｉｄｅｔｏｔｈｅＧａｌａｘｙ）の抜粋に対して実行されるセマンティック解析の一例を示す。ルールベースのセマンティック解析の一例を概略的に示す。

概要
図１の例を参照して、オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法のフロー図を示す。最初のステップ、ステップ１０１では、テキスト入力が受信される。テキスト入力は、任意の考えられる方法、例えば、サーバ、記憶媒体から受信されてもよく、またはユーザによって入力されてもよい。また、テキスト入力のフォーマットに制限はない。テキスト入力は、標準テキストでも生テキストでもよい。一実施形態では、テキスト入力が生のテキスト、すなわち標準テキストではない場合、生のテキストは正規化されてもよい。標準テキストを生成するために、例えば、数字、略語および／または記号は、書かれたワードと同等のものに変換されてもよい。例示的な一実施形態では、ステップ１０２でセマンティック解析を実行する前に、受信されたテキスト入力はシンタクティック的に解析される。シンタクティック解析では、ワード順序を含むテキストの構造（内在する意味ではない）を解析してもよい。

ステップ１０２で、受信されたテキスト入力は、セマンティック解析を実行して解析される。詳細は、以下にさらに記載される。例示的な実施形態では、セマンティック解析の１つまたは複数の結果として、スピーチおよびエフェクトのオリジンを識別することができる。例示的な実施形態では、代替的または追加的に、セマンティック解析の１つまたは複数の結果として、スピーチ情報およびエフェクト情報を決定することができる。スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの１つまたは複数のオリジンに関連して決定されてもよい。例示的な実施形態では、セマンティック解析の１つまたは複数の結果として、スピーチ情報は、感情情報をさらに含むことができる。さらなる例示的な実施形態では、代替的または追加的に、セマンティック解析の１つまたは複数の結果として、空間情報を決定することができる。空間情報は、スピーチおよびエフェクトの１つまたは複数のオリジンに関連して決定されてもよい。本開示によれば、ステップ１０２におけるセマンティック解析の１つまたは複数の結果を決定することは限定されないが、例示的な実施形態では、スピーチおよびエフェクトの少なくとも１つまたは複数のオリジンおよび空間情報は、セマンティック解析の１つまたは複数の結果として決定されてもよい。

ステップ１０３では、次に、スピーチ１０３ａとエフェクト１０３ｂは、セマンティック解析の１つまたは複数の結果に基づいて合成され、このようにして１つまたは複数のオーディオオブジェクトが生成される。詳細は、以下にさらに記載される。例示的な実施形態では、スピーチおよびエフェクトの合成は、スピーチ情報およびエフェクト情報にそれぞれ基づいてもよい。例示的な実施形態では、１つまたは複数のオーディオオブジェクトは、スピーチおよびエフェクトの識別されたオリジンのそれぞれに関連して生成されてもよい。例えば、各オリジンに対して、１つのオーディオオブジェクトを生成することができる。代替的または追加的に、スピーチおよびエフェクトの２つ以上のオリジンは、所与のオーディオオブジェクトにマッピングされてもよい。ステップ１０３ｃでは、１つまたは複数のオーディオオブジェクトについてのメタデータも生成される。一実施形態では、メタデータは、空間情報に基づいて生成されてもよい。さらなる例示的な実施形態では、メタデータは、スピーチおよびエフェクトの識別されたオリジンのそれぞれに関連して生成されてもよい。

ステップ１０４で、１つまたは複数のオーディオオブジェクトおよびメタデータを含むオブジェクトベースのオーディオコンテンツが作成される。

一実施形態では、オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成する方法は、以下のステップを含むことができる。最初のステップでは、テキスト入力が受信されてもよい。次のステップでは、受信されたテキスト入力のセマンティック解析が実行されてもよい。次のステップでは、スピーチおよびエフェクトの１つまたは複数のオリジンがセマンティック解析の１つまたは複数の結果として識別されてもよい。次のステップでは、スピーチ情報およびエフェクト情報がセマンティック解析の１つまたは複数の結果として決定されてもよい。次のステップでは、スピーチおよびエフェクトの１つ以上のオリジンの空間情報が、セマンティック解析の１つまたは複数の結果として決定されてもよい。次のステップでは、スピーチおよびエフェクトが、スピーチおよびエフェクトの１つまたは複数のオリジンに関連する１つまたは複数のオーディオオブジェクトを生成するために、スピーチ情報およびエフェクト情報に基づいて合成されてもよい。次のステップでは、空間情報に基づいて、１つまたは複数のオーディオオブジェクトについて、メタデータが生成されてもよい。次のステップでは、１つまたは複数のオーディオオブジェクトとメタデータとを含むオブジェクトベースのオーディオコンテンツを作成することができる。

さらなる例示的な実施形態では、スピーチ情報は感情情報を含むことができ、スピーチの合成は、次いで、感情情報に基づく感情的なスピーチの合成を含むことができる。

セマンティック解析
以下、ステップ１０２で実行されるセマンティック解析の一例をより詳細に説明する。セマンティック解析は、受信したテキスト入力に内在する意味を決定することを意図している。例示的な実施形態では、セマンティック解析の１つまたは複数の結果として、スピーチおよびエフェクトのオリジンを決定することができる。例示的な実施形態では、代替的または追加的に、セマンティック解析の１つまたは複数の結果として、スピーチ情報およびエフェクト情報を決定することができる。スピーチ情報およびエフェクト情報は、スピーチおよびエフェクトの１つまたは複数のオリジンに関連して決定されてもよい。さらなる例示的な実施形態では、代替的または追加的に、セマンティック解析の１つまたは複数の結果として、空間情報を決定することができる。空間情報は、スピーチおよびエフェクトの１つまたは複数のオリジンに関連して決定されてもよい。例示的な実施形態では、セマンティック解析の１つまたは複数の結果として、感情情報を決定することができる。

例示的な実施形態では、セマンティック解析は、受信されたテキスト入力のセグメンテーションを含むことができる。テキストセグメントは、例えば、シラブル、ワードまたはセンテンス、パラグラフ、ページまたはチャプタであってもよい。いくつかの例示的な実施形態では、シンタクティック解析は、解析されたテキスト構造に基づいてテキストのセグメント化を単純化することを可能にするために、セマンティック解析の前に実行されてもよい。テキストセグメントのサイズは、決定されるべき情報のタイプに適合させることができる。例えば、スピーチ情報またはエフェクト情報を決定するために、センテンスのフォーマットのセグメント化が実行されてもよい。

セマンティック解析を使用して、例示的な実施形態では、スピーチおよびエフェクトのオリジンは、受信されたテキスト入力において決定されてもよい。例示的な実施形態では、スピーチおよびエフェクトのオリジンは、１つまたは複数のアクター、ナレーター、アイテム、およびアンビエンスを含むことができる。セマンティック解析を実行する方法は限定されない。例示的な実施形態では、感情解析を実行することができる。感情解析では、キーワードを定義し、これらのキーワードに基づいてテキストを解析することができる。

感情解析の例は、１９７９年１０月１２日に最初に発行されたＤｏｕｇｌａｓＡｄａｍｓによって作成された「銀河ヒッチハイク・ガイド（Ｈｉｔｃｈｈｉｋｅｒ’ｓＧｕｉｄｅｔｏｔｈｅＧａｌａｘｙ）の抜粋により図２で与えられる。括弧内のワードは、Ｙ軸上に示されるように、それぞれのテキストセグメント、この場合はセンテンスから抽出されたキーワードに対応する。キーワードは、ユーザが定義することも、データベースから取り出すこともできる。後者の場合、データベースは機械学習に基づいて作成されてもよい。したがって、ユーザの好みのジャンルに応じて、キーワードデータベースは、ユーザの好みに応じてパーソナライズされてもよい。感情解析の結果は、２つのグラフ２０１、２０２の形で示されている。この場合、ナレーター２０１およびアクター２０２は、スピーチのオリジンとして識別される。

例示的な実施形態では、感情解析がルールベースであってもよい。図３の例を参照すると、ルールベースの解析の結果が概略的に示されている。結果は、ナレーター３０１と、２人のアクター３０２、３０３とにより、スピーチおよびアンビエンスのオリジンとして、この場合、雨３０５および雷３０４をエフェクトのオリジンとして、分類される。

セマンティック解析を使用して、例示的な実施形態では、スピーチ情報およびエフェクト情報は、識別されたオリジンのそれぞれについて決定される。

例示的な実施形態では、スピーチ情報は、名前、性別、１人または複数のアクターの性質、および１人または複数のアクターの背景のうちの１つまたは複数に関する情報を含むことができる。スピーチ情報は、ステップ１０３において、スピーチの合成をガイドするために使用されてもよい。

例示的な実施形態では、エフェクト情報は、雑音、音楽、周囲音、およびアイテム固有音のうちの１つまたは複数に関する情報を含むことができる。エフェクト情報は、ステップ１０３において、エフェクトの合成をガイドするために使用されてもよい。

セマンティック解析を実行するために、テキストセグメントとその内在する意味との間の関係を確立することができる。そのような関係を確立するために利用され得る様々な技術が存在する。そのような技法の一例は形式意味論であり、センテンスの真理値および他のセンテンスに対するその論理的関係が、モデルに対して評価される。真理条件付き意味論では、自然言語センテンスは、それが真である条件のメタ言語記述に関連する。概念意味論の技法は、フレーズのシンタクティック特性がフレーズの頭にあるワードの意味を反映すると仮定する。語彙的意味論は、ワードの意味がその文脈により完全に反映されると仮定する。

上記の技術の各々は、ステップ１０２において、セマンティック解析を実行するための基礎として利用されてもよい。しかしながら、本開示は、一般的な技術、または特に上記の技術のうちの１つの適用に限定されない。ステップ１０２におけるセマンティック解析は、受信されたテキスト入力の内在する意味が決定され得る限り、任意の他の考えられる方法で実行されてもよい。

再び図２の例を参照すると、この場合、決定されたスピーチ情報は、識別されたアクター２０２について、名前「アーサー」、性別「男性」を含むことができ、また、例えば、「毅然とした」などの特徴も含むことができる。しかしながら、特徴という用語は、アクターの個々の性質を包含するだけでなく、見た目の外観、衣服のスタイルなどの情報も包含することができる。アクター２０２「アーサー」の背景もまた、小説の別の部分に基づいて決定することができる。アクターの背景には、仕事や特殊な能力に関する情報が含まれる。一般に、受信されたテキスト入力の解析された部分が大きいほど、スピーチ情報の決定はより洗練される。

図２の例を参照すると、エフェクトのオリジンとして、雨、ブルドーザー、および巨大な物体を識別することができる。この場合、一例として、決定されたエフェクト情報は、スコールの雨であるという周囲音の例として、ブルドーザーが瓦礫の上をゆっくり進むアイテム固有の音の例として、および巨大な黄色の物体が雲を通って悲鳴をあげるように見えるアイテム固有の音の別の例として、含んでもよい。

例示的な実施形態では、スピーチ情報は感情情報も含むことができる。感情情報には、少なくとも幸福、悲しみ、怒り、中立などが含まれる。感情情報は、感情情報のより洗練された決定、したがって感情的なスピーチのより洗練された合成を可能にするために、より多くの感情をさらに含むことができる。連続感情モデルなどのモデルを使用して、感情情報を決定することができる。感情情報は、感情的なスピーチの合成をガイドするために使用されてもよい。識別されたアクターの感情の決定がより正確であればあるほど、感情的なスピーチの合成はより現実的である。この場合、ユーザは、全体的なリスニング体験を向上させるニュアンスを含めて、それぞれの感情をより容易に気付くことができる。

例示的な実施形態では、ステップ１０２におけるセマンティック解析は、機械学習（例えば、ディープラーニング）に基づく自然言語処理を含むことができる。このようにして、感情情報を決定することもできる。機械学習は、それぞれのテキストに内在する意味のより深い理解を可能にする。この点で留意すべきは、テキストがセグメント化されている場合、ステップ１０２のセマンティック解析中に、テキストセグメントのサイズが変化する可能性があることである。さらに、個々のセグメント自体が解析されるだけでなく、それら自体が解析されてもよい。隣接するセグメントの解析は、テキストセグメントの正しい意味を決定するための関連する文脈を提供することができる。例えば、テキストセグメントが１つのワードの大きさであるならば、「ジャンプ」というワードは、その文脈によって異なる見方をされるかもしれない。「私はそれらにジャンプする！」というセンテンスは、「私は喜びのあまりジャンプしている！」という文脈とは異なる感情状態と解釈を意味するかもしれない。第１の場合は怒りと解釈され得るが、第２の場合は反対、すなわち幸福を表す。他のサイズのテキストセグメントについても同様である。

例示的な実施形態では、空間情報は、ステップ１０２におけるセマンティック解析の１つまたは複数の結果として決定されてもよい。空間情報は、機械学習に基づく自然言語処理を使用して決定することができる。セマンティック解析のこの部分は、また、空間情報に関連するテキストの意味を識別するように適合された多数の可能なサブルーチンを実行することを含むことができる。一実施形態では、空間情報は、生成されたオーディオオブジェクトの各々のためのメタデータを生成するために使用されてもよい。例示的な実施形態では、スピーチオブジェクトは、スピーチおよびエフェクトの識別されたオリジンそれぞれについて、個別に生成されてもよい。代替的または追加的に、例えば、オリジンが互いに近接している場合、またはオリジンの同時移動のために、スピーチおよびエフェクトのオリジンを単一のオーディオオブジェクトにマッピングすることもできる。例示的な実施形態では、空間情報は、スピーチおよびエフェクトの識別されたオリジンのそれぞれについて決定されてもよい。空間情報の例は以下を含む：
－シーン内のサイズと形状
－シーン内の位置：位置は、１次元、２次元、または３次元で確立され得る。
－コヒーレンス
－シーンを通過する移動方向
－シーンを通過する速度および／または加速度
－そのアイテムのアクティビティに関連する特徴に基づく分類
－上記パラメータの過去の値の履歴または集計された統計値、およびアクティビティのデューティサイクル、アクティビティの長さの統計値など、シーン周辺の推定値

図２の例を参照すると、空間情報は、例えば、瓦礫の上をゆっくり進みながら近づいてくるブルドーザー、または天井から悲鳴を上げている巨大な黄色い物体のような、オーディオコンテンツの再生中に、イマーシブリスニング体験を提供することを可能にすることができる。

スピーチとエフェクトの合成
ステップ１０２におけるセマンティック解析の１つまたは複数の結果に基づいて、ステップ１０３において、スピーチおよびエフェクトが合成される。例示的な一実施形態では、スピーチおよびエフェクトは、スピーチ情報およびエフェクト情報に基づいて合成されることができる。本開示は、この点に関していかなる特定の技術にも限定されない。スピーチおよびエフェクトは、最新技術のテキスト・ツー・スピーチ技術（ＴＴＳ）またはエフェクト合成技術を使用して合成することができる。エフェクト合成には、例えば、ＮＳｙｎｔｈを用いることができる。既存のＴＴＳ技法の例には、連結的合成、正弦波合成、隠れマルコフモデル（ＨＭＭ）ベースの合成、フォルマント合成、および調音合成が含まれる。例示的な実施形態では、ユニット選択合成を使用して、ステップ１０３でスピーチを合成することができる。スピーチおよびエフェクトを合成するために、オーディオライブラリデータベースにアクセスして、合成用のそれぞれのオーディオデータを選択することができる。

例示的な実施形態では、ステップ１０３において、スピーチは、ナレーターおよび１人または複数のアクターなど、識別されたスピーチのオリジンについて合成されることができる。エフェクトは、アイテムおよびアンビエンスのようなエフェクトの識別されたオリジンに対して合成されてもよい。このようにして、スピーチオブジェクトは、スピーチおよびエフェクトの識別されたオリジンごとに個別に生成され得る。代替的または追加的に、例えば、オリジンが互いに近接している場合、またはオリジンの同時移動のために、スピーチおよびエフェクトのオリジンを単一のオーディオオブジェクトにマッピングすることもできる。

例示的な実施形態では、スピーチおよびエフェクトの合成のためのガイドとして、ステップ１０２でセマンティック解析の１つまたは複数の結果として決定されたスピーチ情報およびエフェクト情報を使用することができる。例示的な実施形態では、スピーチ合成は、感情情報によりガイドされる感情的なスピーチの合成を含むことができる。

例示的な実施形態では、スピーチ合成は、スタイル、韻律、およびヴォイスの合成を含むことができる。スタイルは、例えば、小説の設定、すなわち、歴史的設定またはサイエンスフィクション設定に関連して、または、例えば、アンカーマンであるようなアクターの特定の機能に関連して選択されてもよい。

ヴォイスは、話すこと、歌うこと、叫ぶことなど、スピーチ内容の調音または表現の形態に関連し得る。ヴォイスは、また、性別にも関係し得る。ヴォイスは、また、異なるトーンに関して合成されてもよい。

韻律に関して、合成は、以下を含むそれぞれの韻律パラメータに基づくことができる：
－ヴォイスのピッチ
－音の長さ
－音の大きさまたは目立ち
－音色
－音質
－休止

例えば、ヴォイスのピッチを変えることは、ステートメントの強調を反映するために使用されてもよい。これらのパラメータの選択的な組み合わせは、例えば、イントネーション、ストレス、リズム、テンポ、およびスピーチの音量を実現することを可能にできる。特定のイントネーションは例えば、言語の性質を反映するように合成されてもよい。ピッチ範囲を調整することは、例えば、ピッチ範囲のより高い部分に位置する興奮または恐怖を反映するための感情的なスピーチの合成に使用されてもよい。強勢のあるシラブルは、ピッチの目立ち（隣接するシラブルのピッチレベルとは異なるピッチレベル）、長さ、ラウドネス、および音色を調整することによって合成することができる。強勢のあるシラブルは、リスナーにより発音されるように体験されてもよい。また、強勢のあるシラブルを使用して、アクターの性質または背景を作成するためのツールとすることができる、合成されたスピーチにおける文法およびシンタクティックを反映することもできる。また、このようにして、スピーチのテンポやリズムを合成してもよい。スピーチ合成では、スタイリスティックメジャーとして休止を使用することもできる。休止は、呼吸を反映することがあり、したがって感情を反映するために使用することもできる。休止で満たされた場合は、ためらいを反映することがある。休止の欠如は、また、ワードのグループ化またはワードまたはフレーズの集合体を作成するために使用できる。文字またはシラブルの省略と組み合わせた休止の欠如は、特定のスタイルのスピーチまたは方言を反映するために使用されてもよい。

テキストからのスピーチの合成においても、テキストのパースは、リスナーがテキストのシンタクティック構造を認識できるようにすると考えることができる。スタイリスティックメジャーとして、抑揚と強勢の組み合わせは、センテンスの意図した意味を達成するために、特定のワードまたはシラブルを強調するために使用されてもよい。

韻律パラメータは、また、１人または複数のアクター間の談話を反映するために使用されてもよい。

既に上述したように、例示的な一実施形態では、スピーチの合成は、感情的なスピーチの合成を含むことができる。この点に関して、韻律一般および特に韻律パラメータの組み合わせは、リスナーに感情を移入することを可能にできる。

ステップ１０３では、既に述べたように、スピーチ以外に、エフェクトも合成される。スピーチおよびエフェクトの合成は、並列トラックで行うことができる。背景技術イベントまたは戦闘シーンなどの特定のシーンなどの特定のイベントを、このコンテキストで合成することができる。

メタデータ
ステップ１０３では、スピーチおよびエフェクトの合成に加えて、各オーディオオブジェクトについてのメタデータ（例えば空間メタデータ）も生成される。一実施形態では、メタデータは、ステップ１０２でセマンティック解析の１つまたは複数の結果として決定された空間情報に基づいて生成されてもよい。また、空間情報の他に、スピーチやエフェクトなどのオーディオオブジェクトの種類、アクターの名前や雨などのエフェクトの種類などのオーディオオブジェクトの名前や識別子、シーン全体の解析、オーディオオブジェクトを出力するための特定のスピーカーなどに基づいて、メタデータを生成してもよい。

オブジェクトベースのオーディオコンテンツ
ステップ１０４で、１つまたは複数のオーディオオブジェクトとそれぞれのメタデータとを含むオブジェクトベースのオーディオコンテンツを作成することができる（例えば、出力）。例示的な一実施形態では、ステップ１０４で作成されたオブジェクトベースのオーディオコンテンツが符号化され、配信される。これにより、複数の表現を提供し、ユーザが従来のオーディオブックと、アクターやエフェクトなどを使ったオーディオプレイの間で選択できるようになる。オブジェクトベースのオーディオコンテンツを符号化する方法は、本開示に限定されず、オーディオオブジェクトタイプに基づいて決定されてもよい。

本開示の一態様によれば、ステップ１０４で作成されたオブジェクトベースのオーディオコンテンツは、チャネルベースのフォーマットにレンダリングされてもよい。例示的な一実施形態では、チャネルベースのフォーマットは、５．１、７．１、７．１．４、Ｂ－フォーマット、アンビソニックス、ステレオおよびバイノーラルを含む。

ステップ１０４で作成されたオブジェクトベースのオーディオコンテンツは、プロ・ツールス（ＰｒｏＴｏｏｌｓ）およびドルビーアトモスプロダクションスイート（ＤｏｌｂｙＡｔｍｏｓｐｒｏｄｕｃｔｉｏｎｓｕｉｔｅ）を含むさらなるミキシングおよびレンダリングのために、ドルビーアトモス（ＤｏｌｂｙＡｔｍｏｓ）コンテンツ作成ワークフローにインポートすることもできる。

オブジェクトベースのオーディオコンテンツのレンダリング
本開示は、オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするための特定の方法に限定されない。この点に関して、イマーシブリスニング体験を生成するために、任意の考えられる方法を適用することができる。

一例として、オブジェクトおよびチャネルレンダラを使用することができる。オブジェクトおよびチャネルレンダラは、ソースパンナー、ランピングミキサ、スピーカーデコリレータ、およびミキシングステージを含んでもよい。オブジェクトおよびチャネルレンダラは、メタデータ、オーディオデータ、および任意でリスニング環境のスピーカーレイアウトを入力として受け取ることができる。オブジェクトおよびチャネルレンダラは、１つまたは複数のスピーカーフィードを出力することができる。ソースパンナーは、メタデータを取得し、ソースをパンしてスピーカーゲインを生成することができる。ランピングミキサは、スピーカーフィードを生成するために、オーディオデータをスピーカーゲインとミックスすることができる。ソースパンナーおよびランピングミキサ、および任意選択でスピーカーデコリレータは、レンダリングユニットを形成するということができる。

解釈
特に明記しない限り、以下の説明から明らかなように、開示された説明全体を通して、「処理する」、「計算する」、「算出する」、「決定する」、「解析する」などの用語を利用することは、電子量などの物理量として表されるデータを、物理量として同様に表される他のデータに操作および／または変換する、コンピュータまたはコンピューティングシステム、または同様の電子コンピューティングデバイスの動作および／またはプロセスを指すことが理解される。

同様の方法で、「プロセッサ」という用語は、たとえば、レジスタおよび／またはメモリから、その電子データをレジスタおよび／またはメモリに格納できる他の電子データに変換するための、電子データを処理するデバイスまたはデバイスの任意のデバイスまたは部分を指す。「コンピュータ」または「コンピューティングマシン」または「コンピューティングプラットフォーム」は、１つまたは複数のプロセッサを含むことができる。

本明細書に記載する方法論は、一実施形態において、本明細書に記載する方法の少なくとも１つを実行する１つまたは複数のプロセッサによって実行されるときに、命令のセットを含むコンピュータ可読（マシン可読）コードを受け入れる１つまたは複数のプロセッサによって実行可能である。取られるべきアクションを指定する命令のセット（シーケンシャルまたはその他）を実行することができる任意のプロセッサが含まれる。したがって、一例は、１つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、ＣＰＵ、グラフィックス処理ユニット、およびプログラマブルＤＳＰユニットのうちの１つまたは複数を含むことができる。処理システムは、さらに、メインＲＡＭおよび／またはスタティックＲＡＭ、および／またはＲＯＭを含むメモリサブシステムを含むことができる。コンポーネント間の通信のために、バスサブシステムが含まれてもよい。処理システムは、さらに、ネットワークによって結合されたプロセッサを有する分散処理システムであってもよい。処理システムがディスプレイを必要とする場合、そのようなディスプレイは、例えば、液晶ディスプレイ（ＬＣＤ）またはブラウン管ディスプレイ（ＣＲＴ）を含むことができる。手動データ入力が必要な場合、処理システムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御デバイス、などのうちの１つまたは複数の入力デバイスも含む。処理システムは、ディスクドライブユニットなどのストレージシステムを含むこともできる。いくつかの構成では、処理システムは、サウンド出力デバイス、およびネットワークインターフェースデバイスを含んでもよい。したがって、メモリサブシステムは、１つ以上のプロセッサにより本明細書に記載する１つ以上の方法を実行させる命令のセットを含むコンピュータ可読コード（例えば、ソフトウェア）を搬送するコンピュータ可読キャリア媒体を含む。本方法がいくつかの要素、例えばいくつかのステップを含む場合、特に記述されない限り、そのような要素の順序付けは暗示されないことに留意されたい。ソフトウェアはハードディスク内に存在してもよく、あるいは、コンピュータシステムによる実行中に、ＲＡＭ内および／またはプロセッサ内に、完全にまたは少なくとも部分的に存在してもよい。したがって、メモリおよびプロセッサは、また、コンピュータ可読コードを搬送するコンピュータ可読キャリア媒体を構成する。さらに、コンピュータ可読キャリア媒体は、コンピュータプログラム製品を形成してもよく、またはコンピュータプログラム製品に含まれてもよい。

代替の実施形態では、１つまたは複数のプロセッサは、スタンドアロンデバイスとして動作するか、または例えば、他のプロセッサにネットワーク接続されてもよく、ネットワーク化された展開において、１つまたは複数のプロセッサは、サーバユーザネットワーク環境におけるサーバまたはユーザマシンの容量において、またはピアツーピアまたは分散ネットワーク環境におけるピアマシンとして動作してもよい。１つまたは複数のプロセッサは、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチ、もしくはブリッジ、またはそのマシンによってとられるべきアクションを指定する（シーケンシャルまたは他の方法で）一組の命令を実行することができる任意のマシンを形成してもよい。

「機械」という用語は、また、本明細書に記載される方法のいずれか１つまたは複数を実行するための命令のセット（または複数のセット）を個別にまたは共同で実行する機械のいずれかの集合を含むと解釈されることに留意されたい。

したがって、本明細書で説明される方法のそれぞれの１つの例示的な実施形態は、命令のセット、たとえば、１つまたは複数のプロセッサ、たとえば、ウェブサーバ構成の一部である１つまたは複数のプロセッサ上で実行するためのコンピュータプログラムを搬送するコンピュータ可読キャリア媒体の形態である。したがって、当業者によって理解されるように、本開示の例示的な実施形態は、方法、専用装置などの装置、データ処理システムなどの装置、またはコンピュータ可読キャリア媒体、たとえばコンピュータプログラム製品として実施されてもよい。コンピュータ可読キャリア媒体は、１つまたは複数のプロセッサで実行されると、プロセッサに方法を実装させる命令セットを含むコンピュータ可読コードを搬送する。したがって、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、またはソフトウェアおよびハードウェアの態様を組み合わせた例示的な実施形態の形態をとることができる。さらに、本開示は、媒体に具現化されたコンピュータ可読プログラムコードを搬送するキャリア媒体（例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品）の形態をとることができる。

ソフトウェアは、さらに、ネットワークインターフェースデバイスを介して、ネットワークに亘って送受信されてもよい。キャリア媒体は例示的な実施形態では単一の媒体であるが、「キャリア媒体」という用語は、１つまたは複数の命令セットを格納する単一の媒体または複数の媒体（例えば、集中型または分散型データベース、および／または関連するキャッシュおよびサーバ）を含むものと解釈されるべきである。「キャリア媒体」という用語は、１つまたは複数のプロセッサによって実行される命令セットを格納、符号化、または搬送することができ、１つまたは複数のプロセッサに本開示の方法のうちの任意の１つまたは複数を実行させる任意の媒体も含むものと解釈されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、および伝送媒体を含むが、これらに限定されない多くの形態をとることができる。不揮発性媒体には、例えば、光ディスク、磁気ディスク、光磁気ディスクが含まれる。揮発性媒体は、メインメモリのようなダイナミックメモリを含む。伝送媒体には、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線および光ファイバが含まれる。伝送媒体はまた、電波および赤外線データ通信中に生成されるような音波または光波の形態をとってもよい。したがって、例えば、「キャリア媒体」という用語は、ソリッドステートメモリ、光媒体および磁気媒体で実施されるコンピュータ製品、少なくとも１つのプロセッサまたは１つ以上のプロセッサによって検出可能であり、実行されたときに方法を実施する命令のセットを表す伝搬信号を担持する媒体、および１つまたは複数のプロセッサのうちの少なくとも１つのプロセッサによって検出可能であり、命令のセットを表す伝搬信号を担持するネットワーク内の伝送媒体を含むが、これらに限定されないものと解釈されるべきである。

方法のステップは、記憶デバイスに記憶された処理（例えば、コンピュータ可読コード）の適切なプロセッサ（またはプロセッサ）によって一実施例で実行されることが理解されるのであろう。本開示は任意の特定の実装またはプログラミング技法に限定されず、本開示は本明細書で説明される機能を実装するための任意の適切な技法を使用して実装され得ることも理解されるのであろう。本開示は、いかなる特定のプログラミング言語またはオペレーティングシステムにも限定されない。

本開示全体を通して「１つの例示的な実施形態」、「いくつかの例示的な実施形態」または「例示的な一実施形態」と言及することは、例示的な実施形態に関連して説明された特定の特徴、構造または性質が本開示の少なくとも１つの例示的な実施形態に含まれることを意味し、したがって、本開示全体を通して様々な場所における「１つの例示的な実施形態において」、「いくつかの例示的な実施形態において」または「例示的な一実施形態において」という語句の出現は必ずしもすべて同じ例示的な実施形態を言及するわけではない。さらに、特定の特徴、構造、または特性は、１つまたは複数の例示的な実施形態において、本開示から当業者には明らかであるように、任意の適切な方法で組み合わせることができる。

本明細書で使用されるように、共通のオブジェクトを記述するための順序形容詞「第１」、「第２」、「第３」などの使用は、単に、類似のオブジェクトの異なるインスタンスが参照されていることを示し、そのように記述されたオブジェクトが、時間的、空間的、ランキングで、または任意の他の方法で、所与のシーケンスでなければならないことを暗示することを意図していない。

以下の特許請求の範囲および本明細書の説明において、備える（ｃｏｍｐｒｉｓｅｄｏｆ）、または備える（ｗｈｉｃｈｃｏｍｐｒｉｓｅｓ）の任意の１つの用語は、その用語に続く要素／特徴を少なくとも備えるが、他を除外しないことを意味するオープンな用語である。したがって、備えるという用語は、特許請求の範囲で使用される場合、その後に列挙される手段または要素またはステップに限定するものとして解釈されるべきではない。例えば、ＡおよびＢを備えるデバイスという表現の範囲は、要素ＡおよびＢのみからなるデバイスに限定されるべきではない。本明細書で使用されるような、含む（ｉｎｃｌｕｄｉｎｇ）、または含む（ｗｈｉｃｈｉｎｃｌｕｄｅｓ）、または含む（ｔｈａｔｉｎｃｌｕｄｅｓ）という用語のうちの任意の１つの用語はまた、その用語に続く要素／特徴を少なくとも含むことを意味するが、他を排除しないオープンな用語である。したがって、含むこと（ｉｎｃｌｕｄｉｎｇ）は備えること（ｃｏｍｐｒｉｓｉｎｇ）と同義であり、それを意味する。

本開示の例示的な実施形態の上記の説明では、本開示の様々な特徴が本開示を合理化し、様々な発明の態様のうちの１つまたは複数の理解を助けるために、単一の例示的な実施形態、図、またはそれらの説明に一緒にグループ化されることがあることを理解されたい。しかしながら、この開示方法は、特許請求の範囲が各特許請求の範囲に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、前述の開示された単一の例示的な実施形態のすべての特徴よりも少ない特徴にある。したがって、本明細書に続く特許請求の範囲は本明細書に明確に組み込まれ、各特許請求の範囲はそれ自体が本開示の別個の例示的な実施形態として存在する。

さらに、本明細書に記載されるいくつかの例示的な実施形態は他の例示的な実施形態に含まれる他の特徴ではないいくつかの特徴を含むが、異なる例示的な実施形態の特徴の組合せは、当業者によって理解されるように、本開示の範囲内にあることを意味し、異なる例示的な実施形態を形成する。例えば、以下の特許請求の範囲では、特許請求の範囲に記載された実施形態のいずれも、任意の組み合わせで使用することができる。

本明細書で提供される説明では、多数の具体的な詳細が記載される。しかしながら、本開示の例示的な実施形態は、これらの特定の詳細なしに実施されてもよいことが理解される。他の例では、この説明の理解を不明瞭にしないために、周知の方法、構造、および技法は詳細に示されていない。

したがって、開示の最良の形態であると考えられるものが説明されてきたが、当業者は開示の精神から逸脱することなく、他のおよびさらなる修正がそれに対して行われ得ることを認識し、開示の範囲内にあるようなすべてのそのような変更および修正を請求することが意図される。例えば、上記の任意の方式は、使用され得る手順を単に代表するものである。機能はブロック図に追加されてもよいし、ブロック図から削除されてもよく、動作は、機能ブロック間で交換されてもよい。ステップは、本開示の範囲内で説明される方法に追加または削除されてもよい。

本発明の様々な態様は、以下の列挙された例示的な実施形態（ｅｎｕｍｅｒａｔｅｄｅｘａｍｐｌｅｅｍｂｏｄｉｍｅｎｔｓ：ＥＥＥ）から理解され得る：
１．オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
ａ）テキスト入力を受信するステップと、
ｂ）受信された前記テキスト入力のセマンティック解析を実行するステップと、
ｃ）前記セマンティック解析の前記１つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、１つまたは複数のオーディオオブジェクトを生成するステップと、
ｄ）前記１つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
ｅ）前記１つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
を含む、方法。
２．前記方法は、ｂｉ）前記セマンティック解析の前記１つまたは複数の結果として、スピーチおよびエフェクトの１つまたは複数のオリジンを識別するステップ、をさらに含む、ＥＥＥ１に記載の方法。
３．スピーチおよびエフェクトの前記オリジンは、アクター、ナレーター、アイテム、およびアンビエンスのうちの１つまたは複数を含む、ＥＥＥ２に記載の方法。
４．ｂｉｉ）前記セマンティック解析の１つまたは複数の結果としてスピーチ情報および／またはエフェクト情報を決定するステップをさらに含む、ＥＥＥ１～３のいずれかに記載の方法。
５．前記スピーチ情報は、名前、性別、１人または複数のアクターの性質、および１人または複数のアクターの背景のうちの１つまたは複数に関する情報を含む、ＥＥＥ４に記載の方法。
６．前記スピーチ情報は、前記セマンティック解析の１つまたは複数の結果として感情情報をさらに含む、ＥＥＥ４またはＥＥＥ５に記載の方法。
７．前記感情情報は、少なくとも幸福、中立性、怒り、および悲しみに関する情報を含む、ＥＥＥ６に記載の方法。
８．前記エフェクト情報は、雑音、音楽、周囲音、およびアイテム固有音のうちの１つまたは複数に関する情報を含む、ＥＥＥ４～７のいずれかに記載の方法。
９．ｂｉｉｉ）前記セマンティックの１つまたは複数の結果として空間情報を決定するステップをさらに含む、ＥＥＥ１～８のいずれかに記載の方法。
１０．前記空間情報は、移動方向、速度、サイズ、形状、位置、コヒーレンス、または加速度のうちの１つまたは複数に関する情報を含む、ＥＥＥ９に記載の方法。
１１．ａｉ）受信された前記テキスト入力を正規化するステップをさらに含む、ＥＥＥ１～１０のいずれかに記載の方法。
１２．ａｉｉ）受信された前記テキスト入力のシンタクティック解析を実行するステップをさらに含む、ＥＥＥ１～１１のいずれかに記載の方法。
１３．前記セマンティック解析は、受信された前記テキスト入力のセグメント化を含む、ＥＥＥ１～１２のいずれかに記載の方法。
１４．前記セマンティック解析は、感情解析を含む、ＥＥＥ１～１３のいずれかに記載の方法。
１５．前記感情解析は、ルールベースである、ＥＥＥ１４に記載の方法。
１６．前記セマンティック解析は、機械学習を伴う自然言語処理を含む、ＥＥＥ１～１５のいずれかに記載の方法。
１７．前記スピーチは、テキスト・ツー・スピーチ合成を使用して合成される、ＥＥＥ１～１６のいずれかに記載の方法。
１８．前記テキスト・ツー・スピーチ合成は、ユニット選択スピーチ合成を含む、ＥＥＥ１７に記載の方法。
１９．前記スピーチ合成は、スタイル、韻律、およびヴォイスのうちの１つまたは複数の合成を含む、ＥＥＥ１～１８のいずれかに記載の方法。
２０．前記スピーチ合成は、感情的なスピーチの合成を含む、ＥＥＥ１～１９のいずれかに記載の方法。
２１．追加の記録および／またはエフェクトを導入することをさらに含む、ＥＥＥ１～２０のいずれかに記載の方法。
２２．ｆ）前記オブジェクトベースのオーディオコンテンツを符号化するステップをさらに含む、ＥＥＥ１～２１のいずれかに記載の方法。
２３．オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
ａ）テキスト入力を受信するステップと、
ｂ）受信された前記テキスト入力のセマンティック解析を実行するステップと、
ｃ）前記セマンティック解析の前記１つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、１つまたは複数のオーディオオブジェクトを生成するステップと、
ｄ）前記１つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
ｅ）前記１つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
ｆ）前記オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするステップと、
を含む、方法。
２４．ｂｉ）前記セマンティック解析の１つまたは複数の結果としてスピーチおよびエフェクトの１つまたは複数のオリジンを識別するステップをさらに含む、ＥＥＥ２３に記載の方法。
２５．ｂｉｉ）前記セマンティック解析の１つまたは複数の結果としてスピーチ情報およびエフェクト情報を決定するステップをさらに含む、ＥＥＥ２３またはＥＥＥ２４に記載の方法。
２６．ｂｉｉｉ）前記セマンティック解析の１つまたは複数の結果として空間情報を決定するステップをさらに含む、ＥＥＥ２３～２５のいずれか一項に記載の方法。
２７．前記チャネルベースのフォーマットは、５．１、７．１、７．１．４、Ｂ－フォーマット、アンビソニックス、ステレオおよびバイノーラルを含む、ＥＥＥ２３～２６のいずれかに記載の方法。
２８．ａｉ）受信された前記テキスト入力を正規化するステップをさらに含む、ＥＥＥ２３～２７のいずれか一項に記載の方法。
２９．ａｉｉ）受信された前記テキスト入力のシンタクティック解析を実行するステップをさらに含む、ＥＥＥ２３～２８のいずれか一項に記載の方法。
３０．追加の記録および／またはエフェクトを導入することをさらに含む、ＥＥＥ２３～２９のいずれか一項に記載の方法。
３１．ＥＥ１～２２のいずれか一項に記載の方法を実行するように構成された１つまたは複数のプロセッサを含む、コンピュータベースのシステム。
３２．テキスト入力の選択を容易にするためのユーザインターフェースを含む、ＥＥＥ３１に記載のコンピュータベースのシステム。
３３．ＥＥ２３～３０のいずれか一項に記載の方法を実行するように構成された１つまたは複数のプロセッサを含む、コンピュータベースのシステム。
３４．テキスト入力の選択を容易にするためのユーザインターフェースを含む、ＥＥＥ３３に記載のコンピュータベースのシステム。
３５．処理能力を有するデバイスによって実行されたときに、ＥＥＥ１～２２のいずれか一項に記載の方法を実行するように構成された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。
３６．処理能力を有するデバイスによって実行されたときに、ＥＥＥ２３～３０のいずれか一項に記載の方法を実行するように構成された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。

Claims

オーディオブックおよび／またはオーディオプレイで使用するために、テキスト入力からオブジェクトベースのオーディオコンテンツを作成するための方法であって、
ａ）テキスト入力を受信するステップと、
ｂ）受信された前記テキスト入力のセマンティック解析を実行するステップと、
ｂｉ）セマンティック解析の１つまたは複数の結果として空間情報を決定するステップと、
ｃ）前記セマンティック解析の前記１つまたは複数の結果に基づいてスピーチおよびエフェクトを合成して、１つまたは複数のオーディオオブジェクトを生成するステップと、
ｄ）前記１つまたは複数のオーディオオブジェクトのメタデータを生成するステップと、
ｅ）前記１つまたは複数のオーディオオブジェクトおよび前記メタデータを含むオブジェクトベースのオーディオコンテンツを作成するステップと、
を含む、方法。
ｂｉｉ）前記セマンティック解析の前記１つまたは複数の結果として、スピーチおよびエフェクトの１つまたは複数のオリジンを識別するステップ、をさらに含む、請求項１に記載の方法。
スピーチおよびエフェクトの前記オリジンは、アクター、ナレーター、アイテム、およびアンビエンスのうちの１つまたは複数を含む、請求項２に記載の方法。
前記空間情報は、スピーチおよびエフェクトの１つまたは複数のオリジンについて決定される、請求項２～３のいずれか一項に記載の方法。
前記空間情報は、移動方向、速度、サイズ、形状、位置、コヒーレンスまたは加速度のうちの１つまたは複数に関する情報を含む、請求項１～４のいずれか一項に記載の方法。
ａｉｉ）前記受信されたテキスト入力のシンタクティック解析を実行するステップをさらに含む、請求項１～５のいずれか一項に記載の方法。
前記セマンティック解析は、前記受信されたテキスト入力のセグメント化を含む、請求項１～６のいずれか一項に記載の方法。
前記スピーチは、テキスト・ツー・スピーチ合成を使用して合成される、請求項１～７のいずれか一項に記載の方法。
前記テキスト・ツー・スピーチ合成は、ユニット選択スピーチ合成を含む、請求項８に記載の方法。
前記スピーチの合成は、スタイル、韻律、およびヴォイスのうちの１つまたは複数の合成を含む、請求項１～９のいずれか一項に記載の方法。
ｆ）オブジェクトベースのオーディオコンテンツをチャネルベースのフォーマットにレンダリングするステップをさらに含む、請求項１～１０のいずれか一項に記載の方法。
前記チャネルベースのフォーマットは、５．１、７．１、７．１．４、Ｂ－フォーマット、アンビソニックス、ステレオ、およびバイノーラルを含む、請求項１１に記載の方法。
請求項１～１２のいずれか一項に記載の方法を実行するように構成された１つまたは複数のプロセッサを含む、コンピュータベースのシステム。
テキスト入力の選択を容易にするためのユーザインターフェースを含む、請求項１３に記載のコンピュータベースのシステム。
処理能力を有するデバイスによって実行されるときに、請求項１～１２のいずれか一項に記載の方法を実行するように適合された命令を有するコンピュータ可読記憶媒体。