JP2015517684A - コンテンツのカスタマイズ - Google Patents

コンテンツのカスタマイズ Download PDF

Info

Publication number
JP2015517684A
JP2015517684A JP2015511580A JP2015511580A JP2015517684A JP 2015517684 A JP2015517684 A JP 2015517684A JP 2015511580 A JP2015511580 A JP 2015511580A JP 2015511580 A JP2015511580 A JP 2015511580A JP 2015517684 A JP2015517684 A JP 2015517684A
Authority
JP
Japan
Prior art keywords
narration
user
computing device
settings
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015511580A
Other languages
English (en)
Inventor
ファン ダグラス
ファン ダグラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audible Inc
Original Assignee
Audible Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/465,871 external-priority patent/US9075760B2/en
Priority claimed from US13/465,853 external-priority patent/US20140258858A1/en
Application filed by Audible Inc filed Critical Audible Inc
Publication of JP2015517684A publication Critical patent/JP2015517684A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/062Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Abstract

コンテンツのカスタマイズサービスが開示される。ユーザコンピューティングデバイスおよび/またはコンテンツカスタマイズサーバは、聴取者または権利者の要求に応じてコンテンツの項目に関連付けられるナレーションをカスタマイズし得る。これらの要求を容易にするために、1つ以上のユーザインターフェースが提供され得る。カスタマイズのいくつかの例は、言語、訛り、気分、またはナレーションの話者についての設定を指定することを含む。カスタマイズの他の例は、ナレーションの低音、高音、ピッチ、速度、またはコントラストについての設定を規定することを含む。コンテンツのカスタマイズサービスは、カスタマイズを実施するコンピューティングデバイスを選択し得る。例えば、ユーザコンピューティングデバイスは、自らナレーションを修正し得、またはユーザコンピューティングデバイスは、修正されたナレーションについての要求をコンテンツカスタマイズサーバに送信し得、次にコンテンツカスタマイズサーバが修正されたナレーションをユーザコンピューティングデバイスに転送し得る。

Description

多くの形態のデジタルコンテンツがオーディオコンテンツを含む。例えば、電子ブック、オーディオブック、音楽、映画、およびコンピュータゲームはすべてオーディオコンテンツを含み得る。このオーディオコンテンツは、例えば、1つ以上の音声部分を含み得る。典型的に、このオーディオコンテンツはあらかじめ録音されており、コンテンツの消費者によってカスタマイズされることはできない。むしろ、オーディオコンテンツの完全に新しい録音には、しばしばカスタマイズされたオーディオコンテンツを生産する必要がある。ユーザの聴取の興味に合わせて特別にあつらえた新しい録音を取得することは、いろいろな理由により可能でない場合がある。例えば、オーディオコンテンツの新しい録音を生産するコストが著しく高額であり得る。ユーザにとってオーディオコンテンツをユーザの嗜好に寸分違わず合わせるようにカスタマイズすることは、困難であり、時間がかかり、および高額でもあり得、ユーザは、例えば、オーディオコンテンツの新しい録音の生産を監督しなければならない場合がある。
一例を実例とする。ユーザは、ある特定のナレーターによるナレーションが付されたオーディオブックを購入することに興味を持ち得る。ユーザは、このオーディオブックについて異なるナレーターの声を好み得る。ユーザはまた、このオーディオブックを別の言語で聴くことをも所望し得る。前者において、ユーザは、ユーザの好むナレーターによるオーディオブックの最新の録音に対して代金を払わなければならない場合がある。後者において、ユーザは、オーディオブックの翻訳と他の言語のオーディオブックの新しい録音との両方に対して代金を払わなければならない場合がある。ユーザは、ナレーションの他の側面をカスタマイズすることを望み得るが、そうすることが実用的でないと理解し得る。
これらの問題は、多くのユーザが異なる点においてコンテンツのカスタマイズを要求したときに悪化し得る。例えば、1人のユーザがオーディオブックのナレーションに対する1組の修正を所望し得るが、他方で第2のユーザが同一のオーディオブックのナレーションに対する第2の1組の修正を所望し得る。修正またはカスタマイズされたナレーションを録音するコストのため、両方のユーザの嗜好に応じることは経済的に採算性があるとは言い難い場合がある。もちろん、これらの問題および他の問題は、単にオーディオブックのコンテンツに限定されず、オーディオコンテンツを含む多くの形式のデジタルコンテンツにおいて存在する。
先述の態様および付随する利点の多くは、それらが添付の図面とあわせて考慮される場合、以下の詳細な説明を参照することによってより理解されるにつれてより容易に理解されるであろう。
コンテンツの項目に関連付けられるナレーションを修正するための、例示的なネットワーク環境のブロック図である。 コンテンツのカスタマイズサービスを実現し得る例示的なサーバの概略図である。 ナレーションのための設定を生成し、かつそれらをコンテンツカスタマイズサーバに提出するための例示的なルーチンを描写する状態図である。 ナレーションのための設定を生成し、かつそれらをコンテンツカスタマイズサーバに提出するための例示的なルーチンを描写する状態図である。 ナレーションのための設定を生成し、かつそれらを人間対話タスクシステムに提出するための例示的なルーチンを描写する状態図である。 コンテンツカスタマイズサーバからナレーション設定および/または修正されたナレーションを取得するための、例示的なルーチンを描写する状態図である。 修正されたナレーションを生成するための、例示的なルーチンを描写するフローチャートである。 ナレーション設定を生成するために用いられ得る、例示的なユーザインターフェースの絵図である。 ナレーション設定を生成するために用いられ得る、例示的なユーザインターフェースの絵図である。 視覚インジケータを含む、例示的なユーザインターフェースの絵図である。
概して説明すると、本開示の態様は、コンピュータで実現される修正およびオーディオナレーションのカスタマイズに関する。オーディオナレーションは、いくつかの例を挙げれば、電子ブック、オーディオブック、音楽、映画、およびコンピュータゲームなどのコンテンツの項目とともに含まれ得る。本明細書において「ナレーションパラメータ」と称されるオーディオナレーションの多くの側面が、カスタマイズされた聴取経験を提供するために修正され得る。したがって、ユーザの聴取経験をカスタマイズすることを希望する人物は、ユーザのユーザコンピューティングデバイス上のユーザインターフェースを通じて、1つ以上のナレーションパラメータについての設定か、または1つ以上のナレーションパラメータに対する変化を規定する。いくつかの実施形態において、これらの設定および変化は、例えば、設定または修正がカスタマイズされるオーディオナレーションが再生されている間に行われるなど、動的に行われる。これらの設定および変更は、ナレーション設定情報として記憶され得、これは所望される場合、次にネットワークで他のコンピューティングデバイスと共有され得る。
当業者は、ナレーションは、例えば、語、句、または文を含み得、ナレーションは、ナレーター、コメンテーター、またはキャラクターなどの話者によって読み上げられる、歌われる、叫ばれる、および同等のことがなされるということを認識するであろう。ナレーションは、語、句、またはコンテンツの項目において会話、傍白、またはキャラクターによって読み上げられる発声された考えなどの文をも含み得る。
ナレーションパラメータは、話者の声のピッチ、高音、低音、コントラスト、および速度などの、ナレーションの種々の定量的側面を含み得る。ナレーションパラメータは、話者の訛り、話者の言語または方言、話者の気分、話者の性別、話者の韻律などのナレーションの種々の定性的側面をも含み得る。
いくつかの実施形態において、ユーザは、ユーザのユーザコンピューティングデバイスを用いて、オーディオナレーションの1つ以上のナレーションパラメータについての設定を生成する。これらの設定を生成するための1つ以上のユーザインターフェースが提供され得る。ユーザインターフェースは、ユーザがオーディオナレーションの種々のパラメータを設定または変更することを可能にする要素を含み得る。一実施形態において、気分、訛り、言語および同等物などの定性的ナレーションパラメータを設定または変更するためにドロップダウンメニューが用いられる一方で、ピッチ、速度、コントラストおよび同等物などの定量的ナレーションパラメータを設定または変更するためにスライダが用いられる。ソフトウェアのノブ、ダイヤル、ミキサ、サウンドボード、チェックボックス、ラジオボタンおよび同等物などの他のユーザインターフェース要素もまた、ユーザインターフェースの中に組み込まれ得る。
1つ以上のユーザインターフェースは、ナレーションの異なる部分についての異なるナレーションパラメータをユーザが規定することも可能にし得る。例えば、オーディオブックは、章に対応する部分に分解され得る。第1章について1組のナレーションパラメータが、第2章について第2の組のナレーションパラメータが、第3章について第3の組のナレーションパラメータが用いられ得る。ナレーションは、時間増分またはキャラクターの会話などによって別様にも分解され得る。
本明細書に記載のユーザインターフェースを通じて規定されるナレーションパラメータは、コンピューティングデバイスによってナレーションを修正するために実現され得る。コンテンツのカスタマイズサービスは、ユーザコンピューティングデバイスにユーザインターフェースを表示させ、かつユーザインターフェースを通じてユーザに1つ以上のナレーションパラメータを規定または設定するように促し得る。一実施形態において、これらのユーザインターフェースは、コンテンツページ(「ウェブサイト」など)の一部として表示され得る。別の実施形態において、モバイルコンピューティングアプリケーション(「アプリ」など)は、ユーザコンピューティングデバイス上にこれらのユーザインターフェースを表示し、ユーザコンピューティングデバイスによって受信されるユーザ入力がコンテンツカスタマイズサーバにネットワークで送信されるようにする。コンテンツカスタマイズサーバは、ネットワークでユーザ入力を受信し、ナレーションを修正し、修正されたナレーションの一部または全部をネットワークでユーザコンピューティングデバイスに送信し得る。他の実施形態において、コンテンツのカスタマイズサービスは、コンテンツカスタマイズサーバによってではなく、単一のユーザコンピューティングデバイスによって完全に実行される。したがって、ユーザインターフェースが生成され、かつユーザコンピューティングデバイス上のソフトウェアまたはハードウェアによってユーザに表示され得る。ユーザコンピューティングデバイスは、ユーザ入力に従ってナレーションを修正し得、かつ修正されたナレーションを再生し得る。
いくつかの実施形態において、1つ以上のナレーションとともに用いるために、または1つ以上のコンピューティングデバイス上で用いられるために、ナレーション設定情報が生成される。一実施形態において、ナレーション設定情報は、ナレーション設定ファイルとして記憶される。ナレーション設定ファイルは、ユーザコンピューティングデバイス、権利者コンピューティングデバイス、コンテンツカスタマイズサーバ、またはこれらの任意の組み合わせによって生成され得る。ナレーション設定ファイルは、ナレーションの1つ以上の部分の1つ以上のナレーションパラメータについての仕様を含み得る。これらの仕様は、上述のとおり、ユーザインターフェースを通じて作成され得る。ナレーションパラメータについての同一の設定がナレーション全体について用いられ得、またはナレーションの異なる部分が、それぞれのナレーションパラメータについて異なる設定を有し得る。ナレーション設定ファイルは、気分、言語、または訛りをいかに正確に捕捉しているかを判定するために、任意選択的に人間による分析を施され得る。加えて、ナレーション設定ファイルは、例えば、いくつかの例を挙げれば、ナレーション設定ファイルを誰がアップロードまたはダウンロードしたか、コンテンツのどのジャンルをナレーション設定ファイルが補完し得るか、およびナレーション設定ファイルの人気などに基づいて、コンテンツのカスタマイズサービスのユーザに提案され得る。2つ以上のコンピューティングデバイスがナレーション設定情報の作成に携わり得る。例えば、複数のユーザは、各々のユーザコンピューティングデバイスと対話して、コンテンツカスタマイズサーバまたは別のユーザコンピューティングデバイス上に記憶された単一のナレーション設定ファイルを編集し得る。単一のナレーション設定ファイルの個人パラメータは、異なるユーザによって修正され得る。同様に、ナレーションの個別の部分についてのナレーション設定もまた、異なるユーザによって修正され得る。
いくつかの実施形態において、コンテンツのカスタマイズサービスは、ナレーション設定ファイルに従ってナレーションをカスタマイズする。コンテンツのカスタマイズサービスは次に、ナレーション設定ファイルに従ってカスタマイズされたナレーションの一部または全部をユーザコンピューティングデバイスに送信し得る。一実施形態において、ユーザコンピューティングデバイスは、ナレーション設定ファイルに従って、ナレーションをカスタマイズする要求とともに、ナレーション設定ファイルをコンテンツカスタマイズサーバに送信する。別の実施形態において、ユーザコンピューティングデバイスは、データストアに記憶されたナレーション設定ファイルに従って、カスタマイズされるナレーションついての要求のみをコンテンツカスタマイズサーバに送信する。コンテンツカスタマイズサーバは、データストアからナレーション設定ファイルを選択し、ナレーション設定ファイルに従ってナレーションをカスタマイズし、次に修正されたナレーションをユーザコンピューティングデバイスに送信し得る。ユーザコンピューティングデバイスがナレーションを修正するコンテンツのカスタマイズサービスの実施形態において、ユーザコンピューティングデバイスは、上述のとおり、コンテンツのカスタマイズサービスに関連付けられるコンテンツカスタマイズサーバからナレーション設定ファイルを入手し得る。ユーザコンピューティングデバイスは次に、ナレーション設定ファイルによって指定されたナレーションパラメータに従って、ナレーション自体を修正し得る。さらに他の実施形態において、ナレーション設定ファイルは、ユーザコンピューティングデバイス上に記憶され、ユーザコンピューティングデバイスは、ナレーション設定ファイルを用いて修正されたナレーションを自ら生成する。
いくつかの実施形態において、ナレーション設定ファイルは、特定のコンテンツの項目についてナレーションに関連付けられる。例えば、特定のコンテンツの項目についてナレーションの異なる部分についての異なるナレーション設定を規定するナレーション設定ファイルは、コンテンツの他の項目とともにではなく、その特定のコンテンツの項目とともにのみ用いられ得る。他の実施形態において、ナレーション設定ファイルは、多くの異なるナレーションまたはコンテンツの多くの異なる項目とともに用いられ得る。例えば、特定のナレーション設定ファイルは、任意の特定のコンテンツの項目を参照することなく、ユーザの言語および訛りの好みのみを規定する場合がある。別の例において、かかるナレーション設定ファイルは、定量的ナレーションパラメータについての特定の設定を含む場合がある。例えば、ユーザは、任意の特定のコンテンツの項目を参照することなく、特定の速度で進行するそのナレーションをより好み得る。
当業者は、ナレーション設定ファイルが、任意の特定のファイル形式である必要がないことを認識するであろう。いくつかの実施形態において、ナレーション設定ファイルは、コンテンツのカスタマイズサービスを通じてのみ翻訳および編集され得るコンテンツのカスタマイズサービスとともに用いるための特定のファイル形式を有する。他の実施形態において、ナレーション設定ファイルは、例えば、多くの異なるソフトウェアアプリケーションによって、多くの異なる環境において翻訳および編集され得る。例えば、ナレーション設定ファイルは、多くの異なるソフトウェアアプリケーションによって開かれ、編集され得る、ASCIIテキストファイル、標準テキスト(.txt)ファイル、リッチテキストファイル(RTF)、拡張マークアップ言語(XML)ファイル、または他のファイル形式などのファイル形式であり得る。
加えて、当業者は、ナレーション設定情報がナレーション設定ファイルとしてだけでなく、ナレーションパラメータについての設定を規定するために適した任意の形式のデジタル情報として表され得るということを認識するであろう。一実施形態において、ナレーション設定情報は、実行されると、コンピュータで実行可能なコードで規定されたパラメータに従ってナレーションを修正するコンピュータで実行可能なコードとして表される。別の実施形態において、ナレーション設定情報は、ネットワーク上でホストされるコンテンツページとして表される。ユーザは、ユーザコンピューティングデバイスを通じてコンテンツページにアクセスし得る。ユーザがコンテンツページにアクセスすると、コンテンツページは、ユーザコンピューティングデバイスに1つ以上のナレーションパラメータを変更させ得る。ナレーション設定情報を記憶および適用する、なお他の形式が可能である。概して、ナレーション設定ファイルとともに、またはナレーション設定ファイル上でコンテンツのカスタマイズサービスによって実施される操作は、すべての形式のナレーション設定情報とともに、またはすべての形式のナレーション設定情報上で実施され得る。
加えて、いくつかの実施形態において、視覚インジケータは、オーディオナレーションを補完するものとしてユーザコンピューティングデバイス上で選択されかつ表示され得る。視覚インジケータは、例えば、ナレーションまたはコンテンツの項目の文脈分析、ナレーションまたはコンテンツの項目に関連付けられるラベルに基づいて、またはユーザ入力によって選択され得る。いくつかの実施形態において、ラベルは、項目または他の一片の情報(デジタル画像、ブックマーク、画像、テキストの一部分、該当する項目など)に割り当てられる用語またはキーワードであり得る。ラベルは、項目を説明することを支援し得、かつブラウズまたは検索によって項目が再び発見されることを可能にし得る。ラベルは、タグとも称され得る。
図1を参照すると、例示的なネットワーク環境100が示される。ネットワーク環境100は、データストア102、コンテンツカスタマイズサーバ104、権利者コンピューティングデバイス106、ネットワーク108、および任意の数のユーザコンピューティングデバイス110A、110B、110Nなどを含み得る。ネットワーク環境100の構成要素は、遠隔で、またはネットワーク108を通して互いに通信し得る。
データストア102は、コンテンツの1つ以上の項目に関連付けられる1つ以上のオーディオファイルを記憶し得る。例えば、オーディオファイルは、ナレーションを含むオーディオブックを含み得る。例えば、同一のコンテンツの項目の英語のナレーション、フランス語のナレーション、およびスペイン語のナレーション、または異なる訛りで読み上げられる同一の言語の複数の版などの同一のコンテンツの項目の複数のナレーションがデータストア102に記憶され得る。データストア102はまた、コンテンツの項目のナレーションをカスタマイズするために用いられ得る、ナレーション設定ファイルなどのナレーション設定情報をも記憶し得る。ナレーション設定ファイルは、1つ以上のコンテンツの項目に関連付けられるナレーションの1つまたは一部分について、種々のナレーションパラメータについての設定を規定し得る。ナレーション設定ファイルはまた、所望により体系化、カタログ化、カテゴリ化などがされ得る。例えば、データストア102のナレーション設定ファイルは、そのナレーション設定ファイル、そのナレーション設定ファイルが望ましい場合があるナレーションのジャンル、またはそのナレーション設定ファイルが望ましい場合がある特定の項目を生成したユーザによってカテゴリ化され得る。他のカテゴリが可能であり、本開示の範囲内である。実行ファイルまたはコンテンツページの形式のナレーション設定情報は、所望により同様に体系化され得る。
いくつかの実施形態において、データストア102は、1つ以上のナレーターの声ライブラリをも記憶する。ナレーターの声ライブラリは、1つ以上のナレーターまたは元のコンテンツの項目の中のキャラクターによって読み上げられる1つ以上のクリップを含むオーディオファイルを含み得る。1つのオーディオクリップは、例えば、個々の音素または音節、語、句、あるいは文を含み得る。いくつかの実施形態において、ナレーターまたはキャラクターによって読み上げられる1組のオーディオクリップは、コンテンツのカスタマイズサービスによって実行されるスピーチ合成プログラムが、ナレーターまたはキャラクターの声で任意の所望の音節、語、句、文などを構築することができるために十分なオーディオクリップを含み得る。波形接続型音声合成またはフォルマント音声合成のためのプログラムなどのかかるスピーチ合成プログラムは、当技術分野で既知であり、本明細書においてさらに詳細に説明されない。
データストア102はまた、新規のナレーションを動的に生成するために用いられるデータをも記憶し得る。例えば、データストア102は、ナレーション原稿などのナレーションの1つ以上のテキスト台本を記憶し得る。データストア102は、コンテンツの項目を電子ブックなどのテキスト形式でも記憶し得る。データストア102は、例えば、訛りを有するように修正されたナレーションなどの、新規のナレーションを生成するための規則をも記憶し得る。訛りに関係する規則の例は、ボストン訛りについて、ナレーション中の「car」が「cah」となるように、「ナレーション中のすべてのar音素をah音素に置換」であり得る。
データストア102は、ハードディスクドライブ、固体記憶装置、および/または任意の他の種類の非一時的コンピュータ可読媒体内に具現化され得る。データストア102は、本開示の精神および範囲を逸脱することなく、当技術分野で既知であるように、複数の記憶デバイス間に分配または分割され得る。その上、図1においてデータストア102はコンテンツカスタマイズサーバ104のローカルとして描写されているが、当業者は、データストア102がコンテンツカスタマイズサーバ104から遠隔であり得るということを認識するであろう。
コンテンツのカスタマイズサービスは、いくつもの電子的環境において具現化され得る。いくつかの実施形態において、コンテンツのカスタマイズサービスは、1つ以上のユーザコンピューティングデバイス110A〜110Nによってネットワーク108を通してアクセスされるコンテンツカスタマイズサーバ104において具現化される。さらに他の実施形態において、コンテンツのカスタマイズサービスは、ユーザコンピューティングデバイス110A〜110Nにおいて全体として具現化される。
コンテンツカスタマイズサーバ104は、ユーザコンピューティングデバイス110A〜110Nにデータを送信、およびユーザコンピューティングデバイス110A〜110Nからデータを受信することができ得る。例えば、コンテンツカスタマイズサーバ104は、修正されたナレーションおよび/またはナレーション設定情報についての要求を1つ以上のユーザコンピューティングデバイス110A〜110Nから受信することができ得る。コンテンツカスタマイズサーバ104はまた、要求された修正を実施して修正されたナレーションを生成し得る。コンテンツカスタマイズサーバ104はまた、ナレーション設定情報、コンテンツの項目、元のナレーション、および修正されたナレーションを1つ以上のユーザコンピューティングデバイス110A〜110Nに送信することができ得る。
権利者コンピューティングデバイス106およびそれぞれのユーザコンピューティングデバイス110A〜110Nは、ラップトップまたはタブレット型コンピュータ、パソコン、携帯情報端末(PDA)、PDA/携帯電話のハイブリッド、携帯電話、電子ブックリーダ、セットトップボックス、カメラ、オーディオブックプレーヤ、デジタルメディアプレーヤ、テレビゲーム機器、店舗内キオスク、テレビ、1つ以上のプロセッサ、コンピューティングデバイス内に含めるための統合コンポーネント、家電、車両または機械内に含めるための電子デバイス、ゲーム用デバイス、または同等物などの、ネットワーク108を通して通信する能力を持つ任意のコンピューティングデバイスであり得る。権利者コンピューティングデバイス106およびそれぞれのユーザコンピューティングデバイス110A〜110Nは、ユーザ入力に従ってナレーションをカスタマイズするためのユーザインターフェースを生成または表示するように操作可能であり得る。これらのコンピューティングデバイスは次に、ナレーション設定情報(例えば、ユーザが生成したナレーション設定ファイルとして、または権利者が生成したナレーション設定ファイルとして)を記憶し、ネットワーク108を通してこれを送信し得る。
コンテンツカスタマイズサーバ104、権利者コンピューティングデバイス106、およびユーザコンピューティングデバイス110A〜110Nは、それぞれがコンテンツカスタマイズサーバ104、権利者コンピューティングデバイス106、およびユーザコンピューティングデバイス110A〜110Nの個々のインスタンスを実行する複数のコンピューティングデバイス間でそれぞれ具現化され得る。コンテンツカスタマイズサーバ104、権利者コンピューティングデバイス106、およびユーザコンピューティングデバイス110A〜110Nを実装しているサーバまたは他のコンピューティングシステムは、ネットワークインターフェース、メモリ、処理ユニット、および非一時的コンピュータ可読媒体ドライブを含み得、これらのすべてが通信バスによって互いに通信し得る。その上、処理ユニットは、それ自体がコンピューティングデバイスとも称され得る。ネットワークインターフェースは、ネットワーク108および/または他のネットワークまたはコンピュータシステムの接続性を提供し得る。処理ユニットは、処理ユニットがコンテンツカスタマイズサーバ104、権利者コンピューティングデバイス106、およびユーザコンピューティングデバイス110A〜110Nを操作するために実行するプログラム命令を含むメモリと相互に通信し得る。メモリは概して、RAM、ROM、および/または他の持続的および/または補助的な非一時的コンピュータ可読媒体を含む。
当業者は、ネットワーク108が任意の有線ネットワーク、無線ネットワークまたはそれらの組み合わせであり得ることを認識するであろう。その上、ネットワーク108は、パーソナルエリアネットワーク、ローカルエリアネットワーク、広域ネットワーク、ケーブルネットワーク、衛星ネットワーク、携帯電話ネットワーク、またはそれらの組み合わせであり得る。インターネットまたは他の前述の種類の通信ネットワークのうちのいずれかを介した通信のためのプロトコルおよびコンポーネントは、コンピュータ通信の当業者には既知であり、ゆえに本明細書においてより詳細に説明される必要がない。
上述のデバイスの多くが任意選択的であり、環境100の実施形態がデバイスを組み合わせ得るかまたは組み合わせ得ないということが認識されるであろう。さらに、コンポーネントは特異または別々である必要がない。デバイスはまた、環境100内で再編成され得る。例えば、コンテンツカスタマイズサーバ104は、単一の物理サーバ内に表わされ得、または代替的に、複数の物理サーバに分割され得る。コンテンツのカスタマイズサービスの全体は、単一のユーザコンピューティングデバイス110A、110B、110Nなどにも表され得る。
図2は、コンテンツカスタマイズサーバ104の例の概略図である。コンテンツカスタマイズサーバ104は、ナレーション修正コンポーネント202、ネットワーキングコンポーネント204、カタログコンポーネント206、およびユーザインターフェースコンポーネント208を含み得る。これらのコンポーネントは、互いに通信し得る。コンテンツカスタマイズサーバ104は、データストア102に接続され得、かつネットワーク108を通して通信することが可能であり得る。図1に示されるネットワーク環境の他の要素は、コンテンツカスタマイズサーバ104を不明瞭にしないために本図において省略されている。しかしながら、コンテンツカスタマイズサーバ104はまた、図1に示されるように、ローカルで、または電子ネットワーク108を通じて、権利者コンピューティングデバイス106および1つ以上のユーザコンピューティングデバイス110A〜110Nと通信することが可能であり得る。
ナレーション修正コンポーネント202は、修正されたナレーションを生成するように動作し得る。一実施形態において、ナレーション修正コンポーネント202は、データストア102からナレーションおよびナレーション設定ファイルを読み出し得る。別の実施形態において、ナレーション修正コンポーネントは、データストア102からナレーションを読み出し、ユーザ入力を受信するユーザコンピューティングデバイスからナレーション設定を動的に受信し得る。ナレーション修正コンポーネント202は次に、ナレーション設定ファイルによって、またはユーザ入力によって指定された設定をナレーションに適用する。修正されたナレーションは次に、ネットワーク108を通してユーザコンピューティングデバイスに送信され得る。修正されたナレーションがネットワーク108を通して送信される実施形態において、修正されたナレーションは、当技術分野で既知であるように、ユーザコンピューティングデバイスに全体として、1つ以上の部分として、または連続するストリームとして送信され得る。
ナレーションは、変更されるナレーションパラメータによって異なる方途で修正され得る。ナレーションパラメータに対する規定の修正およびこれらの修正を行うための工程の例が、図6に対して以下に記載される。当業者は、これらの工程がコンテンツカスタマイズサーバ104またはユーザコンピューティングデバイスによって、あるいは両方によって行われ得るということを認識するであろう。例えば、コンテンツカスタマイズサーバ104は、ユーザコンピューティングデバイスがユーザコンピューティングデバイス上に記憶されたナレーションの第2の部分を修正する間に、ナレーションの一部分を修正し、修正されたナレーションをユーザコンピューティングデバイスに流し得る。
カタログコンポーネント204は、ナレーション設定ファイルの種々の特性を識別およびマーキングするように動作し得る。これらの特性は、例えば、そのナレーション設定ファイルを生成したユーザ、そのナレーション設定ファイルが望ましい場合があるナレーションのジャンル、またはそのナレーション設定ファイルが望ましい場合がある特定の項目を含み得る。カタログコンポーネント204は、データストア102からの将来のナレーション設定ファイルの読み出しを容易にするための、またはコンテンツのカスタマイズサービスから取得されるナレーション設定ファイルをユーザが選択することを支援するための、それぞれのナレーション設定ファイルの特性を記憶し得る。例えば、カタログコンポーネント204は、特定のナレーション設定ファイルが一連の中のあるコンテンツの項目に関連付けられることを識別し得る。ユーザコンピューティングデバイスのユーザが一連のものの中の1つのコンテンツの項目についてのナレーション設定ファイルをダウンロードした場合、カタログコンポーネント204は、コンテンツカスタマイズサーバ104に、ユーザが一連のものの中の別のコンテンツの項目についての第2のナレーション設定ファイルをダウンロードすることを勧める提案を、ユーザコンピューティングデバイスにネットワーク108を通して送信させ得る。他の提案が可能である。例えば、ユーザは、ユーザのユーザコンピューティングデバイス上に、コンテンツの項目に対する権利を保持する特定の著者によるコンテンツの項目を有し得る。この著者は、コンテンツの項目に対してナレーションとともに用いるためのナレーション設定ファイルを生成した可能性がある。カタログコンポーネント204は、コンテンツカスタマイズサーバ104に、ユーザが著者によって生成されたナレーション設定ファイルをダウンロードすることを勧める提案を、ユーザコンピューティングデバイスにネットワーク108を通して送信させ得る。実行ファイルまたはコンテンツページなどの他の形式のナレーション設定情報は、所望により同様にカタログ化され得る。
カタログコンポーネント204はまた、コンテンツの項目に関連付けられるナレーションをラベル付けするように動作し得る。ラベルは、コンテンツのカスタマイズサービスが機械によってナレーションパラメータを選択することを支援するために、またはユーザがナレーションパラメータを選択することを援助するために、ナレーションまたはナレーションが基づくコンテンツの項目に組み込まれ得る。ラベルはナレーションの一部分に対応し得、およびピッチ、高音、低音などの他のナレーションパラメータとあわせて、ナレーションについての気分を勧め得る。
一実施形態において、コンテンツのカスタマイズサービスは、ナレーションをそれが属するテキストコンテンツの項目と同期させ、テキストコンテンツの項目の文脈分析に基づいてラベルを生成し、次にそれらのラベルからナレーションに勧められたナレーションパラメータを適用し得る。2011年3月23日に出願され、「デジタルコンテンツの同期(SYNCHRONIZING DIGITAL CONTENT)」と題され、その開示が参照により全体として本明細書に組み込まれる米国特許出願第13/070、313号は、ナレーションおよびテキストコンテンツの項目が同期され得るいくつかの方途を記載している。例えば、コンテンツのテキスト項目の一部が「スティーブと私はヘリウムを吸引した」と述べ得る。コンテンツのカスタマイズサービスは、「ヘリウムを吸引した」という語句の直後に生じるナレーションの一部分に「ヘリウム」という名称のラベルを張り付ける場合がある。「ヘリウムを吸引した」という語句の直後に生じるナレーションのこの部分のピッチは、ヘリウムが吸引した人物を高ピッチの声で話すようにさせるため、ラベルに応じて高められ得る。他の実施形態において、ナレーションの一部分についてのラベルは、コンテンツカスタマイズサーバ104によって、ネットワーク108を通してアクセスされるネットワーク資源から取得され得る。例えば、カタログコンポーネント204は、ナレーションに関連付けられるテキストコンテンツの項目のそれぞれの章の要約に対して文脈分析を実施することにより、ナレーションのそれぞれの章についての気分を判断し得る。要約は、例えば、ネットワークベースの百科事典または知識ベースによってホストされ得る。
ネットワーキングコンポーネント206は、1つ以上のユーザコンピューティングデバイスとネットワーク108を通して対話するように動作し得る。例えば、ネットワーキングコンポーネント206は、ナレーション設定ファイルなどのナレーション設定情報についてのユーザコンピューティングデバイスからの要求を受信し得る。この要求はカタログコンポーネント204に中継され得、これは次にユーザコンピューティングデバイスに送信されるデータストア102からのナレーション設定情報を選択または提案し得る。ネットワーキングコンポーネント206は次に、コンテンツカスタマイズサーバ104に、ネットワーク108を通して、選択されたナレーション設定情報をユーザコンピューティングデバイスに送信させ得る。
ネットワーキングコンポーネント206はまた、ネットワーク108を通して、ナレーション設定情報または修正されたナレーションをユーザコンピューティングデバイスに送信し得る。修正されたナレーションがネットワーク108を通して送信される実施形態において、修正されたナレーションは、当技術分野で既知であるように、全体として、1つ以上の部分として、または連続するストリームとしてユーザコンピューティングデバイスに送信され得る。例えば、ナレーション修正コンポーネント202がナレーションの一部分に対する修正を完了すると、修正されたナレーション部分がユーザコンピューティングデバイスに送信され得る。
ネットワーキングコンポーネント206はまた、複数の個人および/またはコンテンツカスタマイズサーバ104と対話する彼らのユーザコンピューティングデバイスの間の関係を分析することができ得る。例えば、第1のユーザコンピューティングデバイスの第1のユーザは、ナレーション設定ファイルをコンテンツカスタマイズサーバ104にアップロードし得る。カタログコンポーネント204は、アップロードされたナレーション設定ファイルを第1のユーザコンピューティングデバイスの第1のユーザによって生成されたものとして識別する。ネットワーキングコンポーネント206は次に、ネットワーク108を通して、ソーシャルネットワーキングサービスによって維持される、第1のユーザに関連付けられるソーシャルグラフにアクセスし得る。ネットワーキングコンポーネント206は、第1のユーザの中のソーシャルグラフ内のいくつかの個人を識別し得る。例えば、ネットワーキングコンポーネント206は、第2のユーザコンピューティングデバイスの第2のユーザがソーシャルグラフ内の第1のユーザに関連するか、または関連付けられるということを識別し得る(例えば、「友達」または「連絡先」として、または同一の「グループ」または「サークル」のメンバーとして)。したがって、ネットワーキングコンポーネント206は、ネットワーク108を通して、コンテンツカスタマイズサーバ104に、第2のコンピューティングデバイスのユーザへの、第1のユーザによって生成されたナレーション設定ファイルをダウンロードするという提案を送信させ得る。別の例において、ネットワーキングコンポーネント206は、コンテンツカスタマイズサーバ104に、第2のユーザがソーシャルグラフ内で第2のユーザに関連する第1のユーザによって以前にダウンロードされたナレーション設定ファイルをダウンロードすることを勧める提案を第2のユーザコンピューティングデバイスに送信させ得る。例えば、「共通の友達」(例えば、複数のユーザのソーシャルグラフに出現する個人)または共通のグループ会員関係に基づく提案などのソーシャルグラフの他の態様に基づく他の提案が可能である。
ネットワーキングコンポーネント206は、ナレーションに対する修正を行うための、コンピューティングデバイスを選択するための決定論理をも含み得る。例えば、いくつかのユーザコンピューティングデバイスは、ナレーションに対する修正を行うには不向きであり得る。ナレーション修正には、例えば、ユーザコンピューティングデバイスが実行するために著しい量のエネルギー(例えば、バッテリ内に蓄えられた電気エネルギー)を必要とし得る。ユーザコンピューティングデバイスの予備のエネルギーが修正を処理するために必要なエネルギーを下回る場合、修正はプラグインされる(およびよって機能的に制限のない予備のエネルギーを有する)コンテンツカスタマイズサーバ104でなされ得る。ユーザコンピューティングデバイスは、ユーザコンピューティングデバイスが実行するために、ナレーション修正が容認し難いほど長時間を要するように、比較的低速なプロセッサをも有し得る。コンテンツカスタマイズサーバ104にナレーションを修正させ、かつ修正されたナレーションをユーザコンピューティングデバイスに送信することは好都合であり得る。ナレーションの大部分を伴うもの、または音声からテキストへ、あるいはテキストから音声への変換を必要とするもの(例えば、ナレーションの言語または訛りに対する変更)などのよりコンピュータ的に苛酷なナレーション修正をオフロードすることは、特に好都合であり得る。
ネットワーキングコンポーネント206はまた、ネットワーク108を通して1つ以上のユーザコンピューティングデバイスとも通信し、どのユーザコンピューティングデバイスがコンテンツのどの項目に関連付けられているかを判断し得る。例えば、ユーザは、ユーザのユーザコンピューティングデバイス上に格納された特定のオーディオブックを有し得る。したがって、ネットワーキングコンポーネント206は、ユーザコンピューティングデバイス上に格納されたオーディオブックを識別し、コンテンツカスタマイズサーバ104にオーディオブックに関連付けられるナレーション設定情報(カタログコンポーネント204によって判断される)を読み出させ、およびネットワーク108を通してナレーション設定情報をユーザコンピューティングデバイスに送信し得る。
ネットワーキングコンポーネント206はまた、ユーザのナレーションの好みについての情報に基づいて、ナレーション設定情報の送信をユーザコンピューティングデバイスに自動的に振り向け得る。例えば、コンテンツのカスタマイズサービスは、オーディオブックなどのユーザコンピューティングデバイスが特定のコンテンツの項目に関連付けられているユーザが、多くの異なるナレーションについて以前に生成された類似のナレーション設定を有することを判断し得る。例えば、ユーザは、ナレーションがゆっくりした速度で、かつ南部訛りで読み上げられることを好むと以前に示した場合がある。ネットワーキングコンポーネント206は、ユーザが以前に用いたナレーション設定を識別し、コンテンツカスタマイズサーバ104にオーディオブック向けにカスタマイズされ、かつユーザの以前に生成されたナレーション設定と一致するナレーション設定ファイルを読み出させ得る。
ユーザインターフェースコンポーネント208は、コンテンツのカスタマイズサービスとともに用いられるための1つ以上のユーザインターフェースを生成するように動作し得る。これらのユーザインターフェースは、例えば、コンテンツのカスタマイズサービスの実施形態によってネットワーク108上でホストされるコンテンツページ(または「ウェブページ」)上に生成され得る。ユーザは、ネットワーク108を通して、ユーザのコンピューティングデバイスを用いてコンテンツページにアクセスし、ユーザインターフェースコンポーネント208によって生成された1つ以上のユーザインターフェースと対話し得る。これらの対話は、ナレーションについての1つ以上のナレーションパラメータについてユーザが設定を既定すること、ナレーションについてのナレーション設定情報(ナレーション設定ファイルなど)をユーザが要求すること、またはコンテンツカスタマイズサーバ104がユーザコンピューティングデバイスに送信される修正されたナレーションを生成することをユーザが要求することを含み得る。ユーザインターフェースおよびその動作の例が、図6、図7、および図8に対してさらに記載される。
当業者は、前述のように、コンテンツのカスタマイズサービスが単一のユーザコンピューティングデバイスにおいて具現化され得るということを認識するであろう。したがって、ユーザコンピューティングデバイスは、コンテンツカスタマイズサーバ104の例に含まれ得るコンポーネントのいくつかまたはすべてを含み得る。例えば、ユーザコンピューティングデバイスは、ユーザコンピューティングデバイスがユーザからの変更または設定を取得することができるように、ナレーション修正コンポーネント202およびユーザインターフェースコンポーネント208を含み得る。ユーザコンピューティングデバイスはまた、どのデバイスがナレーション修正を実行するかを判断するためにネットワーキングコンポーネント206によって用いられる決定論理をも含み得る。例えば、ユーザコンピューティングデバイスは、ユーザインターフェースを通じて修正についての要求を受信し、次に例えばコンテンツカスタマイズサーバ104に接続されたネットワークが利用可能でない場合、それらの修正を実行し得る。ユーザコンピューティングデバイスはまた、ユーザコンピューティングデバイスがネットワークサービスプロバイダの制限されたデータプランを使用しており、修正されたナレーションの大部分をストリーミングすることがユーザにとって高額である場合、ナレーションの大部分についての修正を実行し得る。
図3Aは、例示的な状態図であって、これによりユーザコンピューティングデバイス110Aによって設定が生成され、コンテンツのカスタマイズサービスによる使用のために格納される状態図を描写している。ユーザは、ユーザのユーザコンピューティングデバイス110Aを用いて、ナレーションの1つ以上の部分についての1つ以上のナレーションパラメータを規定または設定するナレーション設定ファイルなどのナレーション設定情報を生成し得る。コンテンツのカスタマイズサービスは、ナレーション設定ファイルの生成を容易にするために、ユーザコンピューティングデバイス110A上に1つ以上のユーザインターフェースを提供し得る。ナレーション設定ファイルを生成した後、ユーザは次にネットワーク108を通してそのファイルをコンテンツカスタマイズサーバ104に提出し得る。コンテンツカスタマイズサーバ104は次に、これらの設定を取り入れ得る。取り入れのルーチンの間、コンテンツカスタマイズサーバ104は、カタログ化、カテゴリ化、または別様に生成されたナレーション設定ファイルを分類し得る。例えば、コンテンツカスタマイズサーバ104は、ナレーション設定ファイルを、ナレーション設定ファイルを生成したユーザ、ユーザがナレーション設定ファイルを生成したコンテンツの項目、ユーザがナレーション設定ファイルを生成したコンテンツの項目のジャンルなどに関連付ける場合がある。ナレーション設定ファイル上で取り入れのルーチンを実施した後、コンテンツカスタマイズサーバ104は次に、将来の読み出しのために、ナレーション設定ファイルをデータストア102に格納し、例えば、ユーザコンピューティングデバイス110B〜110Nに送信し得る。この取り入れのルーチンはまた、実行ファイルまたはコンテンツページの形式でナレーション設定情報にも実施され得る。
図3Bは、例示的な状態図であって、これにより権利者コンピューティングデバイス106によって設定が生成され、コンテンツカスタマイズサーバ104による使用のために格納され得る状態図を描写している。権利者は、コンテンツの項目または元のナレーションに知的所有権(例えば、商標、著作権、広報の権利、または道徳的権利)を有する任意の個人、グループ、またはビジネス団体であり得る。いくつかの実施形態において、権利者は、コンテンツの項目の出版社である。他の実施形態において、権利者は、元のナレーションのナレーターである。なおさらなる実施形態において、権利者は、コンテンツの項目の著者である。権利者はまた、出版社、著者、ナレーターなどからの権利の譲受人または被許諾者であり得る。
権利者は、権利者コンピューティングデバイス106を用いて、ナレーションの1つ以上の部分についての1つ以上のナレーションパラメータを規定または設定するナレーション設定ファイルなどのナレーション設定情報を生成し得る。ナレーション設定ファイルが説明されているが、同一のルーチンが続いて実行可能なナレーション設定情報またはコンテンツページの形式のナレーション設定情報を生成し得る。コンテンツのカスタマイズサービスは、ナレーション設定情報の生成を容易にするために、権利者コンピューティングデバイス106上に1つ以上のユーザインターフェースを提供し得る。これらのユーザインターフェースは、コンテンツのカスタマイズサービスによってユーザコンピューティングデバイス110A〜110N上に提供されるものと類似し得る。
コンテンツのカスタマイズサービスはまた、権利者コンピューティングデバイス106のユーザが、権利者が権利を有する、関連付けられるナレーションの1つ以上の部分をロックすることをも許可し得る。例えば、コンテンツの項目の著者は、コンテンツの項目についてのナレーションを実施し、次にナレーション全体についてのナレーションパラメータのすべてがロック済みである自らのナレーションについてのナレーション設定ファイルを生成することを望み得る。そうすることで、権利者は、自らのナレーションのナレーションパラメータに対し、誰にもいかなる修正も行わせないようにすることを選び得る。
代わりに、権利者は、ナレーションの一部分のみを、またはある特定のナレーションパラメータのみをロックすることを選び得る。例えば、コンテンツの項目の著者は、自らのコンテンツの項目のナレーションを実施し得る。著者は、ユーザがコンテンツの項目の自らのナレーションを多くの言語で聞くことができるようにすることを希望し得るが、他のいかなる変更も許すことを希望しない場合がある。したがって、著者は、言語パラメータを除くすべてのナレーションパラメータがロック済みの、特に自らのコンテンツの項目の自らのナレーションのためのナレーション設定ファイルを生成し得る。
ナレーション設定ファイルを生成した後、権利者は次に、ネットワーク108を通してそのファイルをコンテンツカスタマイズサーバ104に提出し得る。コンテンツカスタマイズサーバ104は次に、上述の通りにこれらの設定を取り入れ、ナレーション設定ファイルを権利者に、および権利者が権利を有するコンテンツの項目またはナレーションなどに関連付け得る。ナレーション設定ファイル上で取り入れのルーチンを実施した後、コンテンツカスタマイズサーバ104は次に、将来の読み出しおよび使用のために、ナレーション設定ファイルをデータストア102に格納し得る。
ユーザが生成したおよび権利者が生成したナレーション設定ファイルを用いることに加えて、コンテンツのカスタマイズサービスはまた、コンテンツの1つ以上の項目についてのナレーション設定ファイルを自動的に生成し得る。図3Cは、機械分析を通じてコンテンツカスタマイズサーバ104がナレーション設定ファイルを生成する例示的な状態図を描写している。
いくつかの実施形態において、コンテンツカスタマイズサーバ104は、多くの異なるナレーションおよび/または多くの異なるコンテンツの項目とともに用いられることができるナレーション設定ファイルを産生する。例えば、コンテンツカスタマイズサーバ104は、コンテンツの項目の特定のジャンルとともに用いられる場合があるナレーション設定ファイル、同一の著者によってコンテンツの複数の項目とともに用いられる場合があるナレーション設定ファイル、特定のナレーターの声とともに用いられる場合があるナレーション設定ファイル、および同等物を生成し得る。特定のナレーターの声とともに用いられる場合があるナレーション設定ファイルは、ナレーターが複数のオーディオブックを録音する必要を未然に防ぐために好都合に用いられる場合がある。他の実施形態において、ナレーション設定ファイルは、ナレーションを含む規定のオーディオブックまたは他のコンテンツの項目とともに用いるために機械によって生成されたものである。例えば、コンテンツカスタマイズサーバ104は、自らの設定を規定のナレーションのそれぞれのラベル付けされた部分に割り当て得る。
コンテンツカスタマイズサーバ104はまた、ナレーション設定ファイルを生成する際に人間対話タスクシステム112から入力を受信し得る。概して説明すると、人間対話タスクシステム112は、人間対話タスク(HIT)を電子的に処理する1つ以上のコンピューティングデバイスを含むコンピュータ化されたシステムである。HITは、コンピューティングデバイスが実施するには難しく、時間がかかり、または高額のタスクである。しかしながら、人間がHITを実施するのは比較的簡単で早い場合がある。したがって、人間対話タスクシステム112は、例えば、情報収集またはクエリへの回答について、HITを実施すること、ならびに、さらなる処理および/または要求側への提示のために結果または回答を人間対話タスクシステム112に返すことを、人間の作業者に要求する場合がある。人間の作業者は、1組のナレーションパラメータが、ナレーターによって読み上げられた語、ナレーションの気分、コンテンツの項目の気分などにどのくらい適合しているかについて主観的決定を行うことに非常に適し得る。人間の作業者は、これらのおよび他のクエリに自発的に回答し、回答および情報がコンテンツカスタマイズサーバ104に提供され得るように、他の情報を人間対話タスクシステム112に提供し得る。
HITは、ナレーションの機械修正を改善するために、コンテンツカスタマイズサーバ104によって生成され得る。HITの例は、「このナレーションはテキストの気分をとらえているか?」である場合があり、ナレーションの一部分が次に再生される。人間の作業者が、ナレーションがテキストの気分をとらえていないということを示した場合、人間の作業者は、ナレーションパラメータに対して1つ以上の変更を勧めるように指示され得る。例えば、コンテンツカスタマイズサーバ104は、図6および図7に示されたものなどの1つ以上のユーザインターフェースを表示し、かつ人間の作業者がナレーションパラメータを変更してより適切なナレーション設定ファイルを生成することを要求し得る。
図4は、ナレーション修正操作を実施しているコンテンツのカスタマイズサービスの状態図を描写している。この状態図に対して、4つのナレーション修正操作の例が本明細書において説明される。当業者は、他の操作が可能であるということを認識するであろう。加えて、ナレーション設定ファイルに関係する例が以下に記載されるが、これらの操作は概して任意の形式のナレーション設定情報とともに用いられ得る。
第1の動作例において、コンテンツの項目についての元のナレーションは、ユーザコンピューティングデバイス110上に記憶される。ユーザは、修正されたナレーションまたはユーザコンピューティングデバイス110上にローカルで記憶されたナレーション設定ファイルについての要求を生成する(1)。例えば、ユーザは、ユーザコンピューティングデバイス110上に表示されたユーザインターフェースを通じていくつかのナレーションパラメータを規定し得、またはユーザは、ユーザコンピューティングデバイス110上に記憶されたナレーション設定ファイルをインポートし得る。これに応じ、ユーザコンピューティングデバイスは、元のナレーションに適用される際に、ユーザの入力またはインポートされたナレーション設定ファイルに基づいて、修正されたナレーションを生成(6)し得る。
第2の動作例において、コンテンツの項目についての元のナレーションは、ユーザコンピューティングデバイス110上に記憶される。ユーザは、ユーザコンピューティングデバイス110上にナレーション設定ファイルについての要求を生成し(1)、ネットワーク108を通して要求をコンテンツカスタマイズサーバ104に送信する(2)。コンテンツカスタマイズサーバ104は、要求に応じて、データストア102からナレーション設定ファイルを読み出し得(3)、かつネットワーク108を通してユーザコンピューティングデバイス110にナレーション設定ファイルを送信し得る(5)。ユーザコンピューティングデバイス110は次に、ナレーション設定ファイルを用いてユーザコンピューティングデバイス110上に記憶された元のナレーションから修正されたナレーションを生成する(6)。
第3の動作例において、ユーザは、ユーザのユーザコンピューティングデバイス110上にナレーション設定ファイルについての要求を生成し(1)、ネットワーク108を通じてこの要求をコンテンツカスタマイズサーバ104に送信する(2)。コンテンツカスタマイズサーバ104は、要求に応じて、コンテンツの項目の元のナレーションおよびナレーション設定ファイルをデータストア102から読み出し得(3)、かつナレーション設定ファイルを元のナレーションに適用して修正されたナレーションを生成し得る(4)。コンテンツカスタマイズサーバは次に、修正されたナレーションをユーザコンピューティングデバイス110に送信し得る(5)。
第4の動作例において、ユーザは、元のナレーションの1つ以上のナレーションパラメータに対する1つ以上の変更を規定することにより、ユーザのユーザコンピューティングデバイス110上に修正されたナレーションについての要求を生成し(1)、元のナレーションはコンテンツカスタマイズサーバ104からユーザコンピューティングデバイス110に送信され再生される。要求は、ネットワーク108を通してコンテンツカスタマイズサーバ104に送信され得る(2)。コンテンツカスタマイズサーバ104は、要求に応じて、データストア102(またはコンテンツカスタマイズサーバ104上のメモリバッファ)から元のナレーションを読み出し得(3)、ユーザの要求された変更を適用して修正されたナレーションを生成し得る(4)。コンテンツカスタマイズサーバは次に、ネットワーク108を介して修正されたナレーションをユーザコンピューティングデバイス110に送信し得る(5)。
コンテンツのカスタマイズサービスは、種々の要素に基づいてどのナレーション修正操作(例えば、どのコンピューティングデバイスがどのナレーション修正を実行するか)が続くのかを選択し得、ナレーションの異なる部分についての複数の操作が続き得る。ナレーションのこの部分に対するいくつかまたはすべての所望される修正を行うためのコンピューティングデバイスの選択は、いくつかの要素に基づいてなされ得る。
一実施形態において、コンテンツのカスタマイズサービスは、これらの値を評価するために、ネットワーク108を通じて接続される1つ以上のコンピューティングデバイス(例えば、ユーザコンピューティングデバイス110およびコンテンツカスタマイズサーバ104)についてハードウェア情報にアクセスし、かつそれに従って判断を行う。例えば、コンテンツのカスタマイズサービスは、要求されたナレーション修正を行うために選択されたコンピューティングデバイスが、閾値の例をいくつか挙げれば、少なくとも約500MHz、少なくとも約800MHz、または少なくとも約1GHzのプロセッサ速度を有するべきであると判断し得る。ユーザコンピューティングデバイス110がコンテンツのカスタマイズサービスによって設定された閾値以上のプロセッサ速度を有する場合、ユーザコンピューティングデバイス110は修正されたナレーションを形成し得る。そうでない場合、コンテンツカスタマイズサーバ104は、修正されたナレーションを形成し、ネットワーク108を通して修正されたナレーションをユーザコンピューティングデバイス110に送信し得る。いくつかの例を挙げれば、ネットワーク108を通した接続の利用可能性、ユーザコンピューティングデバイス110の予備のエネルギー(例えば、バッテリレベル)、またはユーザコンピューティングデバイス110内にインストールされたRAMの量などの他の要素は、デバイスの選択を誘導するためにも用いられ得る。
コンピューティングデバイスの選択は、実施されるナレーションに対する修正によっても判断され得る。一実施形態において、ユーザコンピューティングデバイス110は、コンテンツのカスタマイズサービスによって選択され、ナレーションの一部分の定量的ナレーションパラメータに対する、低音、高音、ピッチ、速度、またはコントラストなどの修正を行う。別の実施形態において、コンテンツカスタマイズサーバ104は、コンテンツのカスタマイズサービスによって選択され、ナレーションの一部分の定性的ナレーションパラメータに対する、言語、訛り、気分、または話者などの修正を行う。これらのコンピューティングデバイスの選択は、ユーザコンピューティングデバイス110が定量的ナレーションパラメータに対する変更を行い、適用することは比較的簡単であるが、ユーザコンピューティングデバイス110に定性的ナレーションパラメータへの変更を行わせ、適用させることは比較的難しい、または実用的でないということを反映する。例えば、コンテンツカスタマイズサーバ104は、新規の話者を用いた修正されたナレーションを生成することが元のナレーションからテキスト台本を生成し、次にデータストア102内に記憶された新規の話者の声のクリップを用いてテキスト台本から新規のナレーションを合成することを伴い得るため、ナレーションのための新規の話者が選ばれる場合に、修正されたナレーションを生成することにより適し得る。
図5は、ユーザコンピューティングデバイス上で再生されるナレーションの一部分に対する修正を行うための例示的な工程フロー500を描写している。ブロック502で、コンテンツのカスタマイズサービスは、どのコンピューティングデバイスがナレーションの一部分に対する任意の所望される修正を処理するかを選択し得る。前述のように、いくつかの実施形態において、ユーザコンピューティングデバイスは、図2に示されるように、修正されたナレーションを生成する要求をコンテンツカスタマイズサーバに送信する。コンテンツカスタマイズサーバは次に、ナレーションのこの部分を修正し、修正されたナレーションをユーザコンピューティングデバイスに送信し得る。他の実施形態において、ユーザコンピューティングデバイスは、ユーザの要求があると、ナレーションに対する修正を行う。なおさらなる実施形態において、例えば、コンテンツのカスタマイズサービスが単一のユーザコンピューティングデバイスまたは店舗内キオスクにおいて具現化される実施形態において、修正するデバイスの選択は必要でない。
ブロック504で、コンテンツのカスタマイズサービスは、ナレーション設定情報が再生されるナレーションのこの部分についてインポートされているかどうか判断する。例えば、ユーザコンピューティングデバイスは、ユーザコンピューティングデバイス上に格納された、またはコンテンツのカスタマイズサービスによって維持される外部データストア内に格納されたナレーション設定ファイルをインポートし得る。ナレーション設定情報がインポートされている場合、次にコンテンツのカスタマイズサービスはブロック506でナレーション設定情報に従ってナレーションパラメータを設定または規定し得る。
インポートされた設定ファイルがない場合、コンテンツのカスタマイズサービスは次に、ブロック508で示されるように、ラベル付けされた部分についてナレーションパラメータがどのようであるべきかを規定する任意のラベルについて、ナレーションのこの一部分を確認し得る。この一部分がラベル付けされている場合、ブロック510で、コンテンツのカスタマイズサービスは、ラベルによって規定されたナレーションパラメータを設定し得る。上述の「ヘリウムラベル」の例を再び参照して、ヘリウムラベルに関連付けられるナレーションの一部分のピッチが高められ得る。
ラベルが存在しない場合、ブロック512で、コンテンツのカスタマイズサービスは、修正されるナレーションの一部分についての初期ナレーション設定を任意選択的に生成および適用し得る。例えば、ナレーションのタグ付けされていない一部分について、コンテンツのカスタマイズサービスは、例えば、ナレーションのテキスト版の文脈分析(例えば、音声からテキストへの変換プログラムによって生成される)またはナレーションに関連付けられるテキストコンテンツの項目に基づいて、初期ナレーションパラメータを選択する場合がある。ナレーションとテキストコンテンツの項目とを関連付けおよび同期するための方法は、参照によって本明細書に事前に組み込まれている米国特許出願第13/070、313号に記載されている。例えば、修正されるナレーションのこの部分の中の、またはナレーションが同期されるテキストコンテンツの項目の中の語は、陽気な気分を示す場合がある。「笑う」、「微笑む」、または「祝う」などの語は、コンテンツのカスタマイズサービスに、初期の「陽気な」気分をナレーションのその部分に割り当てるように指示する場合がある。
いくつかの実施形態において、初期ナレーション設定は、特定のユーザのためにコンテンツのカスタマイズサービスによって適用された以前のナレーション設定に基づく。例えば、コンテンツのカスタマイズサービスは、ユーザが多くの異なるナレーションについて特定のナレーション設定を用いたということを判断し得る。例えば、ナレーションがゆっくりした速度でかつ南部訛りで読み上げられることを自らが好むということをユーザが示した場合がある。ユーザは、自らが以前に聞いていたものにこれらのナレーション設定を多くの異なるナレーションに適用した場合がある。したがって、コンテンツのカスタマイズサービスは、ゆっくりした速度および南部訛り設定がこのユーザのための初期ナレーション設定であるべきであるということを判断し得る。したがって、コンテンツのカスタマイズサービスは、これらの初期ナレーション設定を適用し、ユーザが聞き得る後に続くナレーションの一部分がゆっくりした速度でかつ南部訛りで読み上げられるようにし得る。
ユーザは次に、ブロック514で、ナレーションパラメータについてのさらなる設定を規定する機会を与えられ得る。例えば、コンテンツのカスタマイズサービスは、ユーザのコンピューティングデバイスにナレーションパラメータを規定するための1つ以上のユーザインターフェースを表示させ得る。これらのさらなる修正は、ナレーションのために用いられる最終的な1組のナレーションパラメータを生成するために用いられ得る。
修正されたナレーションは、ブロック516で再生され得る。当業者は、他のブロックで説明されたように、ナレーションパラメータに対する変更は、例えば、ナレーションがユーザ入力が変更している間に動的に修正されるなど、再生されているナレーションと実質的に同時に行われ得るということを認識するであろう。他の実施形態において、しかしながら、ナレーションの修正された部分は、ナレーションパラメータが設定されるまで再生されない。
図6は、例示的なユーザインターフェース600であって、これによりユーザがナレーションに対する要求または入力を変更し得るユーザインターフェースを描写している。このユーザインターフェース600(および他のユーザインターフェース)は、ソフトウェアプログラムの一部として、またはコンテンツカスタマイズサーバによってホストされるコンテンツページ(「ウェブページ」など)の一部としてユーザコンピューティングデバイス上に表示され得る。ユーザは、ユーザインターフェース600を表示するコンピューティングデバイス次第で、いくつかの方途でユーザインターフェース600と対話し得る。一実施形態において、ユーザは、マウスまたはトラックボールなどの入力デバイスを用いてユーザインターフェース600の要素と対話する。他の実施形態において、ユーザインターフェース600は、ユーザがタッチスクリーンの要素が表示される場所をタッチすることにより、ユーザインターフェース600の要素と対話し得るように、タッチスクリーンを持つユーザコンピューティングデバイス上に表示される。ユーザ入力を受信するなお他の構造および方法は、本開示の精神の範囲内である。
ユーザインターフェース600は、コンテンツの項目およびナレーションについての情報を表示するための1つ以上の要素を含み得る。例えば、ユーザインターフェース600は、コンテンツの項目の題名を表示するための題名インジケータ602を含み得る。ユーザインターフェース600は、時間インジケータ604をも含み得、これは、ナレーションのどの一部分が再生されているか(例えば、章)および再生されているナレーションに関連付けられるタイムスタンプの表示を含み得る。時間インジケータ604の中のタイムスタンプは、ユーザインターフェース600の使用中にナレーションが再生されている場合にインクリメントされ得る。他のインジケータが所望により組み込まれ得る。例えば、コンテンツの項目の著者、コンテンツの項目のジャンル、コンテンツの項目の公開日などに対応するインジケータが表示され得る。
前述のように、いくつかの実施形態において、ナレーションのパラメータはナレーションの再生中に変更される。しかしながら、ユーザは、ナレーションが一時停止されている間にナレーションパラメータを変更し、次にナレーションパラメータをユーザの嗜好に合わせて設定した後にナレーションを継続することを望み得る。したがって、ナレーションを開始または再開するための再生ボタン606およびナレーションを一時停止するための一時停止ボタン608がユーザインターフェース600に提供され得る。これらのボタンは、これらの状態を示すためにハイライト、反転、または別様にマーキングされ得る。例えば、ナレーションが一時停止しているときは一時停止ボタン608がハイライトされ得、ナレーションが再生されている間は再生ボタン606がハイライトされ得る。ナレーションの再生を制御する早送り、巻き戻し、およびスキップボタンなどの他のボタンがユーザインターフェース600によって提供され得る。
ユーザインターフェース600は、ナレーションの定量的パラメータを制御するための要素を含み得る。概して説明すると、ナレーションの定量的パラメータは、測定または定量化されることができるナレーションの側面を含む。例えば、音の高さは、ナレーションの中のナレーターの声の平均周波数によってヘルツで測定される場合があり、低音および高音は、ナレーターの声のスペクトルの低い部分および高い部分の振幅によって測定される場合があり、速度は、所与のタイムフレーム内にいくつの音節がナレーターによって読み上げられるかによって測定される場合があり、コントラストは、ナレーションの静かな部分とナレーションの声が大きい部分との間の強度の差よって(例えばデシベルで)測定される場合がある。したがって、これらの定量的ナレーションパラメータを調節(例えば、上げるまたは下げる)するためのスライダである、ピッチを調節するためのスライダ610A、低音を調節するためのスライダ610B、高音を調節するためのスライダ610C、速度を調節するためのスライダ610D、およびコントラストを調節するためのスライダ610Eが提供され得る。当業者は、定量値を入力するための任意のユーザインターフェースがこれらおよび他の定量的ナレーションパラメータ調節するために適しているということを認識するであろう。例えば、ソフトウェアのノブ、ダイヤル、テキスト入力フィールド、数値入力フィールドなどは、種々の定量的ナレーションパラメータのレベルを規定するために用いられ得る。
ユーザインターフェース600は、ナレーションの定性的パラメータを制御するための要素をも含み得る。概して説明すると、ナレーションの定性的パラメータは、必ずしも測定または定量化されず、むしろナレーションまたは規定の種類のナレーションの主観的品質に関連するナレーションの側面を含む。定性的ナレーションパラメータは、例えば、ナレーションの言語、ナレーションを読み上げるナレーターの声、ナレーターの訛り、およびナレーターの気分を含み得る。図6に図示されるユーザインターフェース600において、定性的ナレーションパラメータは、ドロップダウンメニューと対話することによって規定され得る。
言語メニュー612Aは、ユーザがナレーションについてどの言語を好むかを選択することを可能にする。例えば、ユーザは、言語メニュー612Aを用いて、英語、フランス語、スペイン語、または他の言語から選択し得る。言語メニュー612Aは、明確な言語選択として同一の言語の1つ以上の方言を含み得る。例えば、言語メニュー612Aは、アメリカで話されている英語(アメリカ英語)とイギリスで話されている英語との間、またはスペインで話されているスペイン語とラテンアメリカで話されているスペイン語との間の選択を用意し得る。いくつかの実施形態において、言語メニュー612Aからの言語の選択は、他のユーザインターフェース要素がレンダリングされる言語をも決定し得る。例えば、ユーザが言語メニュー612Aからフランス語を選択すると、題名インジケータ602が英語ではなくフランス語でレンダリングされる場合がある。題名インジケータ602は、アレクサンドル・デュマの小説「The Count of Monte Cristo(モンテ・クリスト伯)」の英語の題名の表示をそのフランス語の題名の表示「Le Comte de Monte Cristo」に変更する場合がある。
一実施形態において、言語を選択することは、コンテンツのカスタマイズサービスに、ユーザコンピューティングデバイスがあらかじめ生成されたオーディオナレーションを選択された言語で再生するようにさせることを指示する。例えば、オーディオブックは英語およびフランス語であらかじめ録音されている場合がある。ユーザが言語メニュー612Aからフランス語を選択した場合、あらかじめフランス語で録音されたオーディオブックが再生される。別の実施形態において、言語を選択することは、コンテンツのカスタマイズサービスに、ナレーションの機械翻訳を生成するように指示する。例えば、音声からテキストへの変換プログラムを用いて、コンテンツのカスタマイズサービスは、オーディオナレーションのあらかじめ録音された版のテキスト台本を英語で生成し得る。代わりに、コンテンツのカスタマイズサービスは、ナレーション原稿などのあらかじめ生成されたオーディオナレーションの英語のテキスト台本に依存し得る。コンテンツのカスタマイズは、電子ブックのテキストをテキストソースとしても用いる場合がある。どちらの場合も、ユーザが言語メニュー612Aからフランス語を選択すると、コンテンツのカスタマイズサービスは、当技術分野で既知の機械翻訳アルゴリズムを用いて英語のテキスト台本をフランス語のテキスト台本に翻訳し得る。コンテンツのカスタマイズサービスは次に、テキストから音声への変換器を用いることを通じて、フランス語のテキスト台本から新規のオーディオナレーションまたはオーディオナレーションの新規の一部分を生成し得る。
言語メニュー612Aに加えて、ユーザインターフェース600は、訛りメニュー612Bをも含み得る。訛りメニュー612Bは、ユーザがナレーションについて1つ以上の訛りから選択することを可能にし得る。訛りは、アメリカ南部の訛りで話されるアメリカ英語など、選択された言語が典型的に話されている特定の地域に関連し得る。訛りはまた、フランス語の訛りで話されるアメリカ英語など、選択された言語が典型的に話されない地域にも関連し得る。訛りはまた、例を2つ挙げれば、海賊訛りまたはサーファー訛りなどの選択された言語を話す特定のキャラクターまたはサブカルチャーにも関連し得る。
いくつかの実施形態において、コンテンツのカスタマイズサービスは、声音波形分析およびフィルタを採用して訛りをオーディオナレーションに適用する。例えば、ユーザは、訛りメニュー612Bからボストン訛りを選択し得る。ボストン訛りにおいて、音素「ar」はしばしば音素「ah」に置き換えられるため、語「car(車)」および「yard(庭)」が「cah」および「yahd」と発音され得る。したがって、コンテンツのカスタマイズサービスは、当技術分野で既知の声分析技術を用いることによって、ナレーションの中の音素「ar」がどこで読み上げられたかを判断し得る。音素「ar」が読み上げられているナレーションの波形の部分を識別したコンテンツのカスタマイズサービスは、波形「ar」を除去し、いくつかの実施形態においてナレーターの声ライブラリを補完するデータストアから取得されるオーディオクリップ「ah」をナレーターの声の中に継ぎ入れ得る。他の実施形態において、波形「ar」を波形「ah」に変換するためにオーディオフィルタが適用され得る。
他の実施形態において、コンテンツのカスタマイズサービスは、ナレーションのテキスト分析に基づいて音素を置換して訛りを適用する。例えば、音声からテキストへの変換プログラムを用いて、コンテンツのカスタマイズサービスは、オーディオナレーションのテキスト台本を生成し得る。代わりに、コンテンツのカスタマイズサービスは、ナレーション原稿などのオーディオナレーションのあらかじめ生成されたテキスト台本に依存し得る。どちらの場合も、このテキスト台本は、例えば、表音台本を含む場合がある。上記のボストン訛りの例を再び参照して、コンテンツのカスタマイズサービスは次に、表音ナレーション台本の音素「ar」を検索し、これを音素「ah」に置き換え得る。コンテンツのカスタマイズサービスは次に、表音台本から新規のナレーションまたはナレーションの新規の部分をテキストから音声への変換器によって生成する場合がある。コンテンツのカスタマイズサービスは代わりに表音台本を元のオーディオナレーションと同期させる場合があり、ナレーションが再生している間、コンテンツのカスタマイズサービスは、音素「ah」が表音台本内に出現したときに、元のナレーション内で読み上げられた音素「ar」を動的に除去する場合がある。
訛りのあるナレーションを作成するために用いられる規則は、データストア内に記憶され、およびカスタマイズについてのユーザの要求の際にコンテンツのカスタマイズサービスによってアクセスされ得る。これらの規則は、台本または電子ブックなどのナレーションのテキスト版に適用され得るか、または波形分析およびナレーションの処理に基づいて適用され得る。これらの規則は、地方の慣用表現を反映するための(例えば、元のナレーション内の「you guys(君たち)」を南部訛りのナレーションでは「y’all(君たち)」に変換する)「語または句を検索して置換する規則」、個別の音素に強勢を置く、および/または語の発音を訛りに基づいて変更する(例えば、「pecan(ピーカン)」という語について、南部訛りでは「PEE−can」と、他の地方訛りでは「puh−KAWN」と発音する)規則、および他の規則などの上述の「検索して置換する音素規則」を含む場合がある。
いくつかの実施形態において、言語メニュー612Aからの言語の選択は、訛りメニュー612B内のどの訛りが利用可能であるかに影響を及ぼす。例えば、言語メニュー612Aでアメリカ英語が選択された場合、アメリカ英語に関連する訛りのみが訛りメニュー612B内に出現し得る。かかる訛りは、例えば、南部訛り、ボストン訛り、中西部訛り、およびアメリカに関連付けられる他の地方訛りを含む場合がある。
ユーザインターフェース600は、声メニュー612Cをも含み得る。声メニュー612Cは、ユーザがナレーションを読み上げる声を選択することを可能にし得る。声メニュー612Cのそれぞれのエントリは、話者の性別の表示とあわせて声の話者の名前を含み得る。例えば、Samという名前の男性の話者は、声メニュー612Cの1つのエントリで「話者Sam(男)」として一覧表示され得、一方、Noraという名前の女性のナレーターは、声メニュー612Cの別のエントリで「ナレーターNora(女)」として一覧表示される場合がある。
当業者は、オーディオコンテンツの消費者に、そのコンテンツのための声を選択する機会を提供する多くの方法が利用可能であるということを認識するであろう。例えば、オーディオブックのための元のオーディオナレーションが話者Samによって読み上げられているとしよう。ユーザは、そうではなくナレーターNoraによるオーディオナレーションを好む場合がある。したがって、一実施形態において、声メニュー612CからナレーターNoraを選択することは、話者Samによる版ではなく、ナレーターNoraによって読み上げられているオーディオブックの録音された版が再生されることを指示する。別の実施形態において、声にナレーターNoraを選択することは、コンテンツのカスタマイズサービスにオーディオブックに関連付けられるテキストコンテンツの項目を分析および/または生成することを指示する。コンテンツの項目は、データストア内に記憶される場合があり、例えば、オーディオブックの電子ブック版、オーディオブックの話者Samの版に関連付けられる原稿、または音声からテキストへの変換ルーチンによって生成されたオーディオブックの話者Samの版の台本を含み得る。コンテンツのカスタマイズサービスは、オーディオブック内のナレーションの現在の一部分を識別し得、かつオーディオブックに関連付けられるテキストコンテンツの項目内のナレーターの位置を判断し得る。オーディオコンテンツをテキストコンテンツと同調させるための方法は、参照によって本明細書にあらかじめ組み込まれる米国特許出願第13/070、313号に開示されている。コンテンツのカスタマイズサービスは次に、データストア内に記憶されたナレーターNoraの声のクリップおよびテキストから音声への合成器を用いて、オーディオブックの一部または全部のための新規のナレーションをナレーターNoraの声で生成する。ユーザは次に、ユーザインターフェース600の他の要素を用いて合成されたナレーションを修正する場合がある。
ユーザインターフェース600にはまた、気分メニュー612Dをも提供され得る。気分は概して、コンテンツの項目に関連付けられる主観的な感情を含み得る。例えば、気分は、陽気な気分、緊張した気分、怒った気分、悲しい気分、眠い気分、熱狂した気分などを含み得る。いくつかの実施形態において、気分メニュー612Dから気分を選択することは、スライダ610A〜610Eを移動させることによって設定されることができるものなどの定量的ナレーションパラメータのうちの1つ以上についての設定に影響する。例えば、気分メニュー612Dから緊張した気分が選択された場合、緊張した話者がより高い声でより速い速度で話し得ることを反映するために、ピッチスライダ610Aはナレーションをより高いピッチに設定するために移動され得、かつ速度スライダ610Dはナレーションをより速い速度に設定するために移動され得る。他の実施形態において、気分メニュー612Dから気分を選択することは、コンテンツのカスタマイズサービスに、1つ以上の波形フィルタまたは効果をオーディオナレーションに適用することを指示し得る。例えば、気分メニュー612Dから緊張した気分が選択されると、コンテンツのカスタマイズサービスは、オーディオナレーションを変調させて、ナレーターの声が震えているように聞こえるようにトレモロ効果(電子ギターの「ワーミーバー」によって産生されるものに類似する)を追加し得る。またさらなる実施形態において、気分メニュー612Dから気分を選択することは、コンテンツのカスタマイズサービスに、気分に関連付けられる音響効果をナレーションに挿入することを指示し得る。例えば、満足なため息の音が陽気な気分のナレーションに追加される場合があり、足を踏み鳴らす音が怒った気分のナレーションに追加される場合があり、または泣いている音が悲しい気分のナレーションに追加される場合がある。
ユーザインターフェース600は、1つ以上のボタンをも含み得る。初期ボタン614が提供され得る。一実施形態において、ユーザの初期ボタン614との対話は、コンテンツのカスタマイズサービスに定量的ナレーションパラメータのうちの1つ以上をニュートラル値に設定することを指示する。例えば、ピッチスライダ610Aは、より高いピッチを産生するプラスの値またはより低いピッチを産生するマイナスの値ではなく、値がゼロになるように設定され得る。別の実施形態において、ユーザの初期ボタン614との対話は、コンテンツのカスタマイズサービスに定性的ナレーションパラメータのうちの1つ以上をニュートラルまたは既定値に設定することを指示する。例えば、ナレーションの初期言語および声は、ナレーションの元の話者がオーディオナレーションを録音した言語であり得る。訛りおよび気分設定は、初期値では気分または訛りフィルタがナレーションに適用されないように設定され得る。さらなる一実施形態において、ユーザは、初期値として用いられるナレーションパラメータについての1つ以上の設定を規定し得る。ユーザが初期ボタン614と対話すると、ナレーションパラメータがユーザ指定の初期設定に従って設定され得る。
ユーザインターフェース600は、復元ボタン616をも含み得る。ユーザが復元ボタン616と対話したとき、ユーザによって規定された以前の設定が復元され得る。例えば、ユーザは、ナレーションパラメータについての設定の第1の群にほぼ満足であり得る。しかしながら、ユーザは、ナレーションをさらにカスタマイズするために、ナレーションパラメータのうちのいくつかを変更し得る。ユーザがさらなるカスタマイズに不満である場合、ユーザは、復元ボタン616と対話してナレーションパラメータについての設定の第1の群に戻り得る。
ユーザインターフェース600は、適用ボタン618をも含み得る。いくつかの実施形態において、ユーザは、ナレーションの再生中に種々のナレーションパラメータについての設定を規定し得る。一実施形態において、ユーザがナレーションパラメータについての設定を変更した場合、この変更はナレーションが再生している間に直ちに適用される。別の実施形態において、変更は、ユーザが適用ボタン618で対話するまで適用されない。
前述のように、コンテンツ処理サービスは、ユーザが電子ネットワークを通じてナレーション設定情報を送信またはこれにアクセスすることを可能にし得る。したがって、ユーザインターフェース600は、インポートボタン620およびエクスポートボタン622を提供され得る。インポートボタン620と対話することによって、ユーザは、例えば、図3に示されるように、および図3について記載されるように、コンテンツカスタマイズサーバまたはコンテンツのカスタマイズサービスに関連付けられるデータストアからナレーション設定情報を要求することができる。要求に応じて、コンテンツのカスタマイズサービスは次に、ナレーション設定情報をユーザコンピューティングデバイスに送信することができる。ユーザはまた、ユーザのユーザコンピューティングデバイス上のデータストア上に記憶されたナレーション設定情報にアクセスするために、インポートボタン620でも対話し得る。
エクスポートボタン622で対話することにより、ユーザは、ナレーションパラメータについてのユーザの設定を保存することができ、次にこれらを任意選択的にユーザのユーザコンピューティングデバイス上に記憶するか、または電子ネットワークを通じて送信することができる。例えば、ユーザは、図3Aに示されるように、および図3Aについて記載されるように、コンテンツカスタマイズサーバまたはコンテンツのカスタマイズサービスに関連付けられるデータストアにユーザの設定を送信することができる。ユーザはまた、自らのナレーション設定情報を別のユーザコンピューティングデバイスに直接送信し得る。
図7は、ナレーションの異なる部分についてのナレーションパラメータを設定するために用いられ得る、ユーザインターフェース700の例を描写したものである。ユーザインターフェース700は、題名インジケータ702ならびにユーザインターフェースとどのように対話するかに関するユーザのための命令を含み得る。示されるユーザインターフェース700において、例えば、ユーザは、タップすることによっていくつかの要素と、およびドラッグすることによって他の要素と対話し得る。ユーザは、修正されるナレーションの一部分を選択し、次に設定をその章に対応するスロットにドラッグし得る。
この例示的なユーザインターフェース700において、コンテンツの項目に関連付けられるナレーションは、章毎に分解される。ゆえに、4つの章を含むナレーションについて、スロット704A〜704Dとしてここに示される4つのスロットが存在し得る。ユーザは、例えば以前に生成された設定706A〜706Cを選択し、次に選択された設定を所望の章のスロットにドラッグし得る。例えば、ここで、ユーザはスロット704Aを埋めるために設定Aを選んだ。ユーザはまた、新規設定ボタン708と対話することにより、新規の設定を生成する任意選択をも有する。新規設定ボタン708を選択することにより、ユーザは、ナレーションの一部分についてのナレーションパラメータを設定するためのユーザインターフェース600などのユーザインターフェースに導かれ得る。生成された設定は次に、以前に生成された設定706A〜706Cの隣に出現し、スロット704A〜704Dにドラッグされ得る。
いくつかの実施形態において、スロットについて初期設定またはラベル設定が選択される。前述のように、図5に対して、ナレーションの一部分が、その一部分についての望ましいナレーション設定を示すためにラベル付けされ得る。本例において、ナレーションの第2章が、コンテンツのカスタマイズサービスによって「陽気な」ラベルとしてラベル付けされている。やはり図5に対して検討したように、初期設定は、ナレーションの文脈分析またはそのナレーションに関連付けられるテキストコンテンツの項目に基づき得る。例えば、ナレーションまたはテキストコンテンツの項目内の「笑う」、「微笑む」、または「祝う」という語の存在に基づいて、「陽気な」気分が初期値として選択され得る。いくつかの実施形態において、ユーザは、おすすめボタン710を押すことにより、初期設定および/またはラベル付きの設定をナレーションのすべての部分に適用し得る。
スロットについて設定がすでに選択されている場合、ユーザは、割り当てられた設定と対話してさらなる修正を行い得る。例えば、ユーザインターフェース700において、スロット704Cにユーザによって設定Bが割り当てられている。ユーザは次に、埋められたスロット704C(おそらくクリックまたはタップされることによって)と対話してスロットについての設定Bに対するさらなる変更を行い得、結果として設定B’となる。例えば、埋められたスロット704Cと対話することにより、ユーザは図6に示される例示的なユーザインターフェース600へと導かれ、1つ以上のナレーションパラメータを設定するように指示され得る。ユーザはまた、スロット704Bに示されるような初期設定などの初期設定と対話し、かつ修正し得る。ナレーションのいくつかの部分は、ナレーションのその部分のナレーションパラメータが変更されることができないように、ロックされ得る。例えば、権利者は、ナレーションのその一部分のナレーションパラメータがユーザによって変更され得ないように、「ロック済み」ラベルをナレーションの一部分上に置き得る。スロット704Dに示されるように、ユーザは、ロック済みラベルがその上に置かれた第4章に変更を加えることが許され得ない場合がある。加えて、ロック済みラベルの存在は、ユーザが以前に生成された設定をナレーションのその部分に適用することを不可能にし得る。前述のように、コンテンツのカスタマイズサービスは、コンテンツの項目について、すべてロック済みの、部分的にロック解除された、または完全にロック解除されたナレーションを用意しうる。
ナレーションはユーザインターフェース700内の章に対応する部分に分解されるが、当業者は他の手段に対応する他のナレーション部分が選ばれ得ること認識するであろう。例えば、ナレーションは、1つ以上の秒、分、または時間などの時間の増分に対応する部分に分解され得る。ナレーションは、ナレーションの話者によっても分解され得る。ゆえに、ユーザは、所望される場合、キャラクター毎を基本として適用されるナレーションパラメータを規定し得る。例えば、ナレーションの第1の部分は男性キャラクターのセリフに対応し、ナレーションの第2の部分は女性キャラクターのセリフに対応し得る。ユーザは、ナレーションの第1の部分については話者Samの声を望み得、ナレーションの第2の部分についてはナレーターNoraの声を望み得、およびナレーションパラメータはそれぞれの部分に応じて設定され得る。
ユーザインターフェース700は、インポートボタン712およびエクスポートボタン714を含み得る。前述のように、ナレーションの1つ以上の部分についてのナレーションパラメータを規定するナレーション設定情報は、コンテンツのカスタマイズサービスに関連付けられるコンテンツカスタマイズサーバ上に記憶され得、またはユーザコンピューティングデバイス上に記憶され得る。インポートボタン712と対話することによって、ユーザは、図4に対して示され、説明されるように、コンテンツのカスタマイズサービスに関連付けられるコンテンツカスタマイズサーバからナレーション設定情報を要求し得る。コンテンツカスタマイズサーバは次に、ナレーション設定情報をユーザコンピューティングデバイスに送信し得る。ユーザはまた、インポートボタン712と対話してユーザのユーザコンピューティングデバイス上のデータストア上に記憶されたナレーション設定情報にアクセスし得る。
いくつかの実施形態において、ナレーション設定情報は、特定のコンテンツの項目の多くの異なる部分についての設定を含む。ゆえに、ユーザのインポートボタン712との対話は、ユーザにナレーション設定情報を選択するように指示し得、その設定がスロット704A〜704Dのうちの1つ以上に伝えられ得る。他の実施形態において、ナレーション設定情報は、多くのコンテンツ項目とともに用いられ得る。ユーザのインポートボタン712との対話は、ユーザにインポートされるナレーション設定情報を選択するように指示し得る。ユーザがナレーション設定情報を選択した後、ユーザインターフェース700は、例えば、以前に生成された設定706A〜706Cに隣に出現し得る「設定D」を表示し得る。ユーザは次に、設定Dをスロット704A〜704Dにドラッグし得る。
エクスポートボタン714は、ナレーションの1つ以上の部分に対するナレーションパラメータを規定するナレーション設定情報を、電子ネットワークを通して送信するために用いられ得る。例えば、ユーザコンピューティングデバイス上に格納されたナレーション設定ファイルは、コンテンツのカスタマイズサービスに関連付けられるコンテンツカスタマイズサーバまたは第2のユーザコンピューティングデバイスに送信され得る。
ユーザは、ナレーションのそれぞれの部分についてのナレーションパラメータについて、自らのカスタム設定を保存することを希望し得る。したがって、ユーザは、「保存して継続」ボタン716と対話して、カスタム設定を保存し、オーディオナレーションを再生し得る。ユーザはまた、「後のために保存」ボタン718と対話して、オーディオナレーションを再生することなくカスタム設定を保存し得る。ユーザはまた、スロット704A〜704Dからすべてクリア設定を希望し得、「すべてクリア」ボタン720と対話してそのようにし得る。
図6および図7に示されるナレーション設定を生成するためのユーザインターフェースに加えて、ユーザインターフェースは、ナレーションを補完または予示し得る1つ以上の視覚インジケータまたはテキストインジケータを含むものを提供され得る。図8は、視覚インジケータ802を含む例示的なユーザインターフェース800を描写している。いくつかの実施形態において、視覚インジケータ802は、ナレーションに関連する画像である。例えば、幽霊が出る地下室に関連するナレーションについて、幽霊を含む視覚インジケータ802が表示され得る。視覚インジケータの他の例は、1つ以上の色の光を含み得る。例えば、火山噴火に関連するナレーションについて、溶岩の流れの画像にあわせるために、赤またはオレンジの光がユーザインターフェース800上またはユーザコンピューティングデバイス上に表示され得る。雷雨に関連するナレーションについて、稲妻の画像にあわせるために、白い光が点滅し得る。
コンテンツのカスタマイズサービスは、再生されているナレーションの特定の部分のラベルに基づいて、画像のユーザ選択に基づいて、または再生されているナレーションの文脈分析に基づいて、どの視覚インジケータを表示するかを判断し得る。文脈分析に基づく視覚インジケータの選択の例について、コンテンツのカスタマイズサービスは、ナレーションをナレーションが属するコンテンツの項目のテキスト版と同期させ、次にテキストナレーションの中のイメージ語を発見する場合がある。ナレーションが再生するにつれて、コンテンツのカスタマイズサービスはテキストの中で後について行く。コンテンツのカスタマイズサービスがテキストの中でイメージ語に当たり、ナレーターがそのイメージ語を読み上げると、そのイメージ語に対応する視覚インジケータ802が表示され得る。ゆえに、ナレーターが「幽霊」という語を言うと、幽霊の視覚インジケータ802が表示され得る。オーディオとテキストコンテンツを同期することに関するさらなる情報は、参照によってあらかじめ本明細書に組み込まれる米国特許出願第13/070、313号から得られ得る。
ユーザインターフェース800は、テキスト804の表示を任意選択的に含み得る。そうすることで、ユーザは、ナレーションのオーディオ版を聞きながら、ナレーションのテキスト版を読むことができる。ディスプレイ804に表示されるテキストの一部分は、上述のとおりオーディオナレーションに同期され得る。いくつかの実施形態において、ナレーションされるにつれてテキストについて行くインジケータが表示され得る。例えば、テキスト部分がナレーションの中で読み上げられたとき、それぞれの語に下線が引かれるように、テキストディスプレイ804において漸進的に下線を引き得る。他の実施形態において、テキスト部分がナレーションの一部分で読み上げられたとき、それぞれの語が太字となるように、テキストディスプレイ804において漸進的に太字とされる。ユーザがナレーションをテキストと同調させることを支援する、ナレーションの中で読み上げられるにつれて、それぞれの語を飛ばす「バウンシングボール」などのさらに他の方途が可能である。いくつかの実施形態において、ユーザは、テキストディスプレイ804が有効かまたは無効かを選択する(例えば、テキストディスプレイ804がユーザインターフェース800内に出現するか、またはユーザインターフェース800内に出現しないかどうか)。
ユーザインターフェース800は、オーディオ設定ボタン806および視覚的設定ボタン808をも含み得る。これらのボタンと対話することにより、ユーザはナレーション設定または視覚インジケータ設定を指定するためのユーザインターフェースに導かれ得る。例えば、オーディオ設定ボタン806との対話によって、ユーザは、図6に示されるように、ユーザインターフェース600に、または図7に示されるようにユーザインターフェース700に導かれ得る。視覚的設定ボタン808と対話することによって、ユーザは、ユーザが視覚インジケータ802について画像または照明を選択することおよびテキストディスプレイ804が有効か無効かを選択することを可能にするユーザインターフェースに導かれ得る。
当業者は、図6、図7、および図8に対して示され、かつ説明されるユーザインターフェースが、権利者がコンテンツの項目についてカスタムナレーションを作成し得るように、権利者コンピューティングデバイス上にも表示され得るということを認識するであろう。そうすることで、権利者は、権利者によって所望される設定を選択することにより、「信頼できる」版のナレーションを作成し得る。権利者はまた、ユーザインターフェースを用いて、例えば、図7に示されるユーザインターフェース700と対話することによって、スロット704Dの中に示される第4章などの1つ以上の章にロック済みラベルを割り当て、ロックされるナレーションの1つ以上の部分を指定することができ得る。ユーザコンピューティングデバイスは、ナレーションのロック済みの部分において、権利者によって規定または設定されたナレーションパラメータを変更することができなくなる。
図6、図7、および図8に対して示され、および説明されるユーザインターフェースは、入力またはカスタマイズ命令をコンテンツのカスタマイズサービスに振り向けるフロントエンドのインターフェースに追加的に組み込まれ得る。一実施形態において、上述のユーザインターフェースは、ネットワーク上でホストされるコンテンツページ上に表示される。コンテンツページがユーザコンピューティングデバイス(または権利者コンピューティングデバイス上の権利者によって)を通じてユーザによってアクセスされると、ナレーションパラメータについての仕様または設定は、これらのユーザインターフェースを通じて行われ得る。ユーザ入力の受信に応じて、コンテンツページは、アプリケーションプログラミングインターフェース(API)を通じてコンテンツのカスタマイズサービスの1つ以上の機能を呼び出し得る。例えば、コンテンツカスタマイズサーバは、1つ以上のナレーション修正を実施するために、リモート手続呼び出しを通じて振り向けられ得る。当業者は、コンテンツページがコンテンツカスタマイズサーバによってホストされる必要がないことを認識するであろう。
別の実施形態において、図6、図7、および図8に示され、かつこれらに対して説明されるユーザインターフェースは、ユーザコンピューティングデバイスまたは権利者コンピューティングデバイス上にインストールされたクライアントソフトウェアの中に組み込まれる。クライアントソフトウェアは、これらのユーザインターフェースを通じて入力を受信し得、これに応じ、コンテンツカスタマイズサーバにリモート手続呼び出しを振り向け得る。例えば、コンテンツカスタマイズサーバは、1つ以上のナレーション修正を実施するために、リモート手続呼び出しを通じて振り向けられ得る。
上記に記載のすべての方法および工程は、1つ以上の汎用コンピュータまたはプロセッサによって実行されるソフトウェアコードモジュールにおいて具現化され、およびこれらを介して完全に自動化され得る。コードモジュールは、任意の種類の非一時的コンピュータ可読媒体または他のコンピュータ記憶媒体に格納され得る。方法のいくつかまたはすべてが、特定のコンピュータハードウェアにおいて代替的に具現化され得る。
条件付きの言語、とりわけ「〜可能性がある(can)」、「〜場合がある(could)」、「〜場合がある(might)」または「〜し得る(may)」は、別段の記載がない限り、ある特定の特徴、要素および/またはステップをある特定の実施形態が含み、一方で他の実施形態が含まないということを一般的に述べている文脈において用いられる場合、別様に理解される。ゆえに、かかる条件付きの言語は、この特徴、要素および/またはステップが1つ以上の実施形態についていかなる観点においても必要とされるということ、または1つ以上の実施形態が、ユーザ入力または指示のあるなしに関わらず、これらの特徴、要素および/またはステップが任意の特定の実施形態に含まれるか、またはこの任意の特定の実施形態において実施されるかに関わらず、決定のための論理を必ず含まなければならないということを暗示することを概して意図されない。
「X、Y、およびZのうちの少なくとも1つ」という句などの接続的言語は、別段の記載がない限り、一般的に用いられる文脈によって項目、用語などがX、Y、および/またはZの任意の組み合わせであるということを述べていると別様に理解される。ゆえに、かかる接続的言語は、ある特定の実施形態が、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、およびZのうちの少なくとも1つがそれぞれ存在することを必要とするということを暗示することを概して意図されない。
本明細書に記載のフロー図の中のおよび/または添付の図面中に描写される工程の説明、要素、またはブロックのいずれも、規定の論理機能または工程中の要素を実現するための1つ以上の実行可能な命令を含む、潜在的に示しているモジュール、セグメント、またはコードの一部分として理解されるべきである。代わりの実現は、本明細書に記載の実施形態の範囲内に含まれ、要素または機能は、当業者によって理解されるように、伴う機能性に応じて、示されたまたは検討されたものと実質的に同時または逆順を含む順序通りでなく実行または削除され得る。
多くの変形および修正が上述の実施形態に対してなされ得、その要素が他の容認可能な実施例の中にあるものとして理解されることが強調されるべきである。すべてのかかる修正および変形が、本開示の範囲内として本明細書に含まれ、かつ以下の付記および特許請求の範囲によって保護されるように意図される。
本開示の種々の実施形態は、以下の付記に対して説明されることができる。
付記1.オーディオブックのナレーションをカスタマイズするためのシステムであって、
オーディオブックであって、ナレーションを含むオーディオブックを記憶するように構成される、電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
ユーザインターフェースであって、前記ナレーションの1つ以上のナレーションパラメータへのユーザからの変更を受信するように構成される、ユーザインターフェースを表示し、
前記ユーザインターフェースを通じて、前記1つ以上のナレーションパラメータへの変更を規定する、ユーザ入力を受信し、
前記ユーザインターフェースを通じて行われたユーザ入力に応じて、前記1つ以上のナレーションパラメータを変更し、
前記変更された1つ以上のナレーションパラメータに従って、前記ナレーションを修正するように構成される、コンピューティングデバイスと、を備える、システム。
付記2.前記1つ以上のナレーションパラメータに対する変更は、前記ナレーションの高音、低音、ピッチ、速度、およびコントラストのうちの少なくとも1つに対する変更を含む、付記1に記載のオーディオブックのナレーションをカスタマイズするためのシステム。
付記3.前記1つ以上のナレーションパラメータに対する変更は、前記ナレーションの訛り、前記ナレーションの気分、および前記ナレーションの言語のうちの少なくとも1つに対する変更を含む、付記1に記載のオーディオブックのナレーションをカスタマイズするためのシステム。
付記4.前記1つ以上のナレーションパラメータに対する変更は、前記ナレーションの声に対する変更を含む、付記1に記載のオーディオブックのナレーションをカスタマイズするためのシステム。
付記5.前記コンピューティングデバイスは、前記変更されたナレーションパラメータについての設定をオーディオブックのナレーション設定ファイルとして前記電子データストアに記憶するようにさらに構成される、付記1に記載のオーディオブックのナレーションをカスタマイズするためのシステム。
付記6.ナレーションを含むコンテンツの項目をカスタマイズするための、コンピュータで実現される方法であって、
特定のコンピュータで実行可能な命令とともに構成される、1つ以上のコンピューティングデバイスの制御下で、
前記ナレーションの一部分に適用される1つ以上のナレーションパラメータを設定することと、
前記設定されたナレーションパラメータに従って前記ナレーションの前記一部分を修正して、前記ナレーションの修正された部分を形成することと、
前記ナレーションの前記修正された部分を再生させることと、を含む、コンピュータで実現される方法。
付記7.前記ナレーションパラメータは、前記ナレーションの前記部分の文脈分析に少なくとも一部基づいて設定される、付記6に記載のコンピュータで実現される方法。
付記8.前記ナレーションの前記部分は、前記ナレーションの前記部分の1つ以上のナレーションパラメータについての設定を指定するラベルを割り当てられ、
前記ナレーションの前記部分についての前記1つ以上のナレーションパラメータは、前記ラベルに少なくとも一部基づいて設定される、付記6に記載のコンピュータで実現される方法。
付記9.前記ラベルは、人間対話タスクシステムによって前記ナレーションの前記部分に割り当てられる、付記8に記載のコンピュータで実現される方法。
付記10.前記ラベルは、前記コンテンツの項目の権利者によって前記ナレーションの前記部分に割り当てられる、付記8に記載のコンピュータで実現される方法。
付記11.前記ナレーションの前記部分の前記1つ以上のナレーションパラメータについての前記ラベルによって指定される前記設定はロック済みである、付記10に記載のコンピュータで実現される方法。
付記12.前記ナレーションパラメータは、ユーザ入力に少なくとも一部基づいて設定される、付記6に記載のコンピュータで実現される方法。
付記13.
前記設定されたナレーションパラメータに従って前記ナレーションの第2の部分を修正して、前記ナレーションの修正された第2の部分を形成することと、
前記ナレーションの前記修正された第2の部分を再生させることと、をさらに含む、付記6に記載のコンピュータで実現される方法。
付記14.前記設定されたナレーションパラメータに従って第2のコンテンツの項目の第2のナレーションの一部分を修正して、前記第2のナレーションの修正された部分を形成することと、
前記第2のナレーションの前記修正された部分を再生させることと、をさらに含む、付記6に記載のコンピュータで実現される方法。
付記15.1つ以上のナレーションパラメータについての設定を含むナレーション設定情報をインポートすることをさらに含み、前記1つ以上のナレーションパラメータは、前記ナレーション設定情報に少なくとも一部基づいて設定される、付記6に記載のコンピュータで実現される方法。
付記16.ナレーションをカスタマイズするためのシステムであって、
ナレーションを記憶するように構成される電子データストアと、
前記電子データストアと通信するサーバコンピューティングデバイスであって、
ユーザコンピューティングデバイスから、前記ナレーションの第1の部分の1つ以上のナレーションパラメータを変更するという要求を受信し、
ナレーションの前記第1の部分の1つ以上のナレーションパラメータを変更して、前記ナレーションの修正された第1の部分を形成し、
前記ナレーションの前記修正された第1の部分を前記ユーザコンピューティングデバイスに送信するように構成される、サーバコンピューティングデバイスと、を備える、システム。
付記17.前記サーバコンピューティングデバイスは、
前記ユーザコンピューティングデバイスから、前記ナレーションの第2の部分の1つ以上のナレーションパラメータを変更するという要求を受信し、
前記ナレーションの前記第2の部分の前記1つ以上のナレーションパラメータを変更して、前記ナレーションの修正された第2の部分を形成し、
前記ナレーションの前記修正された第2の部分を前記ユーザコンピューティングデバイスに送信するようにさらに構成される、付記16に記載のナレーションをカスタマイズするためのシステム。
付記18.前記ナレーションの前記第2の部分の前記1つ以上のナレーションパラメータは、前記サーバコンピューティングデバイスが前記ナレーションの前記修正された第1の部分を前記ユーザコンピューティングデバイスに送信する間に、前記サーバコンピューティングデバイスによって変更される、付記17に記載のナレーションをカスタマイズするためのシステム。
付記19.前記ナレーションの前記第1の部分と前記ナレーションの前記第2の部分は連続する、付記18に記載のナレーションをカスタマイズするためのシステム。
付記20.前記サーバコンピューティングデバイスは、ナレーション設定情報を記憶するように構成される電子データストアから、前記ナレーションの前記第1の部分の前記1つ以上のナレーションパラメータに対する変更を規定するナレーション設定情報を取得するようにさらに構成される、付記16に記載のナレーションをカスタマイズするためのシステム。
付記21.ナレーションをカスタマイズするための非一時的コンピュータ可読媒体であって、
ユーザコンピューティングデバイス上に、前記ナレーションの一部分の1つ以上のナレーションパラメータを表示するユーザインターフェースを提示し、
前記ユーザインターフェースを通じて、前記1つ以上のナレーションパラメータを変更するための命令を受信し、
電子ネットワークで接続される複数のコンピューティングデバイスであって、前記ユーザコンピューティングデバイスを備える複数のコンピューティングデバイスからコンピューティングデバイスを選択し、
前記ナレーションの修正された部分を形成するための前記命令に従って、前記選択されたコンピューティングデバイスに前記1つ以上のナレーションパラメータを変更させるように構成される、コンピュータで実行可能なコンポーネントを有する、非一時的コンピュータ可読媒体。
付記22.前記選択されたコンピューティングデバイスは、サーバコンピューティングデバイスを備え、かつ、
前記サーバコンピューティングデバイスは、前記ナレーションの前記修正された部分を電子ネットワークでユーザコンピューティングデバイスに送信するようにさらに構成される、付記21に記載の非一時的コンピュータ可読媒体。
付記23.前記選択されたコンピューティングデバイスは、前記ユーザコンピューティングデバイスを備え、かつ、
前記ユーザコンピューティングデバイスは、前記ナレーションの前記修正された部分を再生するようにさらに構成される、付記21に記載の非一時的コンピュータ可読媒体。
付記24.前記コンピューティングデバイスは、修正される前記ナレーションの前記部分の大きさに少なくとも一部基づいて選択される、付記21に記載の非一時的コンピュータ可読媒体。
付記25.前記コンピューティングデバイスは、変更される1つ以上のナレーションパラメータに少なくとも一部基づいて選択される、付記21に記載の非一時的コンピュータ可読媒体。
付記26.前記選択されたコンピューティングデバイスは、閾値を満たすプロセッサ速度を有する、付記21に記載の非一時的コンピュータ可読媒体。
付記27.前記選択されたコンピューティングデバイスは、閾値を満たす予備のエネルギーを有する、付記21に記載の非一時的コンピュータ可読媒体。
付記28.前記コンピュータで実行可能なコンポーネントは、ナレーションの前記修正された部分を形成するためのエネルギー消費値を予測するようにさらに構成され、かつ、
前記閾値は、予測されたエネルギー消費値に少なくとも一部基づいて決定される、付記27に記載の非一時的コンピュータ可読媒体。
付記29.オーディオブックのカスタマイズを共有するためのシステムであって、
1つ以上のオーディオブックのナレーション設定ファイルを記憶するように構成される、電子データストアと、
前記電子データストアと通信するサーバコンピューティングデバイスであって、
第1のユーザコンピューティングデバイスから、オーディオブックのナレーション設定ファイルについての要求を受信し、
前記要求に応じて、第1のソーシャルグラフであって、前記第1のユーザコンピューティングデバイスのユーザが所属し、前記第1のユーザコンピューティングデバイスの前記ユーザに関連する複数の個人を含む、第1のソーシャルグラフにアクセスし、
前記第1のソーシャルグラフ内の第1の個人によって生成されるオーディオブックのナレーション設定ファイルを識別し、
前記電子データストアから、識別されたオーディオブックのナレーション設定ファイルを読み出し、
前記識別されたオーディオブックのナレーション設定ファイルを前記第1のユーザコンピューティングデバイスに送信するように構成される、サーバコンピューティングデバイスと、を備える、システム。
付記30.前記サーバコンピューティングデバイスは、
前記第1のソーシャルグラフ内の第2の個人であって、第2のユーザコンピューティングデバイスのユーザである第2の個人を特定し、
前記第2のユーザコンピューティングデバイスに前記識別されたオーディオブックのナレーション設定ファイルを要求する提案を送信し、
前記第2のユーザコンピューティングデバイスから、前記識別されたオーディオブックのナレーション設定ファイルへの要求を受信し、
前記要求に応じて、前記電子データストアから、前記識別されたオーディオブックのナレーション設定ファイルを読み出し、
前記識別されたオーディオブックのナレーション設定ファイルを前記第2のユーザコンピューティングデバイスに送信するようにさらに構成される、付記29に記載のシステム。
付記31.前記サーバコンピューティングデバイスは、
第2のソーシャルグラフであって、前記第2のコンピューティングデバイスのユーザが所属し、前記第2のコンピューティングデバイスの前記ユーザに関連する複数の個人を含む、第2のソーシャルグラフにアクセスし、
前記第1のソーシャルグラフ内の前記第1の個人が前記第2のソーシャルグラフ内にも存在する場合、
前記第2のユーザコンピューティングデバイスに前記識別されたオーディオブックのナレーション設定ファイルを要求する提案を送信し、
前記第2のユーザコンピューティングデバイスから、前記識別されたオーディオブックのナレーション設定ファイルへの要求を受信し、
前記要求に応じて、前記電子データストアから、前記識別されたオーディオブックのナレーション設定ファイルを読み出し、
前記識別されたオーディオブックのナレーション設定ファイルを前記第2のユーザコンピューティングデバイスに送信するようにさらに構成される、付記29に記載のシステム。
付記32.前記サーバコンピューティングデバイスは、
第3のソーシャルグラフであって、前記第1の個人が所属し、前記第1の個人に関連する複数の個人を含む、第3のソーシャルグラフにアクセスし、
第2のコンピューティングデバイスのユーザが前記第1のソーシャルグラフおよび前記第3のソーシャルグラフに存在する場合、
前記第2のユーザコンピューティングデバイスに前記識別されたオーディオブックのナレーション設定ファイルを要求する提案を送信し、
前記第2のユーザコンピューティングデバイスから、前記識別されたオーディオブックのナレーション設定ファイルへの要求を受信し、
前記要求に応じて、前記電子データストアから、前記識別されたオーディオブックのナレーション設定ファイルを読み出し、
前記識別されたオーディオブックのナレーション設定ファイルを前記第2のユーザコンピューティングデバイスに送信するようにさらに構成される、付記29に記載のシステム。
付記33.ナレーションのカスタマイズを分配するための、コンピュータで実現される方法であって、
規定のコンピュータで実行可能な命令とともに構成される1つ以上のコンピューティングデバイスの制御下で、
複数のナレーション設定ファイルを取得することと、
前記複数のナレーション設定ファイルのそれぞれに、カタログ情報であって、前記ナレーション設定ファイルの作成者を識別する、カタログ情報を割り当てることと、
前記複数のナレーション設定ファイルを電子データストアに記憶することと、
ユーザコンピューティングデバイスによって生成されるナレーション設定ファイルへの要求に応じて、前記カタログ情報に少なくとも一部基づいて、ナレーション設定ファイルを選択することと、
前記ユーザコンピューティングデバイスに前記選択されたナレーション設定ファイルを電子ネットワークで提供することと、を含む、コンピュータで実現される方法。
付記34.前記ユーザコンピューティングデバイスのユーザに関連付けられるソーシャルグラフであって、複数の個人を含むソーシャルグラフにアクセスすることと、
ナレーション設定ファイルであって、その作成者が前記ユーザのソーシャルグラフ内の一個人であるナレーション設定ファイルを識別することと、をさらに含み、
前記選択されたナレーション設定ファイルは前記識別されたナレーション設定ファイルである、付記33に記載のコンピュータで実現される方法。
付記35.第2のナレーション設定ファイルについての通知を前記ユーザコンピューティングデバイスに送信することをさらに含む、付記33に記載のコンピュータで実現される方法。
付記36.前記選択されたナレーション設定ファイルおよび前記第2のナレーション設定ファイルは、同一の作成者を有する、付記35に記載のコンピュータで実現される方法。
付記37.前記カタログ情報は、それぞれのナレーション設定ファイルが関連付けられるコンテンツの項目を追加的に識別する、付記35に記載のコンピュータで実現される方法。
付記38.前記選択されたナレーション設定ファイルは、第1のコンテンツの項目のナレーションに関連付けられ、かつ、
前記第2のナレーション設定ファイルは、第2のコンテンツの項目のナレーションに関連付けられる、付記37に記載のコンピュータで実現される方法。
付記39.前記第1のコンテンツの項目および前記第2のコンテンツの項目は、共通の著者、共通のシリーズ、および共通のジャンルのうちの少なくとも1つを共有する、付記38に記載のコンピュータで実現される方法。
付記40.前記第2のナレーション設定ファイルの前記作成者は、前記ナレーション設定ファイルが関連付けられる前記コンテンツの項目のナレーターと、前記ナレーション設定ファイルが関連付けられる前記コンテンツの項目の著者のうちの少なくとも一方である、付記37に記載のコンピュータで実現される方法。
付記41.前記選択されたナレーション設定ファイルは、前記ユーザコンピューティングデバイスによって表示される1つ以上の視覚インジケータについての設定を含む、付記33に記載のコンピュータで実現される方法。
付記42.元のナレーションを含むコンテンツの項目をカスタマイズするためのシステムであって、
前記コンテンツの項目を記憶するように構成される、電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
前記電子データストアから前記元のナレーションにアクセスし、
1つ以上のナレーションパラメータを規定するナレーション設定情報を取得し、
前記ナレーション設定情報に従って前記元のナレーションの1つ以上のナレーションパラメータを修正して、修正されたナレーションを形成するように構成される、コンピューティングデバイスと、を備える、システム。
付記43.前記コンピューティングデバイスは、前記修正されたナレーションを第2のコンピューティングデバイスに送信するようにさらに構成される、付記42に記載のコンテンツの項目をカスタマイズするためのシステム。
付記44.前記ナレーション設定情報は、前記第2のコンピューティングデバイスから取得される、付記43に記載のコンテンツの項目をカスタマイズするためのシステム。
付記45.前記ナレーション設定情報は、前記コンテンツの項目の権利者から取得される、付記42に記載のコンテンツの項目をカスタマイズするためのシステム。
付記46.前記コンピューティングデバイスは、前記修正されたナレーションの少なくとも一部分の1つ以上のナレーションパラメータをロックするようにさらに構成される、付記45に記載のコンテンツの項目をカスタマイズするためのシステム。
付記47.前記コンピューティングデバイスは、前記修正されたナレーション全体の前記ナレーションパラメータのすべてをロックするようにさらに構成される、付記46に記載のコンテンツの項目をカスタマイズするためのシステム。
付記48.前記コンピューティングデバイスは、前記元のナレーションの少なくとも一部分の1つ以上のナレーションパラメータをロックするようにさらに構成される、付記42に記載のコンテンツの項目をカスタマイズするためのシステム。
付記49.コンテンツをカスタマイズするための非一時的コンピュータ可読媒体であって、
ユーザコンピューティングデバイスから要求を受信して元のナレーションをカスタマイズし、
前記要求に応じて、複数のナレーション設定ファイルを記憶するように構成される電子データストアからナレーション設定ファイルを選択し、
前記1つ以上のナレーションパラメータへの1つ以上のさらなる修正であって、前記ユーザコンピューティングデバイス上に表示されるユーザインターフェースを通じて規定される、1つ以上のさらなる修正を受信し、
前記元のナレーション設定ファイルおよび前記1つ以上のナレーションパラメータへの前記1つ以上のさらなる修正を含む修正されたナレーション設定ファイルを形成し、
前記コンテンツの項目についての修正されたナレーションを形成するために、前記修正されたナレーション設定ファイルに従って1つ以上のナレーションパラメータを修正し、
前記修正されたナレーション設定ファイルを前記電子データストアに記憶するように構成される、コンピュータで実行可能なコンポーネントを有する、非一時的コンピュータ可読媒体。
付記50.前記ナレーション設定ファイルは、人間対話タスクシステムからの入力に少なくとも一部基づいて前記電子データストアから選択される、付記49に記載の非一時的コンピュータ可読媒体。
付記51.前記ナレーション設定ファイルは、前記ナレーション設定ファイルのレーティングに少なくとも一部基づいて前記電子データストアから選択される、付記49に記載の非一時的コンピュータ可読媒体。
付記52.前記ナレーション設定ファイルは、前記ユーザコンピューティングデバイスを通じて行われたユーザ入力に少なくとも一部基づいて前記電子データストアから選択される、付記49に記載の非一時的コンピュータ可読媒体。
付記53.前記コンピュータで実行可能なコンポーネントは、前記修正されたナレーション設定ファイルを電子ネットワークでサーバコンピューティングデバイスに送信するようにさらに構成される、付記49に記載の非一時的コンピュータ可読媒体。

Claims (15)

  1. ナレーションを含むコンテンツの項目をカスタマイズするための、コンピュータで実現される方法であって、
    規定のコンピュータで実行可能な命令とともに構成される、1つ以上のコンピューティングデバイスの制御下で、
    前記ナレーションの一部分に適用される1つ以上のナレーションパラメータを設定することと、
    前記設定されたナレーションパラメータに従って前記ナレーションの前記一部分を修正して、前記ナレーションの修正された部分を形成することと、
    前記ナレーションの前記修正された部分を再生させることと、を含む、コンピュータで実現される方法。
  2. 前記ナレーションパラメータは、前記ナレーションの前記一部分の文脈分析に少なくとも一部基づいて設定される、請求項1に記載のコンピュータで実現される方法。
  3. 前記ナレーションの前記一部分は、前記ナレーションの前記一部分の1つ以上のナレーションパラメータについての設定を規定するラベルを割り当てられ、
    前記ナレーションの前記一部分についての前記1つ以上のナレーションパラメータは、前記ラベルに少なくとも一部基づいて設定される、請求項1に記載のコンピュータで実現される方法。
  4. 前記設定されたナレーションパラメータに従って前記ナレーションの第2の部分を修正して、前記ナレーションの修正された第2の部分を形成することと、
    前記ナレーションの前記修正された第2の部分を再生させることと、をさらに含む、請求項1に記載のコンピュータで実現される方法。
  5. 前記設定されたナレーションパラメータに従って、第2のコンテンツの項目の第2のナレーションの一部分を修正して、前記第2のナレーションの修正された部分を形成することと、
    前記第2のナレーションの前記修正された部分を再生させることと、をさらに含む、請求項1に記載のコンピュータで実現される方法。
  6. ナレーションをカスタマイズするためのシステムであって、
    ナレーションを記憶するように構成される電子データストアと、
    前記電子データストアと通信するサーバコンピューティングデバイスであって、
    ユーザコンピューティングデバイスから、前記ナレーションの第1の部分の1つ以上のナレーションパラメータを変更するという要求を受信し、
    前記ナレーションの前記第1の部分の前記1つ以上のナレーションパラメータを変更して、前記ナレーションの修正された第1の部分を形成し、かつ
    前記ナレーションの前記修正された第1の部分を前記ユーザコンピューティングデバイスに送信するように構成される、サーバコンピューティングデバイスと、を備える、システム。
  7. 前記サーバコンピューティングデバイスは、
    前記ユーザコンピューティングデバイスから、前記ナレーションの第2の部分の1つ以上のナレーションパラメータを変更するという要求を受信し、
    前記ナレーションの前記第2の部分の前記1つ以上のナレーションパラメータを変更して、前記ナレーションの修正された第2の部分を形成し、かつ
    前記ナレーションの前記修正された第2の部分を前記ユーザコンピューティングデバイスに送信するようにさらに構成される、請求項6に記載のナレーションをカスタマイズするためのシステム。
  8. 前記サーバコンピューティングデバイスが前記ナレーションの前記修正された第1の部分を前記ユーザコンピューティングデバイスに送信する間に、前記ナレーションの前記第2の部分の前記1つ以上のナレーションパラメータが、前記サーバコンピューティングデバイスによって変更される、請求項7に記載のナレーションをカスタマイズするためのシステム。
  9. 前記サーバコンピューティングデバイスは、ナレーション設定情報を記憶するように構成される電子データストアから、前記ナレーションの前記第1の部分の前記1つ以上のナレーションパラメータへの変更を規定するナレーション設定情報を取得するようにさらに構成される、請求項6に記載のナレーションをカスタマイズするためのシステム。
  10. 元のナレーションを含むコンテンツの項目をカスタマイズするためのシステムであって、
    ナレーション設定ファイルを記憶するように構成される、電子データストアと、
    前記電子データストアと通信するコンピューティングデバイスであって、
    複数のナレーション設定ファイルを取得し、
    前記複数のナレーション設定ファイルのそれぞれに、前記ナレーション設定ファイルの作成者を識別するカタログ情報を割り当て、
    前記複数のナレーション設定ファイルを前記電子データストアに記憶し、
    ナレーション設定ファイルについてのユーザコンピューティングデバイスからの要求に応じて、前記カタログ情報に少なくとも一部基づいて、ナレーション設定ファイルを選択し、かつ
    電子ネットワークを通じて、前記選択されたナレーション設定ファイルを前記ユーザコンピューティングデバイスに提供するように構成される、コンピューティングデバイスと、を備える、システム。
  11. 前記コンピューティングデバイスは、
    前記ユーザコンピューティングデバイスのユーザに関連付けられたソーシャルグラフであって、複数の個人を含む、ソーシャルグラフにアクセスし、かつ
    ナレーション設定ファイルであって、その作成者が前記ユーザのソーシャルグラフ内の個人である、ナレーション設定ファイルを識別するようにさらに構成され、
    前記選択されたナレーション設定ファイルは、前記識別されたナレーション設定ファイルである、請求項10に記載のシステム。
  12. 前記コンピューティングデバイスは、第2のナレーション設定ファイルについての通知を前記ユーザコンピューティングデバイスに送るようにさらに構成される、請求項10に記載のシステム。
  13. 前記選択されたナレーション設定ファイルおよび前記第2のナレーション設定ファイルは、同一の作成者を有する、請求項12に記載のシステム。
  14. 前記カタログ情報は、それぞれのナレーション設定ファイルが関連付けられているコンテンツの項目を追加的に識別する、請求項12に記載のシステム。
  15. 前記選択されたナレーション設定ファイルは、第1のコンテンツの項目のナレーションに関連付けられ、
    前記第2のナレーション設定ファイルは、第2のコンテンツの項目のナレーションに関連付けられる、請求項14に記載のシステム。
JP2015511580A 2012-05-07 2013-05-06 コンテンツのカスタマイズ Pending JP2015517684A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US13/465,871 US9075760B2 (en) 2012-05-07 2012-05-07 Narration settings distribution for content customization
US13/465,853 2012-05-07
US13/465,853 US20140258858A1 (en) 2012-05-07 2012-05-07 Content customization
US13/465,871 2012-05-07
PCT/US2013/039757 WO2013169670A2 (en) 2012-05-07 2013-05-06 Content customization

Publications (1)

Publication Number Publication Date
JP2015517684A true JP2015517684A (ja) 2015-06-22

Family

ID=49551427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015511580A Pending JP2015517684A (ja) 2012-05-07 2013-05-06 コンテンツのカスタマイズ

Country Status (5)

Country Link
EP (1) EP2847652A4 (ja)
JP (1) JP2015517684A (ja)
CN (1) CN104471512A (ja)
AU (1) AU2013259799A1 (ja)
WO (1) WO2013169670A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021061045A (ja) * 2021-01-04 2021-04-15 ヤフー株式会社 配信装置、配信方法及び配信プログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9706247B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US9760920B2 (en) 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US9075760B2 (en) 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US8972265B1 (en) 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
JP2017004122A (ja) * 2015-06-05 2017-01-05 キヤノン株式会社 情報処理装置、情報処理方法およびコンピュータプログラム
CN107155154A (zh) * 2017-05-27 2017-09-12 成都小鸟冲冲冲科技有限公司 一种具有听力保护功能的音效定制方法及系统
CN108320741A (zh) * 2018-01-15 2018-07-24 珠海格力电器股份有限公司 智能设备的声音控制方法、装置、存储介质和处理器
CN110134305B (zh) * 2019-04-02 2022-12-09 北京搜狗科技发展有限公司 一种语速调节方法、装置和用于语速调节的装置
CN112541147A (zh) * 2019-09-23 2021-03-23 北京轻享科技有限公司 一种内容发布管理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2002023781A (ja) * 2000-07-12 2002-01-25 Sanyo Electric Co Ltd 音声合成装置、音声合成装置におけるフレーズ単位修正方法、音声合成装置における韻律パターン編集方法、音声合成装置における音設定方法および音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002117027A (ja) * 2000-10-11 2002-04-19 Nippon Telegr & Teleph Corp <Ntt> 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2003066984A (ja) * 2001-04-30 2003-03-05 Sony Computer Entertainment America Inc ユーザが指定する特性に基づいてネットワーク上を伝送したコンテンツデータを改変する方法
JP2004077738A (ja) * 2002-08-16 2004-03-11 Oki Electric Ind Co Ltd コンテンツ音声化提供システム
JP2004325692A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト音声合成装置、テキスト処理装置、テキスト処理プログラムおよびこのプログラムの記録媒体
JP2005283788A (ja) * 2004-03-29 2005-10-13 Yamaha Corp 表示制御装置およびプログラム
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856030B2 (en) * 2003-04-07 2014-10-07 Sevenecho, Llc Method, system and software for associating attributes within digital media presentations
US20080201141A1 (en) * 2007-02-15 2008-08-21 Igor Abramov Speech filters
US20080201369A1 (en) * 2007-02-16 2008-08-21 At&T Knowledge Ventures, Lp System and method of modifying media content
US8140340B2 (en) * 2008-01-18 2012-03-20 International Business Machines Corporation Using voice biometrics across virtual environments in association with an avatar's movements
CN102124523B (zh) * 2008-07-04 2014-08-27 布克查克控股有限公司 制作并播放音带的方法和系统
US20110066942A1 (en) * 2009-09-14 2011-03-17 Barton James M Multifunction Multimedia Device
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US9477667B2 (en) * 2010-01-14 2016-10-25 Mobdub, Llc Crowdsourced multi-media data relationships
US20110219940A1 (en) * 2010-03-11 2011-09-15 Hubin Jiang System and method for generating custom songs
US20120016674A1 (en) * 2010-07-16 2012-01-19 International Business Machines Corporation Modification of Speech Quality in Conversations Over Voice Channels
US20120105719A1 (en) * 2010-10-29 2012-05-03 Lsi Corporation Speech substitution of a real-time multimedia presentation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2002023781A (ja) * 2000-07-12 2002-01-25 Sanyo Electric Co Ltd 音声合成装置、音声合成装置におけるフレーズ単位修正方法、音声合成装置における韻律パターン編集方法、音声合成装置における音設定方法および音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002117027A (ja) * 2000-10-11 2002-04-19 Nippon Telegr & Teleph Corp <Ntt> 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2003066984A (ja) * 2001-04-30 2003-03-05 Sony Computer Entertainment America Inc ユーザが指定する特性に基づいてネットワーク上を伝送したコンテンツデータを改変する方法
JP2004077738A (ja) * 2002-08-16 2004-03-11 Oki Electric Ind Co Ltd コンテンツ音声化提供システム
JP2004325692A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト音声合成装置、テキスト処理装置、テキスト処理プログラムおよびこのプログラムの記録媒体
JP2005283788A (ja) * 2004-03-29 2005-10-13 Yamaha Corp 表示制御装置およびプログラム
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021061045A (ja) * 2021-01-04 2021-04-15 ヤフー株式会社 配信装置、配信方法及び配信プログラム
JP7273866B2 (ja) 2021-01-04 2023-05-15 ヤフー株式会社 配信装置、配信方法及び配信プログラム

Also Published As

Publication number Publication date
EP2847652A2 (en) 2015-03-18
CN104471512A (zh) 2015-03-25
WO2013169670A2 (en) 2013-11-14
WO2013169670A3 (en) 2014-01-16
AU2013259799A1 (en) 2014-11-27
EP2847652A4 (en) 2016-05-11

Similar Documents

Publication Publication Date Title
JP2015517684A (ja) コンテンツのカスタマイズ
US20140258858A1 (en) Content customization
US9075760B2 (en) Narration settings distribution for content customization
CN107871500B (zh) 一种播放多媒体的方法和装置
US10381016B2 (en) Methods and apparatus for altering audio output signals
CN107464555B (zh) 增强包含语音的音频数据的方法、计算装置和介质
US9190052B2 (en) Systems and methods for providing information discovery and retrieval
US8380507B2 (en) Systems and methods for determining the language to use for speech generated by a text to speech engine
CN108806655B (zh) 歌曲的自动生成
US9213705B1 (en) Presenting content related to primary audio content
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8937620B1 (en) System and methods for generation and control of story animation
US8972265B1 (en) Multiple voices in audio content
US20100050064A1 (en) System and method for selecting a multimedia presentation to accompany text
CN107516511A (zh) 意图识别和情绪的文本到语音学习系统
EP3824461B1 (en) Method and system for creating object-based audio content
US11511200B2 (en) Game playing method and system based on a multimedia file
KR101164379B1 (ko) 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법
CN107895016A (zh) 一种播放多媒体的方法和装置
US11049490B2 (en) Audio playback device and audio playback method thereof for adjusting text to speech of a target character using spectral features
CN114023301A (zh) 音频编辑方法、电子设备及存储介质
Pauletto et al. Exploring expressivity and emotion with artificial voice and speech technologies
US20200302933A1 (en) Generation of audio stories from text-based media
US9412395B1 (en) Narrator selection by comparison to preferred recording features
US20210295820A1 (en) Method and system for creating object-based audio content

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161011