JP2015531915A

JP2015531915A - 対応メディアコンテンツ部分の整合

Info

Publication number: JP2015531915A
Application number: JP2015525558A
Authority: JP
Inventors: シー．ジックスティーヴン; エイ．ストーリージュニアガイ
Original assignee: Audible Inc
Current assignee: Audible Inc
Priority date: 2012-08-02
Filing date: 2013-07-31
Publication date: 2015-11-05
Anticipated expiration: 2033-07-31
Also published as: EP2880652A4; CN104662604A; US20140039887A1; US20150340038A1; US9799336B2; CN104662604B; WO2014022559A8; JP6099746B2; WO2014022559A1; EP2880652A1; US9099089B2; US10109278B2; US20140040713A1; EP2880652B1

Abstract

コンテンツ整合サービスは、オーディオコンテンツとテキストコンテンツとの同期提供を容易にするために、コンテンツ同期情報を生成し得る。いくつかの実施形態において、オーディオコンテンツに対する対応部が不確かであるテキストコンテンツの領域は、テキストコンテンツの当該領域が当該オーディオコンテンツ内で可聴的に提供される１つ以上の語に対応するかどうか、または、テキストコンテンツの当該領域が当該オーディオコンテンツと比較して不一致であるかどうかを決定するために分析され得る。いくつかの実施形態において、当該テキストコンテンツ内の不一致語が同期提供を維持するために飛ばされ得る一方で、当該オーディオコンテンツ内の語に対応する当該テキストコンテンツにおける語は同期提供される。したがって、１つの適用例において、オーディオブックは電子書籍と同期し、それにより電子書籍が表示されるに伴いオーディオブックの対応語が可聴的に提供される。

Description

概して記載すると、ユーザコンピューティングデバイスは、オーディオブック、電子書籍、歌、ビデオ、テレビ番組、コンピュータおよびビデオゲーム、マルチメディアコンテンツ等のような、コンテンツアイテムの再生や表示を容易にし得る。例えば、電子書籍リーダコンピューティングデバイス（「ｅリーダ」）は、スクリーン上に電子書籍を表示し得、および／または、スピーカーもしくはヘッドフォンを通してオーディオブックを再生し得る。

いくつかの例において、ユーザは同時に複数のコンテンツアイテムを消費することに関心をもち得る。例えば、ユーザは、「トムソーヤの冒険」などの同じタイトルのオーディオブックを聞いている間に、電子書籍を読みたいと思うことがあるだろう。電子書籍およびオーディオブック（またはより一般的に、同じコンテンツタイトルに関する２つ以上のコンテンツアイテムのあらゆる群）は、コンテンツの「コンパニオン」アイテムと称され得る。

しかしながら、現在の多くのアプローチにおいて、ユーザはコンテンツの２つのコンパニオンアイテムを、オーディオブックで語られる語が、ユーザが電子書籍で読んでいるものに対応するように、手動で整合させなければならない。例えば、ユーザは、オーディオブックにおいて対になる部分を有さない電子書籍の部分の間、オーディオブックを手動で一時停止することが必須であると気付くだろう。同様に、ユーザは、電子書籍において対になる部分を有さないオーディオブック部分の間、オーディオブックを手動で早送りすることが必須であると思うだろう。この仕組みはユーザのいら立ちや不便性を示し得る。

前述の様態および付随する利点の多くは、それらが、添付する図と合わせて以下の詳細な説明を参照してよりよく理解されるに従い、より容易に理解されるようになり得、図面は以下の通りである。

コンテンツ整合サービスが作動し得る例証的なネットワーク環境を描写する、概略ブロック図である。例証的なコンテンツ整合サーバを描写する、概略ブロック図である。オーディオコンテンツとテキストコンテンツのコンパニオンアイテムを処理するための例証的なルーチンを描写する、フロー図である。オーディオコンテンツとテキストコンテンツのコンパニオンアイテムを処理するための例証的なルーチンを描写する、フロー図である。テキストコンテンツの不確か領域、例えばオーディオコンテンツのコンパニオンアイテム内に対になる部分を有しないかもしれないテキストコンテンツの領域、を処理するための例証的なルーチンを描写する、フロー図である。テキストコンテンツの不確か領域、例えばオーディオコンテンツのコンパニオンアイテム内に対になる部分を有しないかもしれないテキストコンテンツの領域、を処理するための例証的なルーチンを描写する、フロー図である。図４Ａおよび図４Ｂのフロー図に従い処理されている例証的な不確か領域を描写する、表図である。図４Ａおよび図４Ｂのフロー図に従い処理されている例証的な不確か領域を描写する、表図である。オーディオコンテンツおよびテキストコンテンツのコンパニオンアイテムの同期情報を生成するための例証的なルーチンを描写する、フロー図である。図６において生成するコンテンツ同期情報を使用してコンテンツのコンパニオンアイテムを同期提供するための例証的なルーチンを描写する、フロー図である。コンテンツのコンパニオンアイテムの同期提供の提供位置を測定するための例証的なメトリクスを描写する、表図である。コンテンツのコンパニオンアイテムを同期提供する、例証的なコンピューティングデバイスの絵図である。コンテンツのコンパニオンアイテムを同期提供する、例証的なコンピューティングデバイスの絵図である。コンテンツのコンパニオンアイテムを同期提供する、例証的なコンピューティングデバイスの絵図である。

概して記載すると、本開示の態様は、テキストコンテンツ（電子書籍等）のコンパニオンアイテムを有するオーディオコンテンツ（オーディオブック等）を含む、コンテンツアイテムの同期提供を容易にすることに関する。したがって、例えばオーディオコンテンツ内に対になる部分を有さない例えばテキストコンテンツの部分の位置を特定するために、コンテンツのコンパニオンアイテムを分析し得る、コンテンツ整合サービスを開示する。これらの不一致部分は本明細書において「不確か領域」と称され得る。コンテンツ整合サービスにより不確か領域上でさらなる処理が実施され得、トランスクリプトがエラーを含むのかどうか、または語が実際にオーディオコンテンツとテキストコンテンツとの間で異なるのかどうかを決定する。上述に基づき、コンテンツ整合サービスは、前付、後付、脚注、図、表、グラフ等のような、必ずしも語られたり別の方法でオーディオブックにおいて可聴的に提供されたりしない、オーディオブックに対応しない電子書籍の部分を特定し得るということが理解されるだろう。特定されると、オーディオブックにおいて対応しない電子書籍の部分は、コンテンツのコンパニオンアイテムの同期提供を容易にするため、無視され得る（例えば飛ばされる）。例えば、ユーザが新しい電子書籍を読み始めると、電子書籍の前付は無視され得、電子書籍およびコンパニオンオーディオブックの同期提供が、第１章の第１の単語で開始し得る。別の例では、不一致の脚注が提供される間オーディオコンテンツの部分が提供されないため、同期提供は維持され得る。あるいは、オーディオブックの提供はそのページが提供される電子書籍の最後の対応部分の後で停止し、オーディオブック部分に対応する電子書籍の部分が提供されると（例えば、ユーザがオーディオブック部分に対応する電子書籍の部分が存在するページへ移動した後）再開し得る。

一実施形態において、不確か領域を特定するために、コンテンツ整合サービスはオーディオコンテンツ（例えばオーディオブック）を含むコンテンツアイテムのテキスト・トランスクリプトを得ることがあり得、その後オーディオコンテンツのテキスト・トランスクリプトを、テキストコンテンツを含むコンテンツアイテム（例えば電子書籍）と比較し得る。テキスト・トランスクリプトは、既存トランスクリプトを得ることまたは音声テキスト認識技術を使用して生成することのいずれかによって得られ得る。トランスクリプトは、特定の語が話される、歌われる、叫ばれる、または別の方法でオーディオコンテンツにおいて提供される時間間隔を表す、オーディオコンテンツにおいて認識される語のそれぞれのタイムスタンプを含み得る。さらに、オーディオコンテンツのテキスト・トランスクリプトは、ブロックに分割され得、オーディオコンテンツを含む比較的大きい分割のコンテンツアイテムに対応し得る。例えば、オーディオブックブロックはオーディオブックの１つ以上の章に対応し得、または、オーディオブックにおける４５分間もしくは１時間のような時間間隔に対応し得る。

それぞれのトランスクリプトのブロックは、オーディオコンテンツを含む当該コンテンツアイテムのコンパニオンであるテキストコンテンツ・アイテムブロックと整合され得る。このブロック単位の整合は、ブロック間の類似性を測定し得る相関測度に基づき得る。テキストコンテンツのブロックとトランスクリプトのブロックとの間の相関測度は、例えば、当該２つのブロック間の、共通する語の百分率または語の分布の類似性に基づいて計算し得る。相関測度が閾値を満たす場合、テキストコンテンツのブロックは、事前にテキストコンテンツのブロックに整合し得る。タイムスタンプは、テキストコンテンツのブロック内のテキストコンテンツの語に、オーディオコンテンツのブロックのトランスクリプトにおける対応タイムスタンプ付き語に基づいて、割り当てられ得る。前付および後付はオーディオコンテンツ・アイテム内に恐らく存在しない可能性が高く、したがってトランスクリプト内にも存在しない可能性が高いため、本相関測度はテキストコンテンツ・アイテム内の本体テキストを特定するためにもまた使用され得る。

テキストコンテンツのそれぞれのブロックは、語、句、文、段落、セリフ等のような１つ以上の部分を含み得る。句、文、段落、またはセリフは、１つの語または１つより多い語を含み得る。しかしながら、テキストコンテンツの部分の全てがオーディオコンテンツに存在し得るわけではない。例えば、図、表、脚注、注釈、解説、傍注、前付、後付等に対応するテキストコンテンツの部分は、テキストコンテンツのブロック内に存在し得る。しかしながら、かかる部分は、オーディオコンテンツ内には存在しないことがある。特定の非制限的実施例において、オーディオブックは電子書籍の本体テキスト部分の語りを含み得るが、当該電子書籍のあらゆる脚注についていかなる語りも含まないことがある。

したがって、コンテンツ整合サービスは、オーディオコンテンツ内に対になる部分を有さないテキストコンテンツの部分の位置を特定するために、事前に整合したコンテンツアイテムを分析し得る。一実施形態において、コンテンツ整合サービスは、トランスクリプトブロックを、語単位基準で事前に整合したテキストコンテンツのブロックと比較する。上述のように、トランスクリプトブロック内のそれぞれの語は、時間間隔に対応するタイムスタンプを割り当てられ得る。トランスクリプトブロックにおける語への割り当てに基づき、整合テキストコンテンツ内のそれぞれの語も同様に、時間間隔に対応するタイムスタンプを割り当てられ得る。したがって、コンテンツ整合サービスは、所与の時間間隔におけるトランスクリプトブロック内のタイムスタンプ付き語に対応しないテキストコンテンツ内の任意のタイムスタンプ付き語または一連の語を特定し得る。これらの非対応語または一連の語は、本明細書において「不確か領域」と称されることがある。

不確か領域は、トランスクリプトにおけるオーディオコンテンツの誤認識または誤トランスクリプトの産物であり得、または、オーディオコンテンツとテキストコンテンツとの間の差異の産物であり得る。コンテンツ整合サービスにより不確か領域上でさらなる処理が実施され得、トランスクリプトがエラーを含むのかどうか、または語が実際にオーディオコンテンツとテキストコンテンツとの間で異なるのかどうかを決定する。

一実施形態において、コンテンツ整合サービスは不確か領域内に存在するテキストコンテンツの任意の語から言語モデルを生成し得る。不確か領域に対応するオーディオコンテンツの間隔は、テキストコンテンツの語から生成する言語モデルを組み込む音声テキストルーチンを使用してテキストに変換し得る。不確か領域内のオーディオコンテンツのこの再トランスクリプトまたは更新トランスクリプトは、テキストコンテンツ・アイテムとオーディオコンテンツ・アイテムのトランスクリプトとの間のより高い語対応をもたらし得る。コンテンツ整合サービスは、任意の可能性のある残存する対応語を、トランスクリプトにおける任意の残存する語について音響的に混同可能な仮説を生成し、当該音響的に混同可能な仮説およびテキストコンテンツ内のタイムスタンプ付き語かどうかを決定すること等により音響技術を使用して特定しようとし得る。コンテンツ整合サービスは、この処理を再帰的に繰り返し、可能な限り多くの対応語を特定し得る。

このさらなる処理に基づき、コンテンツ整合サービスは、どのテキストコンテンツの部分（例えば、語、文、段落等）がオーディオコンテンツの部分に対応するか、およびどのテキストコンテンツの部分がオーディオコンテンツに対応しないかを決定し得る。一実施形態において、コンテンツ整合サービスは、それぞれの段落を、段落が属するブロックの相関測度に基づきそれと時間内に整合するオーディオコンテンツのトランスクリプトと比較し得る。当該段落が、オーディオコンテンツのトランスクリプトの一部と比較して少なくとも閾値百分率の対応語を有する場合、段落は、当該トランスクリプト部分が生成されたオーディオコンテンツの当該部分との比較における対応部分と見なされ得る。対応語の閾値百分率は所望のように設定され得るが、いくつかの実施形態において、閾値百分率は、約５０％、約７０％、または約９５％である。あるいは、対応語である語の頻度を反映する部分スコアが生成され得る。部分スコアが閾値を満たす場合、当該段落はオーディオコンテンツの部分に対応すると見なされ得る。

上述に基づき、コンテンツ整合サービスは、前付、後付、脚注、図、表、グラフ等のような、オーディオブックにおいてめったに語られない、オーディオブック内に対になる部分または一致を有さない電子書籍の部分を特定し得る。かかるテキストコンテンツの部分は、オーディオコンテンツ内に対応部分を欠如する可能性が高く、したがって、あらゆるオーディオコンテンツの部分と比較して対応語の閾値百分率を満たさない可能性が高いことがある。したがって、オーディオコンテンツとテキストコンテンツとの同期提供は、オーディオコンテンツ内に対応部分を有さないテキストコンテンツの部分を無視することにより維持し得る。かかるテキストコンテンツの部分は飛ばされ得（例えば電子書籍における自動ページめくりによって）、またはオーディオコンテンツの提供はテキストコンテンツの不一致部分が提供される間一時停止し得る。同期提供を維持するさらに他の方法が可能である。

コンテンツのコンパニオンアイテムのコンピューティングデバイスによる同期提供を容易にするために、どのテキストコンテンツの部分がどのオーディオコンテンツの部分に対応するかを反映するコンテンツ同期情報がコンテンツ整合サービスによって生成され得る。コンピューティングデバイスはコンテンツ同期情報を得るまたは生成し得、コンテンツ同期情報によって提供される命令に従ってテキストコンテンツとオーディオコンテンツとを同期提供する。これらの命令は、例えば、オーディオコンテンツ内に存在しないテキストコンテンツの部分を飛ばす（例えば電子書籍における自動ページめくりによって）命令、または、テキストコンテンツの不一致部分が提供される間オーディオコンテンツの提供を一時停止もしくは停止する命令を含み得る。同期提供を維持するためにコンピューティングデバイスに命令するさらに他の方法が可能である。

コンテンツ同期情報は、オーディオコンテンツの対応部分に対するテキストコンテンツの基準点マッピング部分をさらに含み得る。特定の実施例において、コンテンツ同期情報は、対応オーディオコンテンツ・アイテムのタイムスタンプに対し、テキストコンテンツの部分（例えば、語、行、文、段落等）をマップ化するために使用し得るデータを含み得る。コンテンツ同期情報は、提供の相対的進行またはコンテンツのデジタル表現の提供状況に関する情報もまた含み得る。コンパニオンコンテンツの同期提供は、当該デバイスの性能および／もしくは構成（例えば携帯電子書籍リーダ対携帯電話）ならびに／またはコンパニオンコンテンツペアにおけるコンテンツの形式（例えばデジタル出版物およびオーディオ録音対ビデオおよびオーディオ録音）に応じて多様であり得る。したがって、コンテンツ同期情報は、様々な形式、版等で生成し得る。

さらに、コンテンツ同期情報は、コンテンツを同期するために使用する特徴またはデータの任意の組み合わせを含み得る。１人のユーザに関連する複数のユーザコンピューティングデバイス上の再生の同期のような、コンテンツ同期のさらなる特徴は、２０１１年３月２３日出願の米国特許出願第１３／０７０，３１３号、表題「ＳＹＮＣＨＲＯＮＩＺＩＮＧＤＩＧＩＴＡＬＣＯＮＴＥＮＴ」および２００８年１１月１８日出願の米国特許出願第１２／２７３，４７３号、表題「ＳＹＮＣＨＲＯＮＩＺＡＴＩＯＮＯＦＤＩＧＩＴＡＬＣＯＮＴＥＮＴ」に記載される。これらの出願の両方は参照によりそれらの全体が本明細書に組み込まれる。

コンテンツ整合サービスの１つの例の適用において、オーディオブック部分は電子書籍の本体テキスト部分と比較し得る。電子書籍の本体テキスト部分は、当該本体テキスト部分と比較して約５０％、約７０％、または約９５％の対応語を有するオーディオブックのトランスクリプト部分に対応すると見なされ得る。あるいは、所望であれば部分スコア閾値もまた設定し得、当該部分スコアが当該閾値を満たす場合、トランスクリプトが生成されたオーディオブックの部分は、電子書籍の部分に対応すると見なされ得る。本体テキスト部分ではなく、オーディオブック内の部分に対応しない電子書籍の部分（例えば、オーディオブックにおいてめったに語られない、前付、後付、脚注、図、表、グラフ等）は、同期提供を容易にするために飛ばされたり無視されたりし得る。かかる電子書籍の部分は飛ばされ得（例えば電子書籍における自動ページめくりによって）、または、オーディオブックの提供は電子の不一致部分が提供される間一時停止または停止し得る。

同期提供の、特定の非制限的実施例において、ユーザは、電子書籍の対応テキストを見ている間「トムソーヤの冒険」のオーディオブックを聞き得、テキストはオーディオブックの再生に対応するため、マーカー、下線、または別の方法で強調され得る。同期提供経験は、例えば、オーディオブック再生と同期する自動ページめくり、および／または、検索結果位置で開始する後続同期提供を伴い、１つの形式の検索結果を他方の形式の提供位置と整合させることもまた含み得る。電子書籍の不一致部分は、例えば、表示される非対応部分のテキストをマーカーしない、下線しない、もしくは他の方法で強調しないことによって、または、表示ページ上の全ての対応部分が既にマーカー、下線、または他の方法で強調されている場合は自動的にページをめくることによって、飛ばされたり無視されたりし得る。

コンテンツ整合サービスが多くの異なる型のコンテンツ上で作動し得るということが理解されるだろう。概して記載すると、コンテンツは、直接的または間接的にユーザによってアクセスされ得るあらゆるデータを指し得、オーディオブック、電子書籍、歌、ビデオ、テレビ番組、コンピュータおよびビデオゲーム、マルチメディアコンテンツ、デジタル画像、デジタルビデオ、表示可能テキスト、オーディオデータ、電子ドキュメント、コンピュータ実行可能コード、上記のブロックもしくは部分等を含むが、これらに限らない。したがって、「テキストコンテンツ・アイテム」は、概してテキストを含むあらゆる電子コンテンツアイテムを指し得る。同様に、「オーディオコンテンツ・アイテム」は、概してオーディオコンテンツを含むあらゆる電子コンテンツアイテムを指し得る。

図１を参照すると、例証的なネットワーク環境１００が示される。ネットワーク環境１００は、ユーザコンピューティングデバイス１０２、ネットワーク１０６、人対話型タスクシステム１０８、コンテンツ整合サーバ１１０、およびコンテンツデータストア１１２を含み得る。ネットワーク環境１００の構成要素は、局所的にまたはネットワーク１０６をわたって相互に通信し得る。

ユーザコンピューティングデバイス１０２は、ネットワーク１０６をわたって通信することが可能である任意のコンピューティングデバイスであり得、例えば、ノートパソコンまたはタブレットコンピュータ、パソコン、携帯情報端末（ＰＤＡ）、ハイブリッドＰＤＡ／携帯電話、携帯電話、電子書籍リーダ、セットトップボックス、カメラ、オーディオブックプレーヤー、デジタルメディアプレーヤー、ゲーム機、店舗内のキオスク、テレビ、１つ以上の処理装置、コンピューティングデバイスに含むための統合コンポーネント、電化製品、乗物または機械に含むための電子デバイス、ゲーム用デバイス等であり得る。ユーザコンピューティングデバイス１０２は、概してコンテンツをユーザコンピューティングデバイス１０２のユーザに提供することが可能であり得る。例えば、ユーザコンピューティングデバイス１０２は、可聴出力をスピーカー、ヘッドフォン等を通して通過させることにより、オーディオコンテンツを再生することが可能であり得る。ユーザコンピューティングデバイス１０２は、テキストコンテンツ、グラフィックコンテンツ、またはビデオコンテンツを表示画面上に表示することもまた可能であり得る。いくつかの実施形態において、ユーザコンピューティングデバイス１０２は、テキストコンテンツと関連するオーディオまたはビデオコンテンツとを同期提供するようにもまた構成し得る。ユーザコンピューティングデバイス１０２は、例えば、コンテンツ整合サーバ１１０からコンテンツ同期情報を要求するために、ネットワーク１０６をわたって通信することもまた可能であり得る。いくつかの実施形態において、ユーザコンピューティングデバイス１０２は、コンテンツ同期情報ならびに電子書籍およびオーディオブックのようなコンテンツアイテムを保存するための非一時的コンピュータ読み取り可能メディア記憶装置を含み得る。

ネットワーク１０６は、任意の、有線ネットワーク、無線ネットワーク、またはそれらの組み合わせであり得る。さらに、ネットワーク１０６は、パーソナルエリアネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、ケーブルネットワーク、衛星ネットワーク、携帯電話ネットワーク、またはそれらの組み合わせであり得る。インターネットまたはあらゆる他の上述の通信ネットワークの型を介する通信のプロトコルおよびコンポーネントはコンピュータ通信の当業者に公知であり、したがって本明細書でより詳細に記載する必要はない。

人対話型タスクシステム１０８は、コンテンツ整合サーバ１１０を援助するためにネットワーク環境に含まれ得る。概して記載すると、人対話型タスクシステム１０８は、人対話型タスク（ＨＩＴ）を電子的に処理する、コンピュータ化したシステムである。ＨＩＴは、難しい、時間がかかる、またはコンピューティングデバイスが実施するには高価なタスクであることがある。しかしながら、人がＨＩＴを実施することが相対的に容易で速いことがある。したがって、人対話型タスクシステム１０８は、人作業者が、例えば情報を収集したり質問に回答したりするための、ＨＩＴを実施すること、ならびに、その結果または回答を人対話型タスクシステム１０８に、さらなる処理および／または要求者への提供のために返すことを要求し得る。したがって、いくつかの実施形態において、コンテンツ整合サービスは、人対話型タスクシステム１０８の人作業者に向けてコンテンツアイテムに関する１つ以上の質問を提示するように、人対話型タスクシステム１０８に指示する。例えば、人作業者は、オーディオコンテンツ・アイテムのトランスクリプトをテキストコンテンツ・アイテムと比較する、または、文もしくは段落のようなテキストコンテンツ・アイテムにおける部分境界を特定するように求められ得る。人間の作業者は、前付、後付、脚注、図、表、グラフ、およびテキストコンテンツ・アイテム内の本体テキストを特定または分類するようにもまた求められ得る。人対話型タスクシステム１０８は、これらの質問に対する回答を受け取り、それらをユーザコンピューティングデバイス１０２またはコンテンツ整合サーバ１１０に送信し、コンテンツ整合サービスの作動を誘導する。人対話型タスクシステム１０８の人作業者は、これらおよび他のタスクに対応したり、コンテンツアイテムに関する他の情報をコンテンツ整合サーバ１１０に通信したりすることを自ら進んで行い得る。

コンテンツ整合サーバ１１０は、コンテンツ整合サービスを実装するために様々なタスクを実行し得るコンピューティングデバイスである。例えば、コンテンツ整合サーバ１１０は、オーディオコンテンツ・アイテム（例えばオーディオブック）およびテキストコンテンツ・アイテム（例えば電子書籍）を整合させ、そこから同期情報を生成し得る。この同期情報は、コンテンツ整合サーバ１１０によって、ユーザコンピューティングデバイス１０２に、ネットワーク１０６を通じて提供され得る。コンテンツ整合サーバ１１０のさらなる作動は、図２に関してさらに詳細に記載する。

コンテンツ整合サーバ１１０は、コンテンツデータストア１１２と通信し得る。コンテンツデータストアは、オーディオコンテンツ・アイテム（例えばオーディオブック）、テキストコンテンツ・アイテム（例えば電子書籍）、または他のコンテンツアイテムのような、１つ以上のコンテンツアイテムを保存し得る。コンテンツデータストアは、コンテンツ整合サーバ１１０によって生成したまたは得た、同期情報を保存するようにもまた構成し得る。コンテンツデータストア１１２は、ハードディスクドライブ、固体記憶装置、および／またはコンテンツ整合サーバ１１０に遠隔的もしくは局所的にアクセス可能な任意の他の型の非一時的コンピュータ読み取り可能記憶メディアにおいて、具現化され得る。コンテンツデータストア１１２は、複数の記憶デバイスにわたって、当業者に公知のように、本開示の精神および範囲から逸脱することなく、分布または分配し得る。

ユーザコンピューティングデバイス１０２およびコンテンツ整合サーバ１１０は、それぞれ複数のコンポーネントにおいて具現化され得、それぞれコンテンツユーザコンピューティングデバイス１０２およびコンテンツ整合サーバ１１０のそれぞれのインスタンスを実行する。サーバまたはユーザコンピューティングデバイス１０２およびコンテンツ整合サーバ１１０を実装する他のコンピューティングシステムは、ネットワークインターフェース、メモリ、処理ユニット、およびコンピュータ読み取り可能メディアドライブを含み得、それらの全ては、相互に通信バスを使用して通信し得る。さらに、処理ユニットは、それ自身がコンピューティングデバイスと称され得る。ネットワークインターフェースは、ネットワーク１０６および／または他のネットワークもしくはコンピュータシステムを通じた接続性を提供し得る。処理ユニットは、ユーザコンピューティングデバイス１０２およびコンテンツ整合サーバ１１０を操作するために、処理ユニットが実行するプログラム命令を含むメモリにおよび当該メモリから通信し得る。当該メモリは概して、ＲＡＭ、ＲＯＭ、ならびに／または他の持続性および／もしくは補助的非一時性コンピュータ読み取り可能記憶メディアを含む。

本明細書に記載するデバイスの多くは随意であり、環境１００の実施形態はデバイスを組み合わせても組み合わせなくてもよいということが認識されるだろう。さらに、デバイスは個別または離散的である必要はない。デバイスは、環境１００において再編成もまたし得る。例えば、コンテンツ整合サーバ１１０は、単一の物理的サーバで表れ得るか、あるいは、複数の物理的サーバに分割され得る。コンテンツ整合サービスの全体は、単一のユーザコンピューティングデバイス１０２でもまた表れ得る。

さらに、いくつかの実施形態において、コンテンツ整合サービスは、ホストコンピューティング環境内に実装される１つ以上の仮想マシンによって実行される。ホストコンピューティング環境は、１つ以上の迅速にプロビジョニングおよびリリースされたコンピューティングリソースを含み得、当該コンピューティングリソースは、コンピューティング、ネットワーク、および／または記憶デバイスを含み得る。ホストコンピューティング環境は、クラウドコンピューティング環境ともまた称され得る。

図２は、図１に示すコンテンツ整合サーバ１１０の、模式図である。コンテンツ整合サーバ１１０は、コンテンツ整合サービスを実装するために使用し得るコンピュータハードウェアおよびソフトウェアコンポーネントの配置列を含む。図２は、図１に例証するコンテンツ整合サーバ１１０の概略的アーキテクチャを描写する。当業者は、コンテンツ整合サーバ１１０が、図２に示す物に比べより多くの（またはより少ない）コンポーネントを有し得るということを理解するだろう。しかしながら、有効な開示を提供するためにこれらの概して慣習的なコンポーネントの全てを示すことは必須ではない。

コンテンツ整合サーバ１１０は処理ユニット２０２、ネットワークインターフェース２０４、非一時性コンピュータ読み取り可能メディアドライブ２０６、および入力／出力デバイスインターフェース２０８を含み、それらの全ては通信バスにより相互に通信し得る。例証するように、コンテンツ整合サーバ１１０は、随意で、随意の画面２１８および随意の入力デバイス２２０に関連付けられたりそれらと通信したりする。画面２１８および入力デバイス２２０は、ユーザがコンテンツ整合サーバ１１０と直接相互作用する、例えば統合店舗内キオスクのような実施形態において使用し得る。他の実施形態において、画面２１８および入力デバイス２２０は、図１に示すユーザコンピューティングデバイス１０２内に含まれ得る。ネットワークインターフェース２０４は、コンテンツ整合サーバ１１０に１つ以上のネットワークまたはコンピューティングシステムへの接続性を提供し得る。処理ユニット２０２は、したがって、情報および命令を、他のコンピューティングシステム（例えばユーザコンピューティングデバイス１０２）またはサービスから、ネットワークを介して受け取り得る。処理ユニット２０２は、メモリ２１０におよび当該メモリから通信し得、随意の画面２１８のための出力情報を、入力／出力デバイスインターフェース２０８を介してさらに提供し得る。入力／出力デバイスインターフェース２０８は、キーボード、マウス、デジタルペン、タッチスクリーン、またはモーションキャプチャによって記録した動作のような、随意の入力デバイス２２０からの入力を受諾し得る。入力／出力デバイスインターフェース２２０は、オーディオデータをスピーカーまたはヘッドフォン（示さない）に出力もまたし得る。

メモリ２１０は、コンテンツ整合サービスの１つ以上の実施形態を実装するために処理ユニット２０２が実行するコンピュータプログラム命令を含む。メモリ２１０は、概してＲＡＭ、ＲＯＭ、および／または他の持続性もしくは非一時性コンピュータ読み取り可能記憶メディアを含む。メモリ２１０は、コンテンツ整合サーバ１１０の一般的な管理および作動における処理ユニット２０２による使用のためのコンピュータプログラム命令を提供するオペレーティングシステム２１４を保存し得る。メモリ２１０は、コンテンツ整合サービスの態様を実装するための他の情報をさらに含み得る。例えば、一実施形態において、メモリ２１０は、ユーザコンピューティングデバイス１０２のようなコンピューティングデバイス上での表示のために、ユーザインターフェースの生成を容易にする（例えばそれの命令を提供することによって）ユーザインターフェースモジュール２１２を含む。ユーザインターフェースは、ユーザコンピューティングデバイス１０２にインストールしたウェブブラウザのようなナビゲーションインターフェースを介して表示され得る。さらに、メモリ２１０はコンテンツデータストア１１２を含むかまたはそれと通信し得る。コンテンツデータストア１１２に保存するコンテンツは、テキストコンテンツ・アイテムおよびオーディオコンテンツ・アイテムを、図１に記載のように含み得る。

ユーザインターフェースモジュール２１２に加え、メモリ２１０は処理ユニット２０２によって実行され得るコンテンツ整合モジュール２１６を含み得る。一実施形態において、コンテンツ整合モジュール２１６は、コンテンツ整合サービスを実装するために使用し得、その作動の例は、以下に図３Ａ、図３Ｂ、図４Ａ、図４Ｂ、および図６に関して記載する。

当業者は、いくつかの実施形態において、コンテンツ整合サービスがユーザコンピューティングデバイス１０２によって部分的または全体的に実装されるということを認識するだろう。したがって、ユーザコンピューティングデバイス１０２は、コンテンツ整合モジュール２１６およびコンテンツ整合サーバ１１０の一部として例証したコンポーネントに類似して作動する他のコンポーネントを含み得、処理ユニット２０２、ネットワークインターフェース２０４、非一時性コンピュータ読み取り可能メディアドライブ２０６、入力／出力インターフェース２０８、メモリ２１０、ユーザインターフェースモジュール２１２等を含む。

上述のように、テキストコンテンツ・アイテムおよびオーディオコンテンツ・アイテムは、どのテキストコンテンツ・アイテムの部分がオーディオコンテンツ・アイテムの部分に実質的に一致するまたは対応するかを決定するために、分析され得る。オーディオコンテンツ・アイテムの部分とテキストコンテンツ・アイテムの部分との間の対応を反映するコンテンツ同期情報が生成され得る。したがって、図３Ａおよび図３Ｂは、オーディオコンテンツ・アイテム内の語に対応するアイテムテキストコンテンツ内の語（例えばオーディオコンテンツ・アイテム内で可聴的に提供されるテキストコンテンツ内の語）を特定するための例証的なルーチン３００を描写する。例証的なルーチン３００は、コンテンツ整合サービスによって、例えば、コンテンツ整合サーバ１１０によるコンテンツ整合モジュール２１６の実行を介して、実行され得る。

例証的なルーチン３００は、そこにおいてコンテンツ整合サービスがコンパニオンテキストコンテンツ・アイテムと同期提供されるオーディオコンテンツ・アイテムのタイムスタンプ付きトランスクリプトを取得し得る、ブロック３０２において開始する。タイムスタンプ付きトランスクリプトは、それぞれの語がオーディオコンテンツ内で話される（または別の方法で可聴的に提供される）時に対応する、トランスクリプトのそれぞれの語のタイムスタンプを含み得る。例えば、タイムスタンプ付きトランスクリプトの語は、０：０１〜０：０２のタイムスタンプを割り当てられ得、当該語がオーディオコンテンツのその時間間隔の間話されたことを示す。一実施形態において、それぞれの語の時間間隔は、英国、イングランド、ケンブリッジに本社があるＡｕｔｏｎｏｍｙＣｏｒｐｏｒａｔｉｏｎから入手可能なＳＯＦＴＳＯＵＮＤ（登録商標）音声処理技術のような、公知の音声処理技術を使用して生成する。

一実施形態において、コンテンツ整合サービスは、コンピュータ実装音声テキスト認識技術を使用してオーディオコンテンツのトランスクリプトを作成する。さらに、ピンクノイズフィルタがオーディオコンテンツに、そのトランスクリプトが作成される際またはその前に適用され得る。ピンクノイズフィルタは、背景音楽またはトランスクリプト作成結果上の他の周囲ノイズの効果を最小化し、そのためオーディオコンテンツ内で可聴的に提供される（例えば話される）あらゆる語（例えばオーディオブックの語り）がより正確に認識およびトランスクリプト作成され得る。トランスクリプト作成により音声をテキストにするための技術は、当業者に公知であり、本明細書においてより詳細に記載する必要はない。さらに、他の実施形態において、コンテンツ整合サービスは、既存のトランスクリプトにタイムスタンプを割り当て得、またはタイムスタンプもまた含む既存のトランスクリプトを取得し得る。

ブロック３０４において、テキストコンテンツのブロックは、オーディオコンテンツのブロックに対する事前整合のために選択され得る。上述のように、オーディオコンテンツのブロックは、オーディオコンテンツの例えば１つ以上の章、トラック、動作等に対応し得る（オーディオコンテンツがかかるブロック分割を含む場合）、または、４５分間、１時間、または任意の他の相対的に大きいもしくは統計的に有意な間隔のような、オーディオコンテンツにおける時間間隔に対応し得る。オーディオコンテンツのトランスクリプトは、オーディオコンテンツ内に存在するブロックに対応するブロックに分割し得る。トランスクリプトのブロックは、その後テキストコンテンツのブロックと比較され得、２つの間の類似性を特定する。テキストコンテンツのブロックがトランスクリプトのブロックに十分類似する場合、当該トランスクリプトのブロックを生成したオーディオコンテンツは、当該テキストコンテンツのブロックと事前に整合され得る。

一実施形態において、どのオーディオコンテンツのブロックをどのテキストコンテンツのブロックと整合させるべきかを決定するために、相関測度を使用する。相関測度は、テキストコンテンツのブロックとオーディオコンテンツのトランスクリプトのブロックとの間で共通する語に、少なくとも部分的に基づき得る。例えば、相関測度は、テキストコンテンツのブロックとオーディオコンテンツのトランスクリプトのブロックとの間に共通する語の数または百分率を測定し得る。相関測度は、テキストコンテンツのブロック内の語の確率分布とトランスクリプトブロック内の語の確率分布との間の類似性もまた、例えばテキストコンテンツのブロックの語分布とトランスクリプトブロックの語分布との間のＫｕｌｌｂａｃｋ−Ｌｉｅｂｌｅｒ距離（ＫＬＤ）を測定することによって、測定し得る。所望であれば他の相関測度を使用し得る。

テキストコンテンツのブロックが閾値を満たす相関測度を有するトランスクリプトブロックが見つけられない場合、当該テキストコンテンツのブロックは、コンテンツ整合サービスによって、さらなる考慮から除外され得る（例えば、コンテンツ整合サービスは、テキストコンテンツのブロックの部分をオーディオコンテンツ・アイテムの部分と一致しようとしなくてもよい）。ブロック３０４に関して記載した選択処理は、それぞれのテキストコンテンツのブロックがトランスクリプトのブロックとの整合のために選択されるまたはさらなる考慮から除去されるまで、連続的に繰り返され得る。さらなる考慮から除去されなかった全てのテキストコンテンツのブロックは、トランスクリプトのブロック（およびしたがってオーディオコンテンツのブロック）と整合され得、ブロック３０６において示すように、テキストコンテンツおよびトランスクリプトの事前整合を生成する。

どのトランスクリプトのブロックとも事前に整合しないあらゆるテキストコンテンツのブロックは、前付（例えば、目次、序文等）または後付（例えば後注、索引、付録等）を表す可能性が、前付および後付がオーディオコンテンツにおいて表されないことがあるため、高いということが理解されるだろう。したがって、ブロック３０４に関して記載した整合処理は、相関測度が閾値を超えるテキストコンテンツのブロックは前付または後付を除く本体テキストを含む可能性が高いため、テキストコンテンツ・アイテム内の前付および後付を特定するために使用され得る。

前付はオーディオコンテンツ・アイテム内で語られない可能性が高いため、前付を特定することにより、コンテンツ整合サービスは、オーディオコンテンツ・アイテムの同期提供が開始し得るテキストコンテンツ・アイテムにおける提供位置を有利に特定し得る。同様に、後付もまたオーディオコンテンツ・アイテム内で語られない可能性が高いため、後付を特定することにより、コンテンツ整合サービスは、オーディオコンテンツ・アイテムの同期提供が停止し得るテキストコンテンツ・アイテムにおける提供位置を特定し得る。

テキストコンテンツ・アイテム内の前付および後付を特定する他の方法が可能であり本開示の範囲内である。一実施形態において、テキストコンテンツ・アイテム内の前付および後付を特定するために人対話型タスクシステムからの入力が得られ得る。例えば、テキストコンテンツ・アイテムのいくつかまたは全てが人対話型タスクシステムの人作業者に提供され得る。「このテキストコンテンツ・アイテム内の前付または後付のあらゆる領域を特定して下さい」のような質問もまた人作業者に提供され得る。人作業者は、どのテキストコンテンツ・アイテムのブロックが前付または後付であるかを示すために人対話型タスクシステムのコンピューティングデバイスと対話し得、その結果は事前整合の生成における使用のためコンテンツ整合サービスに転送され得る。他の実施形態において、前付、後付、または他の不確か領域が、テキストコンテンツ・アイテムに付随して提供され得るメタデータ（例えばマークアップ）により特定され得る。このメタデータは、例えばテキストコンテンツ・アイテムの出版者もしくは著者によって、またはテキストコンテンツ・アイテムのユーザによって提供され得る。前付および後付がテキストコンテンツ内でどのように特定されるかに関わらず、前付および後付のブロックは、コンテンツ整合サービスによって実施される事前整合の考慮から除外され得る（例えば、コンテンツ整合サービスは、テキストコンテンツのブロックの部分をオーディオブックの部分と一致しようとしなくてもよい）。

引き続き図３Ａを参照し、テキストコンテンツおよびオーディオコンテンツのトランスクリプトの事前整合がブロック３０６において生成されると、ブロック３０８においてテキストコンテンツの語にタイムスタンプが割り当てられ得る。多くの方法のうちのいずれかでテキストコンテンツの語にタイムスタンプが割り当てられ得、その非制限的な例を以下に記載する。

いくつかの実施形態において、オーディオコンテンツのトランスクリプトブロック内の語のタイムスタンプが、事前整合したテキストコンテンツのブロック内の語にタイムスタンプを割り当てるために使用される。テキストコンテンツのブロック内の語に割り当てられるタイムスタンプは、当該語がタイムスタンプによって特定される時間間隔の間オーディオコンテンツ内で可聴的に提供されるという予測または仮説を表し得る。この予測または仮説は、トランスクリプト内の語に割り当てられるタイムスタンプに、少なくとも部分的に基づき得る。一実施形態において、実質的に上述の通り、ＡｕｔｏｎｏｍｙＣｏｒｐｏｒａｔｉｏｎにより開発されたＳＯＦＴＳＯＵＮＤ（登録商標）音声処理技術を使用することにより、この方法でテキストコンテンツのブロックの語にタイムスタンプが割り当てられる。

さらに他の実施形態において、必ずしもタイムスタンプ付きトランスクリプトのブロックを参照することなく、テキストコンテンツのブロックの語にタイムスタンプが割り当てられる。したがって、テキストコンテンツの語のタイムスタンプを決定し得る時間決定法が使用され得る。一実施形態において、テキストコンテンツの語のタイムスタンプは、テキストコンテンツの語の文字数に少なくとも部分的に基づいて推定される。別の実施形態において、テキストコンテンツの語のタイムスタンプは、テキストコンテンツの語の音節数に少なくとも部分的に基づいて推定される。例えば、テキストコンテンツのブロックの第１の語にはテキストコンテンツのブロックの初めに対応するタイムスタンプ（例えば０：００〜０：０１秒）が割り当てられ得る。テキストコンテンツのブロックの第２の語には、第１の語の終わりで始まり第２の語の長さで続くタイムスタンプ（例えば０：０１〜０：０２秒）が割り当てられ得る。

さらに他の実施形態において、連続基準でテキストコンテンツのブロックの語にタイムスタンプが割り当てられる。概して記載すると、タイムスタンプ付きトランスクリプトの語およびテキストコンテンツのブロックの語には連続数が割り当てられ得る。タイムスタンプ付きトランスクリプトの語のタイムスタンプに基づき、連続的に対応するテキストコンテンツのブロックの語には実質的に類似するタイムスタンプが割り当てられ得る。例は例証的なものである。タイムスタンプ付きトランスクリプトブロックの第１の語には０：００〜０：０１秒のタイムスタンプが割り当てられ得る。したがって、テキストコンテンツのブロックの第１の語には０：００〜０：０１秒のタイムスタンプが割り当てられ得る。タイムスタンプ付きトランスクリプトブロックの第２の語には０：０１〜０：０２秒のタイムスタンプが割り当てられ得る。したがって、テキストコンテンツのブロックの第２の語には０：０１〜０：０２秒のタイムスタンプが割り当てられ得る。

テキストコンテンツ内の語にタイムスタンプが割り当てられると、例証的なルーチン３００が図３Ｂのブロック３１０において続行し、そこで、割り当てられたタイムスタンプを有するテキストコンテンツの語がブロック３１０において選択され得る。次に、ブロック３１２において、コンテンツ整合サービスが、選択されたテキストコンテンツにおける語がオーディオコンテンツ・アイテムのトランスクリプト内の語に対応するかどうかを決定し得る。いくつかの実施形態において、テキストコンテンツ内のある語は、オーディオコンテンツのトランスクリプト内のある語との比較において、その語が語と時間の一致である場合、オーディオコンテンツのアイテムのトランスクリプト内の語に対応する。概して記載すると、語と時間の一致は、テキストコンテンツ内の選択された語が、オーディオコンテンツのトランスクリプト内の実質的に一致する語と類似もしくは同一のタイムスタンプ、または連続的位置を有する（または別の方法で経時的に対応するもしくは連続的に対応する）ということを反映している。

対応語の例証的な実施例として、語「ｔｉｇｅｒ」はオーディオコンテンツのブロックにおいて時間間隔０：０１〜０：０３（秒）の間話され得、語「ｔｉｇｅｒ」のトランスクリプトは「ｔｉｇｅｒ」が時間間隔０：０１〜０：０３の間に話されたということを示すタイムスタンプを含み得る。テキストコンテンツのブロックは語「ｔｉｇｅｒ」もまた含み得、コンテンツ整合サービスは語「ｔｉｇｅｒ」に、上述のテキストコンテンツ・アイテム内の語にタイムスタンプを割り当てる１つ以上の方法に基づき、テキストコンテンツのブロックにおける０：０１〜０：０３の時間間隔に対応するタイムスタンプを割り当て得る。したがって、語「ｔｉｇｅｒ」が同じ時間間隔の間テキストコンテンツおよびトランスクリプトの両方において出現するため、語「ｔｉｇｅｒ」は対応語であると決定され得る。

いくつかの実施形態において、時間間隔が重複するまたは１つの時間間隔がもう一方を含む場合、対応語が見つかり得る。上述の実施例に戻り、語「ｔｉｇｅｒ」は、オーディオコンテンツのブロックにおいて時間間隔０：０１〜０：０３（秒）の間話され得、当該オーディオコンテンツのブロックのトランスクリプトはしたがって「ｔｉｇｅｒ」が時間間隔０：０１〜０：０３の間話されるということを示すタイムスタンプを有する。テキストコンテンツのブロックは語「ｔｉｇｅｒ」もまた含み得、コンテンツ整合サービスは語「ｔｉｇｅｒ」に、上述のテキストコンテンツ・アイテム内の語にタイムスタンプを割り当てる１つ以上の方法に基づき、テキストコンテンツのブロックにおける０：０１〜０：０４の時間間隔に対応するタイムスタンプを割り当て得る。「ｔｉｇｅｒ」のオーディオコンテンツにおける間隔（０：０１〜０：０３）がテキストコンテンツにおいて「ｔｉｇｅｒ」に割り当てられた間隔（０：０１〜０：０４）の範囲に入るため、「ｔｉｇｅｒ」はしたがってテキストコンテンツ・アイテムおよびオーディオコンテンツ・アイテムにおける対応語と見なされ得る。

あるいは、コンテンツ整合サービスは語「ｔｉｇｅｒ」に、上述のテキストコンテンツ・アイテム内の語にタイムスタンプを割り当てる１つ以上の方法に基づき、テキストコンテンツのブロックにおける時間間隔０：０２〜０：０４に対応するタイムスタンプを割り当て得る。オーディオコンテンツにおける「ｔｉｇｅｒ」の間隔（０：０１〜０：０３）が、テキストコンテンツにおける「ｔｉｇｅｒ」に割り当てられる間隔（０：０２〜０：０４）と部分的に重複するため、これも対応語と見なされ得る。

上述のように、不確か領域は、所与の時間間隔についてトランスクリプトブロックにおけるタイムスタンプ付き語に対応しない、テキストコンテンツ内の一連の１つ以上の語を表し得る。したがって、ブロック３１０において選択されたテキストコンテンツの語がブロック３１２で決定されたトランスクリプトの語に対応しない場合、選択された語はテキストコンテンツの不確か領域の一部であると見なされ、例証的なルーチンがブロック３１４において不確か領域が「開放」であるかどうかを決定する。ブロック３１０において選択される語の直前のテキストコンテンツの語が、非対応語または不一致として特定される場合、不確か領域は「開放」である。不確か領域が開放でない場合、コンテンツ整合サービスはブロック３１６において領域を開放する。不確か領域が開放されると、不確か領域を開放するように促した語は、不確か領域に対応する一連の語の第１の語として特定され得る。不確か領域が既に開放である場合、ブロック３１８に示すように、語は不確か領域に順に加えられ得る。不確か領域に含まれる語は、以下に記載する不確か領域ルーチン４００によるさらなる処理のために、メモリに保存され得る。

ブロック３１０において選択されたテキストコンテンツの語が、ブロック３１２において決定されたトランスクリプトの語に対応する場合、例証的なルーチン３００はブロック３２０において、当該語が対応するということを示し得る。この対応は、図６に描写し以下でさらに記載する、コンテンツ同期ルーチンによる将来の処理のためにメモリに保存され得る。決定ブロック３２２によって示されるように不確か領域が開放である場合、当該不確か領域はブロック３２４において閉鎖され得る。いくつかの実施形態において、不確か領域が閉鎖されると、以前開放で今閉鎖の不確か領域には新しい語は加えられず、次の不確か語が、新しい不確か領域が開放になるように促す。不確か領域の開放および閉鎖は、概して不確か領域が対応語によって区切られ得るということを反映する。

ブロック３２６において、コンテンツ整合サービスは、テキストコンテンツ・アイテム内（またはテキストコンテンツのブロック内）の全ての語がブロック３１０〜３２６に関して上述のように処理されたかどうかを決定する。テキストコンテンツ内に処理されずに残存している語がある場合、例証的なルーチンはブロック３１０に戻り、テキストコンテンツ内の別の語を選択する。全ての語が処理されている場合、不一致の語が加えられた不確か領域は、図４Ａおよび図４Ｂに関してさらに記載される不確か領域ルーチン４００によって処理され得る。

いくつかの実施形態において、図３Ｂに示す例証的なルーチン３００のセグメントは、テキストコンテンツ・アイテムのそれぞれの語について連続的に実施され得、例えばテキストコンテンツ・アイテムの第１の語から始まり、第２の語、第３の語、第４の語へと順に続く。しかしながら、連続的な語単位の比較（例えばブロック３１０および３１２における）のあらゆる記載は、例証的な目的のみのためであり本開示の範囲を制限することを意図しないということが理解されるべきである。テキストコンテンツ・アイテム内の語は処理のために特定の順で選択される必要はない。

図４Ａを参照すると、不確か領域ルーチン４００が示される。上述のように、不確か領域は、オーディオコンテンツのトランスクリプトブロック内のタイムスタンプ付き語に対応しない、テキストコンテンツ内の一連の１つ以上のタイムスタンプ付き語を表し得る。不確か領域ルーチン４００は、コンテンツ整合サービスが、不確か領域がトランスクリプトにおけるオーディオコンテンツの誤認識もしくは誤トランスクリプトの産物であるかどうか、または不確か領域がオーディオコンテンツとテキストコンテンツとの間の差異の産物であるかどうかを決定することを助け得る。

不確か領域ルーチン４００はブロック４０２において開始し得る。ブロック４０４において、図３Ａおよび図３Ｂに示すルーチン３００において特定された不確か領域は処理のために選択され得る。不確か領域ルーチン４００が反復して作動する実施形態において、不確か領域から細分化した不確か副領域もまた、ブロック４０４における処理のために選択され得る。不確か領域の細分化はブロック４１４に関して以下により詳細に記載する。

ブロック４０６において、コンテンツ整合サービスは処理される不確か領域または副領域が閾値数の語を満たす数の語を有するかどうかを決定する。テキストコンテンツとオーディオコンテンツとの間の小さい不一致が、同期提供のユーザ経験をほんのわずかにしか阻止しないため、いくつかの実施形態においてコンテンツ整合サービスは、少なくとも閾値数の語、例えば少なくとも１つの語、少なくとも５つの語、少なくとも１０個の語、または任意の他の閾値数の語を有する不確か領域のみを完全に処理する。少なくとも閾値数の語を含まない不確か領域または副領域は、ブロック４１２において示し以下にさらに記載する決定法に基づいて単に時間を割り当てられ得る。有利なことに、このアプローチは、コンテンツ整合サービスの態様を実装するコンピュータシステムの計算リソースを保護し得、それがコンテンツ整合サービスの態様を実装するためにかかる時間を減らし得る。

不確か領域または副領域が閾値数の語を含む場合、例証的なルーチン４００はブロック４０８に続く。ブロック４０８において、言語モデルが不確か領域または副領域内のテキストコンテンツの語から生成され得、テキストコンテンツ内の不確か領域または副領域に対応するオーディオコンテンツ領域の更新トランスクリプトまたは再トランスクリプトを生成するために使用され得る。いくつかの実施形態において、オーディオコンテンツ領域と不確か領域との間の対応は、経時的または連続的対応であり、図３Ａにおいて不確か領域の語に割り当てられるタイムスタンプまたは連続的位置に基づく。コンテンツ整合サービスは、ブロック４０８において再トランスクリプトまたは更新トランスクリプトにおいて特定される任意の新しい対応語をさらに特定し得る。

概して記載すると、言語モデルは、語または一連の語が訓練テキストの特定のコーパスにおいて出現する確率を表す。いくつかの実施形態において、言語モデルは、不確か領域または副領域内の語または一連の語に少なくとも部分的に基づく（例えば不確か領域または副領域は訓練テキストのコーパスの役割をし得る）。訓練テキストから言語モデルを生成する技術は当業者に公知であり、本明細書においてさらに記載する必要はない。言語モデルにおいて存在する確率は、音声認識器の使用を伴い、音響入力を特定するために使用され得る。例えば、音声認識器は、２つ以上の起こり得る語または一連の語に対応し得る音響入力を受信し得る。言語モデルは、音響入力に対応するそれぞれの語または一連の語の確率を決定するために使用され得、音響入力は最も高い確率を有する一連の語であるとして認識され得る。

言語モデルは、オーディオコンテンツのトランスクリプトを再トランスクリプト化または更新するために使用され得る。この再トランスクリプト化または更新は、以前音声認識器によって不一致として誤って認識されたオーディオコンテンツ内のいくつかの語を、テキストコンテンツの語に対応するとして正しく認識させ得る。例えば、オーディオコンテンツのブロックの最初のトランスクリプトが、語「ｂｕｙｅｒ」が０：０１〜０：０４の時間間隔の間に語られたということを示したということがあり得る。テキストコンテンツのブロックは語「ｔｉｇｅｒ」を含み得、コンテンツ整合サービスは語「ｔｉｇｅｒ」に、上述のテキストコンテンツ・アイテムにおける語にタイムスタンプを割り当てる１つ以上の方法に基づき、テキストコンテンツのブロックにおける０：０１〜０：０４の時間間隔に対応するタイムスタンプを割り当て得る。「ｂｕｙｅｒ」および「ｔｉｇｅｒ」は異なる語であるため、それらは最初のトランスクリプトに基づき対応語として特定されないだろう。しかしながら、言語モデルが音声認識器に音響入力を不確か領域の語として認識させる可能性がより高くあり得るため、更新されたテキスト・トランスクリプトにおいて「ｔｉｇｅｒ」が代わりに０：０１〜０：０４の時間間隔の間認識され得る。したがって、最初誤って不一致として認識された語は、更新されたテキスト・トランスクリプトに基づき対応語として正しく特定され得る。

いくつかの実施形態において、更新されたテキスト・トランスクリプト内に出現する語にスコアが割り当てられる。弱い（または低スコアの）対応語は、語が対応する一方で、にもかかわらず当該語が相対的に一般的であり、したがってオーディオコンテンツとテキストコンテンツとの間の任意の差異または類似性についての情報を相対的にほとんど提供しないということを反映し得る。相対的に一般的な語は、前置詞、冠詞、代名詞、助動詞等を含み得る。相対的に一般的な語の表は、テキストコンテンツ・アイテムも同様に書かれ得る様々な語について整備され得る。テキストコンテンツ・アイテム内に出現し、オーディオコンテンツ・アイテム内に対応語を有する、存在する相対的に一般的でないまたは統計的に可能性の低い語（本明細書において「重要」語と称することもある）は、オーディオコンテンツとテキストコンテンツとの間の類似性についての情報を相対的により多く提供し得る。

対応語のスコアはいくつかの方法で測定し得る。一実施形態において、対応語は、当該対応語がテキストコンテンツ・アイテム内にどれだけ頻繁に出現するかに従ってスコア化される。別の実施形態において、対応語は、当該対応語を構成する文字がテキストコンテンツ・アイテムの言語においてどれだけ頻繁に出現するかに従ってスコア化される。例えば、語「ｘｙｌｏｐｈｏｎｅ」は、「ｘｙｌｏｐｈｏｎｅ」が相対的に一般的でない英語の文字、例えば「ｘ」「ｙ」および「ｈ」を使用するため、相対的に高いスコアを与えられ得る。文字が言語においてどれだけ頻繁に出現するかについての測度例は、米国ロードアイランド州ポータケットに本社があるＨａｓｂｒｏＣｏｒｐｏｒａｔｉｏｎによって製造されたボードゲームＳＣＲＡＢＢＬＥ（登録商標）においてアルファベット文字に割り当てられるスコアによって提供される。さらに別の実施形態において、対応語の語スコアは、当該対応語の音節数に少なくとも部分的に基づく。対応語スコアを決定するさらに他の方法が可能である。

不確か領域内の残存する不一致語は、図４Ｂに示す音響処理サブルーチン４５０を使用して処理し得る。更新されたテキスト・トランスクリプトは、不確か領域の残存する非対応語を処理するために、音響技術でさらに更新され得る。図４Ｂを参照すると、音響処理サブルーチン４５０はブロック４５２において開始する。ブロック４５４において、オーディオコンテンツの更新されたテキスト・トランスクリプト内の１つ以上の非対応タイムスタンプ付き語の列、および重複または同一タイムスタンプを有するテキストコンテンツ内の１つ以上の非対応タイムスタンプ付き語の列は、音素列に変換される。語を音素列に変換することにより、コンテンツ整合サービスは、可能性のある対応語を特定するために音響技術を使用し得る。

ブロック４５６において、テキストコンテンツの１つ以上の語の列から生成した音素列と、有意に重複したまたは同一のタイムスタンプの間に生じる更新トランスクリプト内の１つ以上の語の列から生成した音素列との間の、レーベンシュタイン距離が計算され得る。２つの音素列の間のレーベンシュタイン距離が閾値を満たす場合、音素列（ならびにしたがって更新トランスクリプトおよびテキストコンテンツ・アイテムにおける１つ以上の語）は対応すると見なされ得る。

ブロック４５８において、音響的に混同可能な仮説が、トランスクリプト内または更新されたテキスト・トランスクリプト内の任意の不一致語に基づいて生成され得る。トランスクリプトまたは更新されたテキスト・トランスクリプトの不一致語が、テキストコンテンツ内の語と時間間隔を共有し、当該トランスクリプトまたは更新されたテキスト・トランスクリプトの語の音響的に混同可能な仮説が、テキストコンテンツ内の語と有意に類似する場合、テキストコンテンツ内の当該語および更新されたテキスト・トランスクリプト内の当該語は対応すると見なされ得る。語または一連の語の音響的に混同可能な仮説を生成するための技術例は、米国特許出願第１３／５３１，３７６号、表題「ＭＯＤＥＬＬＩＮＧＥＸＰＥＣＴＥＤＥＲＲＯＲＳＦＯＲＤＩＳＣＲＩＭＩＮＡＴＩＶＥＴＲＡＩＮＩＮＧ」２０１２年６月２２日出願（本明細書で以下「’３７６出願」）において開示される。この出願の開示は参照によりその全体が本明細書に組み込まれる。

例えば、’３７６出願の態様は、音響モデル訓練データから混同マトリクスを生成することに関する。混同マトリクスは、言語のそれぞれの副語ユニットが当該言語の他のユニットと混同され得る確率を含み得る。副語ユニットは言語の音に対応し得、話される語は１つ以上の一連の副語ユニットを含み得る。副語ユニットは、当業者に公知の任意の形態であり得る。例えば、副語ユニットは、音素、トライフォン、ダイフォン、音節、もしくは音節の一部、または語全体モデルであり得る。混同マトリクスは、公知の正しいトランスクリプトに比べそれぞれの副語ユニットが誤って認識仮説に挿入されたり削除されたりし得る確率もまた含む。混同マトリクスは、公知のトランスクリプトからエラーを生成するために使用され得る。言語モデルの識別訓練は、公知の正しいトランスクリプトと混同マトリクスを使用して生成したエラーとをより明確に識別できるように言語モデルを修正することを含む。言語モデルは、その後関連する正しいトランスクリプトを伴わずに発話のトランスクリプトを作成するために利用され得、よって音声認識システムのユーザは提供されたトランスクリプトが正しいというより強い確信を有し得る。

’３７６出願のさらなる態様は、確率を生成するための、トップＮリスト、格子、またはそれらの組み合わせの使用に関する。音声録音は、１つ以上の認識仮説を生成するために音声認識器によって処理され得、それぞれの仮説は、それが音声録音において話される語に対応する確率と関連付けられ得る。音声認識器は語を認識することにおいてエラーを作り得るため、１つより多い仮説を有することは他の可能性のある正しい語についての情報を提供し得る。認識仮説は、トップＮリストまたは格子のような様々なデータ構造において保存され得る。トップＮリストのそれぞれのエントリは認識仮説のリストであり得、当該リストは最も確率の高い仮説が表の上になるように順序付けられ得る。

’３７６出願は、格子が認識仮説をよりコンパクトなデータ構造において保存し得るとさらに記載し、格子の例は図４Ｂに示す。格子は、セグメント（またはアーク）が仮説内で認識語（または副語ユニット）に関連付けられ、当該語がノードで結合する、有向非巡回グラフであり得る。それぞれのセグメントは、当該セグメントに関連付けられる語が正しい語である確率に、関連付けられ得る。格子を通るそれぞれの経路は認識仮説に対応し得る。認識仮説内の一般的な語が単一セグメントによって表され得るため、格子はよりコンパクトな表現であり得る。例えば、認識仮説の全てが語「ｔｈｅ」で始まる場合、格子は語「ｔｈｅ」の単一セグメントで開始し得、仮説における後続語のセグメントは最初のセグメントに追随し得る。

’３７６出願に記載されるように、認識仮説（トップＮリストまたは格子に保存される）は録音の正しいトランスクリプトと、例えばレーベンシュタイン距離を使用して整合し得る。レーベンシュタイン距離は仮説内の正しい語（または副語ユニット）をトランスクリプトの正しい語（または副語ユニット）と整合させ、認識仮説内のエラーの数を決定し、そこにおいてエラーは、挿入エラー、削除エラー、または置換エラーの３つの型のうちの１つであり得る。レーベンシュタイン距離は動的プログラミングを使用して実装され得る。

’３７６出願においてさらに記載されるように、認識仮説がトランスクリプト内に存在しない語を含み、仮説内の周囲の語が正しい場合、余分な語は挿入エラーである。例えば、トランスクリプトが「ｔｈｅｓｋｙｉｓｂｌｕｅ」であり、仮説が「ｔｈｅｓｋｙｉｓｂｅｂｌｕｅ」である場合、仮説内の語「ｂｅ」は挿入エラーである。認識仮説がトランスクリプト内に存在する語を欠如し、欠如する語の周囲の語が正しいとき、欠如する語は削除エラーである。例えば、トランスクリプトが「ｔｈｅｓｋｙｉｓｂｌｕｅ」であり、仮説が「ｔｈｅｓｋｙｂｌｕｅ」である場合、仮説内の「ｉｓ」の不在は、削除エラーである。認識仮説がトランスクリプト内の語を異なる語に交換し、周囲の語が正しいとき、その交換は置換エラーである。例えば、トランスクリプトが「ｔｈｅｓｋｙｉｓｂｌｕｅ」であり、仮説が「ｔｈｅｐｉｅｉｓｂｌｕｅ」である場合、語「ｓｋｙ」の語「ｐｉｅ」との交換は置換エラーである。挿入、削除、および置換エラーは連続的に起こり得る。例えば、仮説「ｔｈｅｂｌｕｅ」は２つの削除エラーを含み、仮説「ｔｈｅｐｉｅａｓｂｌｕｅ」は２つの置換エラーを含む。置換エラーが挿入または削除エラーと連続して生じるとき、語に割り当てられるエラーの型は多様であり得る。例えば、仮説「ｔｈｅｓｉｇｈｓｂｌｕｅ」は、「ｓｋｙ」の削除および「ｓｉｇｈｓ」の「ｉｓ」に対する置換として特徴付けられ得、または、「ｉｓ」の削除および「ｓｉｇｈｓ」の「ｓｋｙ」に対する置換として特徴付けられ得る、削除エラーおよび置換エラーを含む。この状況において、１つの特徴化は恣意的に選択され得るか仮説のさらなる分析に基づき得る。

’３７６出願は、確率が、録音の正しいトランスクリプトに比較した、処理録音における副語ユニットの存在または不在に基づいて計算され得るということをさらに記載する。当該開示のさらなる態様は、言語モデルを識別的に訓練するために計算確率を使用することに関する。確率は誤ったトランスクリプトを生成するために使用され、言語モデルは誤ったトランスクリプトを正しいトランスクリプトと区別するように訓練される。

図４Ａの説明に戻り、ブロック４６０において、コンテンツ整合サービスは音響技術のいずれかまたは両方によって作り出される任意の対応語を特定し得、かかる語をそれに従ってマークする。これらの対応語はスコアも同様に割り当てられ得、実質的に図４Ａのブロック４０８に関して上述の通りである。

図４Ａに戻り、ブロック４１０において、コンテンツ整合サービスは、任意の対応語がブロック４０８においてまたは音響処理サブルーチン４５０において特定されたかどうかを決定し得る。対応語が特定されない場合、ブロック４１２において不確か領域に時間を割り当てるために決定法が適用され得る。概して記載すると、これらの決定法は、オーディオコンテンツ・アイテムおよびテキストコンテンツ・アイテムが対応しないであろう時間間隔を推定するために使用され得る。この時間間隔は多数の方法で推定され得る。一実施形態において、時間間隔は、不確か領域内の非対応語の数に少なくとも部分的に基づいて推定される。別の実施形態において、時間間隔は、不確か領域における非対応語の音節数に少なくとも部分的に基づいて推定される。さらに別の実施形態において、時間間隔は、不確か領域内の非対応語の文字数に少なくとも部分的に基づいて推定される。不確か領域内の非対応語の時間間隔を推定するためのさらに他の決定法が可能である。有利なことに、この時間間隔は、オーディオコンテンツが必ずしもテキストコンテンツに対応しない時間間隔を示すことにより、コンテンツアイテムとオーディオコンテンツ・アイテムとの同期提供を容易にするために使用され得る。オーディオコンテンツ・アイテムとテキストコンテンツ・アイテムとの同期提供は、適宜開始、停止、および再開し得る。

少なくとも１つの対応語が決定ブロック４１０において特定された場合、ブロック４１４において不確か領域は不確か副領域に分割され得る。これらの副領域は重要対応語によって区切られ得る。重要対応語は、閾値を満たす語スコアを有する語であり得、テキストコンテンツ・アイテムとテキスト・トランスクリプトおよび更新されたテキスト・トランスクリプトのうちの少なくとも１つとの間の語および時間一致でもある。これらの副領域は、テキストコンテンツ・アイテムとオーディオコンテンツ・アイテムの更新トランスクリプトとの間の不一致である１つ以上の語を含み得る。これらの副領域は、１つ以上の弱い対応語（例えば、冠詞、前置詞、代名詞、助動詞等のような短いおよび／または一般的な語を表し得る、閾値を満たさない語スコアを有する語）もまた（または代わりに）含み得る。

ブロック４１６において、コンテンツ整合サービスは、全ての不確か領域および副領域が、ブロック４１２における決定法に基づいて時間を割り当てられたか、またはブロック４１４において細分化されたかを決定し得る。そうでない場合、別の不確か領域がブロック４０４において処理のために選択され得る。全ての不確か領域が処理された場合、不確か領域ルーチン４００がブロック４１８において終了し得る。

上述のように、いくつかの実施形態において、不確か領域ルーチン４００は反復して実装される。したがって、ブロック４１４において特定される副領域は、ブロック４０４において処理のために選択され得る。これらの実施形態のうちのいくつかにおいて、副領域が処理のために４０４において選択される場合、ブロック４０８における言語モデルトランスクリプト作成は起こらない。ブロック４０８における言語モデルトランスクリプト作成は相対的に計算上コストが高いため、このアプローチは計算リソースを保護し得、および／または、コンテンツ整合の態様を実装するためにかかる時間を減らし得る。ブロック４０４において処理のために選択される副領域は、ブロック４１４においてさらに副々領域等にさらに細分化され得るということがさらに認識されるだろう。この繰り返しアプローチは全ての領域、副領域等が処理され、それぞれの語が対応語として特定される（言語モデルトランスクリプトまたは音響技術のいずれかによって）か、またはブロック４１２において決定法により時間を割り当てられるまで続き得る。

次に図５Ａを参照すると、図３Ａ、図３Ｂ、図４Ａ、および図４Ｂに示すルーチンの例証的な作動を描写する。上述のように、不確か領域がオーディオコンテンツの誤トランスクリプトの産物であるかどうか、またはテキストコンテンツがトランスクリプトされたオーディオコンテンツと異なるかどうかに関しては、不明確であり得る。例えば、不確か領域は、テキストコンテンツ・アイテムの前付の一部（例えば目次または序文）であり得、またはテキストコンテンツ・アイテムの後付の一部（例えば索引または付録）であり得る。不確か領域は、脚注、図、表、グラフなどの一部でもあり得る。にもかかわらず、不確か領域が属するテキストコンテンツのブロックは、オーディオコンテンツのブロックのトランスクリプトと共通する十分な語を有し得、図３Ａのブロック３０４に関して上述のように、２つの間の事前整合が相関測度に基づいて作られる。

トランスクリプト表５１０は、テキストコンテンツ・アイテムのコンパニオンであるオーディオコンテンツの第１のトランスクリプトの領域を表し得る。図３Ａのブロック３０２に関して上述のように、当該領域のそれぞれの語はタイムスタンプを有し得る。テキストコンテンツ表５２０は、テキストコンテンツの対応領域の語に割り当てられるタイムスタンプを表し得、図３Ａのブロック３０８に関して上述のように、当該タイムスタンプはオーディオコンテンツに割り当てられたタイムスタンプに基づき得る。例えば、表５１０内の語についてトランスクリプトが作成されるオーディオブロックは、ブロック５２０の語が属するテキストコンテンツのブロックと整合させられ得、実質的に図３Ａのブロック３０４および３０６に関して上述の通りである。

図５Ａに示すように、語「ｔｈｅｑｕｉｃｋｂｒｏｗｎｆｏｘ」はトランスクリプト表５１０およびテキストコンテンツ表５２０の両方において存在する。「ｔｈｅｑｕｉｃｋｂｒｏｗｎｆｏｘ」は、さらに、トランスクリプト表５１０およびテキスト表５２０の両方において同時に生じる。したがって、トランスクリプト表５１０内の領域５１２内の語およびテキストコンテンツ表５２０内の領域５２２は、対応語と見なされ得る。これらの対応語は、不確か領域の一部であり得る。

しかしながら、トランスクリプト表５１０に示すように、トランスクリプト内の語の全てがテキストコンテンツ内の語に対応するわけではない。トランスクリプトの領域５１４に示された語は、例えば、テキストコンテンツの領域５２４内の語との比較において不一致である。したがって、領域５２４は、不確か領域と見なされ得、上述の不確か領域ルーチン４００に関して上述のように処理され得る。不確か領域５２４は、トランスクリプトの領域５１４によって示される、類似するタイムスタンプを有する語に対応しない、いくつかの語を含む。

上述のように、オーディオコンテンツの更新されたテキスト・トランスクリプトは、不確か領域５２４の１つ以上の語から生成する言語モデルに基づいて生成され得る。図５Ｂを参照すると、更新されたテキスト・トランスクリプト表５３０は、不確か領域５２４に少なくとも部分的に基づく言語モデルを使用した、オーディオコンテンツの仮説的な更新されたテキスト・トランスクリプトを示す。上述のように、言語モデルは、テキストコンテンツ内の語に実際に対応するオーディオコンテンツ内の語がそのように正しく認識されるという確率を改善し得る。ここで、例えば、語「ｊｕｍｐｅｄｏｖｅｒ」が不確か領域５２４内に出現し、したがって言語モデル内に出現し得る。最初オーディオコンテンツにおいて「ｊｕｍｐＤｏｖｅｒ」として認識された語は、言語モデルにおいて「ｊｕｍｐｅｄｏｖｅｒ」に「ｊｕｍｐＤｏｖｅｒ」よりも高い確率が割り当てられるため、言語モデルを使用して代わりに「ｊｕｍｐｅｄｏｖｅｒ」と認識され得る。同様に、語「ａ」が不確か領域内に出現しない一方、テキストコンテンツの不確か領域５２４内に出現するため、語「ｔｈｅ」が言語モデル内に出現し得る。したがって、最初「ａ」として誤認識されたオーディオコンテンツの語は、語「ｔｈｅ」により高い確率を割り当て得る言語モデルを使用して「ｔｈｅ」として正しく認識され得る。

上述のように、いくつかの実施形態において、対応語にスコアが割り当てられ得る。対応語は、当該対応語が閾値を満たす語スコアを有する場合、重要であると考えられ得る。ここで、語「ｊｕｍｐｅｄ」は、閾値語スコアを満たす語スコアを有し得るため、重要対応語５３２であると考えられ得る。対照的に、更新されたテキスト・トランスクリプト表５３０における語「ｏｖｅｒｔｈｅ」はテキストコンテンツ表５２０内の語「ｏｖｅｒｔｈｅ」に対応し得る一方で、それらが語スコア閾値を満たす語スコアを有しない（例えば、「ｏｖｅｒ」および「ｔｈｅ」が短く一般的な語であるため）ことがあるため、これらの語は弱い対応語５３４であると考えられ得る。

さらに、更新されたテキスト・トランスクリプトは、最初誤認識された語を更新されたテキスト・トランスクリプトにおいて誤認識され続けるようにもし得る。ここでは、不一致テキスト列５３６によって示される更新されたテキスト・トランスクリプト内の語「ｈａｚｙｆｏｇ」である。しかしながら、「ｈａｚｙｆｏｇ」は言語モデルにおいて「ｈｅｙｓｅｅｆｏｇ」より高い確率を有し得（「ｈａｚｙｆｏｇ」は英語において「ｈｅｙｓｅｅｆｏｇ」よりも頻繁に出現し得るため）、よって「ｈａｚｙｆｏｇ」は更新されたテキスト・トランスクリプトにおいて「ｈｅｙｓｅｅｆｏｇ」の代わりに認識され得る。

更新されたテキスト・トランスクリプト表５３０の列５３２および５３４内の語「ｊｕｍｐｅｄｏｖｅｒｔｈｅ」が対応語（例えば、テキストコンテンツ・アイテムに対し語および時間一致である）である一方で、不一致列５３６は更新されたテキスト・トランスクリプトに残る。更新されたテキスト・トランスクリプト表５３０に示すように、更新されたテキスト・トランスクリプト内の語「ｈａｚｙｆｏｇ」は、語「ｌａｚｙｄｏｇ」を時間間隔０：０９〜０：１２の間含むテキストコンテンツの語に対応する語を含まない、列５３６を形成する。残存する不一致語を処理するために、コンテンツ整合サービスは音響技術を使用し得、実質的に図４Ｂに関して上述の通りである。

トランスクリプトまたは更新されたテキスト・トランスクリプトのいずれかの、任意の残存する不一致語を処理するために、音響技術が使用され得る。例えば、テキストコンテンツ内のおよびトランスクリプトまたは更新されたテキスト・トランスクリプト内の任意の不一致語から生成される音素列間にレーベンシュタイン距離が生成され得る。その音素列が閾値を満たすレーベンシュタイン距離を有する、同じ間隔における語は、対応語と見なされ得る。音響的に混同可能な仮説もまた任意の対応語を特定しようとするために使用され得る。

表５４０は、音響技術を使用して特定される仮説的重要対応領域５４４を示す。例えば、「ｈａｚｙｆｏｇ」は、「ｌａｚｙｄｏｇ」の音響的に混同可能な仮説であり得、したがって、オーディオコンテンツの語はテキストコンテンツ内の「ｌａｚｙｄｏｇ」に対応すると見なされ得る。あるいは、「ｈａｚｙｆｏｇ」は「ｌａｚｙｄｏｇ」と比較して相対的に低い音素列レーベンシュタイン距離を有し得、したがって、オーディオコンテンツの語はテキストコンテンツ内の「ｌａｚｙｄｏｇ」に対応すると見なされ得る。語「ｌａｚｙｄｏｇ」は相対的に一般的でないため、語「ｌａｚｙ」および「ｄｏｇ」を重要対応語にする、閾値を満たす語スコアを有し得る。弱い対応列５４２内の語「ｏｖｅｒｔｈｅ」は、図４Ａに関して上述のさらなる処理のために副領域として選択され得、または、これもまた図４Ａに関して上述の決定法によって割り当てられる時間を有し得る。もし残存する不一致語が表５４０内に存在する場合、それらは副領域として特定されさらに図４Ａのブロック４０４において最処理のために選択され得る。

対応語（テキストコンテンツ・アイテムおよびオーディオコンテンツ・アイテムのトランスクリプト内の語および時間一致である語）を特定するために使用される技術は、所望であれば並べ替えられ得るということが認識されるだろう。例証的な目的で、例証的な不確か領域処理ルーチン４００は、オーディオコンテンツの更新トランスクリプトを生成するために言語モデルを使用し、その後、当該言語モデルで更新されたトランスクリプトに基づき音響処理を使用する。しかしながら、本明細書に記載する音響処理は、本明細書で記載する言語モデル処理技術の前または同時に用いられ得るということが認識されるだろう。

上述の不確か領域処理は、どのテキストコンテンツの部分がどのオーディオコンテンツの部分に一致または対応するかをより正確に決定するために使用され得る。不確か領域処理は、トランスクリプトおよびテキストコンテンツにおける差異が、オーディオコンテンツ内の語の誤認識の産物であるか、またはオーディオコンテンツの語とテキストコンテンツの語との間の実際の差異の産物であるかどうかを決定し得る。トランスクリプトおよびテキストコンテンツにおける差異は、オーディオコンテンツの語とテキストコンテンツの語との間の実際の差異の産物であり、オーディオおよびテキストコンテンツの対応または一致部分の同期提供を容易にするためにより良い正確性で有利に特定され得る。

これらの対応部分を反映するコンテンツ同期が生成され得る。次に図６を参照すると、図３Ａ、図３Ｂ、図４Ａ、および図４Ｂにおいて生成される整合からコンテンツ同期情報を生成するための例証的なルーチン６００を示す。上述のように、コンテンツ同期情報は、オーディオコンテンツ・アイテムのトランスクリプト（または更新されたテキスト・トランスクリプト）とコンパニオンテキストコンテンツ・アイテムとの間の対応語に基づいて生成され得る。概して記載すると、コンテンツ同期情報はコンピューティングデバイスにコンテンツのコンパニオンアイテムの対応部分を同期提供させ、コンテンツのコンパニオンアイテムの不一致部分については同期提供を停止させる。このコンテンツ同期情報は、したがって、オーディオコンテンツ・アイテムの部分およびテキストコンテンツ・アイテムの対応部分の同期提供を容易にし得る。

コンテンツ同期情報がどのようにオーディオコンテンツおよびテキストコンテンツのコンパニオンアイテムの同期提供を容易にするかの一実施例において、オーディオコンテンツはテキストコンテンツにおけるユーザの進度に追随し、そのため、オーディオコンテンツ内で語られる語がテキストコンテンツ内でユーザによって読まれる語と並ぶ。コンテンツ同期情報は、ユーザコンピューティングデバイス１０２に、例えばテキストコンテンツ・アイテムの部分に対応すると示されるオーディオコンテンツ・アイテムの部分を同期提供させ得る。

コンテンツ同期情報を生成するための例証的なルーチン６００は、ブロック６０２において開始し得る。ブロック６０４において、コンテンツ整合サービスは、テキストコンテンツ・アイテムの部分を選択し得る。概して記載すると、テキストコンテンツの部分はテキストコンテンツのブロックの構成要素であり、図３Ａに関して上述の相関測度に基づいてオーディオコンテンツのブロックに整合させられ得る。ブロックは１つ以上の部分を含み、それぞれの部分は語、句、文、段落等に対応する。

テキストコンテンツの部分はテキストコンテンツのブロックにおいて多数の方法で特定し得る。語、句、または文に対応する部分は、統計言語モデル、有限文法、スペースを特定するための光学式文字認識、および他の技術のような技術を使用して特定され得る。英語および多くの他の言語に関する実施例において、語は両側のスペースによって区切られ得、句は句読点、前置詞、接続詞、語型の変化（例えば、主語から述語への変化を示す名詞から動詞）によって区切られ得、文は大文字による開始およびピリオド、感嘆符、疑問符等による終了によって区切られ得る。

段落に対応する部分はいくつかの方法で特定され得る。一実施形態において、光学的文字認識技術が段落の境界を特定するために使用される。例えば、多くの言語において、同じ段落内の語は典型的に、段落内の最後の語に到達するまで、左から右へ水平に続き、それぞれの行の最後でページの下に続く。段落内の最後の語に到達すると、次の段落の第１の語は、前の段落内の最後の語と同じ行ではなく、次の行に出現する。したがって、段落境界は、段落内の語の典型的水平進行における中断の位置を特定することによって特定され得る。他の実施形態において、メタデータ（例えば組み込みマークアップ言語）または段落境界を示すしるし（例えば段落記号、改行復帰、ＡＳＣＩＩまたはユニコードハードリターン、段落番号）が段落境界を特定するために使用される。

本明細書で記載する部分を特定するための技術は、特定の言語においてテキストがどのように進行するのかに基づき、他の言語での使用に柔軟に採用され得るということが理解されるだろう。スペイン語テキストにおいて文を特定する一実施例において、疑問文に対応する文の開始は反転した疑問符で開始し直立の疑問符で終了し得る。直立および反転疑問符はしたがって文に対応する部分の区切りを示し得る。さらに、多くの東アジア言語（例えば、中国語、日本語、および韓国語）において、テキストは右から左へおよび／または上から下へ読まれ得、一方でアラビア語およびヘブライ語において、テキストは右から左へおよびそれぞれの行の最後でページの下へ読まれ得、したがって上述の段落を特定するためのスペース化技術が準じて採用され得る。さらに、人対話型タスクシステムからの入力が、語、句、段落等に対応する部分を特定するために得られ得る。

上述のように、オーディオコンテンツのブロックがテキストコンテンツのブロックと整合し得る。これらのブロック整合に基づき、オーディオコンテンツの部分がテキストコンテンツの部分に整合し得る。実施例は例証的なものであるとわかるだろう。オーディオコンテンツのブロックは１０分間続き得る。タイムスタンプは図３Ａに関して上述のようにテキストコンテンツのブロックの語に割り当てられ得る。したがって、タイムスタンプは１つ以上の語を含むテキストコンテンツの部分に割り当てられ得る。３つの段落を含むテキストコンテンツのブロックは１０分間に及ぶオーディオコンテンツのブロックに整合し得る。テキストコンテンツのブロックの語に割り当てられるタイムスタンプに基づき、コンテンツ整合サービスは、テキストコンテンツの第１の段落は時間間隔０：００〜０：０２（分）に及ぶオーディオコンテンツの部分と比較すべきであり、テキストコンテンツの第２の段落は０：０２〜０：０６（分）に及ぶオーディオコンテンツの部分と比較すべきであり、テキストコンテンツの第３の段落は０：０６〜０：１０（分）に及ぶオーディオコンテンツの部分と比較すべきであるということを決定し得る。

ブロック６０６において、コンテンツ整合サービスは、オーディオコンテンツ・アイテム部分およびテキストコンテンツ・アイテム部分が対応するかどうかを測定し得る。いくつかの実施形態において、テキストコンテンツの部分がそれを比較するオーディオコンテンツの部分に含まれる語に対応する少なくとも閾値百分率の語を有する場合、これらの部分は対応し、テキストコンテンツのタイムスタンプ付き部分をオーディオコンテンツの部分のタイムスタンプ付きトランスクリプトと比較することによって測定され得る。この閾値百分率は５０％対応語、７０％対応語、９５％対応語、または任意の他の閾値百分率であり得る。

上述の例に戻ると、テキストコンテンツのブロックの第１の段落がオーディオコンテンツの部分に対応するかどうかを決定するために、コンテンツ整合サービスは、時間間隔０：００〜０：０２（分）に対応するテキストコンテンツのタイムスタンプ付き語を、同じ時間間隔に対応するトランスクリプトのタイムスタンプ付き語と比較し得る。少なくとも段落内の閾値百分率の語がトランスクリプト内の語に対応する場合、当該テキストコンテンツの部分および当該トランスクリプト部分が生成されたオーディオコンテンツの部分は、ブロック６１０に示すように、対応部分として特定され得る。そうでなければ、当該部分は、ブロック６０８に示すように、非対応不一致として特定され得る。

他の実施形態において、部分スコアはオーディオコンテンツの部分およびテキストコンテンツの部分が対応するかどうかを決定するために使用され得る。オーディオコンテンツの部分とテキストコンテンツの部分との間の部分スコアは、テキストコンテンツのタイムスタンプ付き部分をオーディオコンテンツ部分のタイムスタンプ付きトランスクリプトと比較し、あらゆる対応語を特定することによって計算され得る。スコアはそれぞれの個々の対応語に、実質的に図４Ａに関して上述のように、割り当てられ得る。テキストコンテンツの部分およびオーディオコンテンツのトランスクリプト部分の部分スコアが閾値を満たす場合、当該テキストコンテンツの部分は当該トランスクリプト部分が生成されたオーディオコンテンツの部分に対応すると決定され得る。

部分が対応しない場合、コンテンツ整合サービスはブロック６０８に続き得、生成されているコンテンツ同期情報において当該テキストコンテンツが当該オーディオコンテンツに対応しないとういうことを示し得る。したがって、いくつかの実施形態において、テキストコンテンツ・アイテムの不一致部分がコンテンツ同期情報を提供されるユーザコンピューティングデバイス１０２上に提供される一方、オーディオコンテンツはユーザコンピューティングデバイス１０２によって提供されない。コンテンツ整合サービスはその後直接ブロック６１２に続き得る。

テキストコンテンツ・アイテムの部分がオーディオコンテンツ・アイテムの部分に対応する場合、コンテンツ整合サービスはブロック６１０に続き得、生成されているコンテンツ同期情報において当該部分が対応するということを示し得る。したがって、いくつかの実施形態において、テキストコンテンツ・アイテムの部分がコンテンツ同期情報を提供されるユーザコンピューティングデバイス１０２上に提供される一方、当該テキストコンテンツに対応するオーディオコンテンツはユーザコンピューティングデバイス１０２によって同期提供される。コンテンツ整合サービスはその後直接ブロック６１２に続き得る。

ブロック６１２において、コンテンツ整合サービスは全てのテキストコンテンツの部分がコンテンツ同期情報を生成する目的のために処理されたかどうかを決定し得る。そうでなければ、コンテンツ整合サービスはブロック６０４に戻る。一方で、全てのテキストコンテンツの部分が処理された場合、コンテンツ同期情報生成ルーチン６００はブロック６１４において終了する。

したがって、生成コンテンツ同期情報は、テキストコンテンツ・アイテムの、１つ、いくつか、または全ての部分がオーディオコンテンツの部分に対応するかどうかを示す情報を含み得る。この生成コンテンツ同期情報は、オーディオコンテンツおよびテキストコンテンツの一致部分の同期提供を容易にするために使用され得る。同期提供が不一致部分について無効になり得る一方で、対応部分は同期提供され得る。

例証的なルーチン６００が対応部分および非対応部分を特定するにつれ、例証的なルーチン６００は、オーディオおよびテキストコンテンツのコンパニオンアイテムの、それぞれの対応部分および非対応部分のそれぞれのコンテンツのコンパニオンアイテムにおける提供位置もまた決定し得る。それぞれのコンテンツのコンパニオンアイテムにおける提供位置は、語位置、時間位置、または他のメトリクスによって、本明細書において図７および図８に関してさらに記載するように、測定され得る。

コンテンツのコンパニオンアイテムの対応部分および非対応部分の提供位置に基づき、例証的なルーチン６００がテキストコンテンツ・アイテム内の前付および後付を特定するために使用され得るということが認識されるだろう。例えば、オーディオコンテンツの対応部分が示される第１のテキストコンテンツの部分の前に生じる全てのテキストコンテンツの部分またはブロック（例えばテキストコンテンツ・アイテムにおける提供位置がテキストコンテンツの第１の対応部分の前であるもの）は、前付と見なされ得る。前付はオーディオコンテンツにおいて語られない、目次、序文、題字、プロローグ、解説、献題、著作権表示、米国議会図書化情報または他の文献情報等を含み得る。同様に、オーディオコンテンツの対応部分が示される最後のテキストコンテンツの部分の後に入る全てのテキストコンテンツの部分またはブロックは、後付と見なされ得、オーディオコンテンツ内で語られない、付録、索引、後書、用語集、用語索引、解説、エピローグ等を含み得る。

上述のように、例証的なルーチン６００の間に生成されたコンテンツ同期情報は、オーディオコンテンツおよびテキストコンテンツのコンパニオンアイテムの同期提供を容易にするために使用され得る。図７を参照すると、コンテンツ同期情報を使用しコンパニオンコンテンツを同期提供するための例証的なルーチン７００のフロー図が描写される。

ブロック７０２にて、ユーザコンピューティングデバイス１０２のようなコンピューティングデバイスは、コンパニオンテキストコンテンツおよびオーディオコンテンツに対応するコンテンツ同期情報を取得し得る。コンテンツ同期情報は、例えば、コンテンツ同期情報を生成するように構成される、コンテンツ整合サーバ１１０から得られ得る。あるいはまたはさらに、コンテンツ同期情報は、コンテンツ同期情報を生成するように構成されるユーザコンピューティングデバイス１０２によって得られ得る。コンテンツ同期情報を生成するための例証的なルーチン６００は図６に関して上述する。

前に記載したように、コンテンツ同期情報は、オーディオコンテンツを含むコンテンツアイテムにおける位置に対応するテキストコンテンツ・アイテムにおける位置に関する情報（例えば、電子書籍内のページおよび行、ならびにオーディオブックの再生位置）、同期提供に関する追加の情報（例えばオーディオブックの再生に対応する電子書籍の部分をマーカー、下線等するための情報）、対応するもしくは対応しない、あるいはそれらの組み合わせの、テキストコンテンツおよびオーディオコンテンツの部分を特定する情報を含み得る。

テキストコンテンツおよびオーディオコンテンツの提供位置は様々なメトリクスのうちの任意のもので測定され得、その具体的で非制限的な例は図８に示す。例えば、提供位置は、タイムスタンプ表８１０および語表８２０に示すように、テキストコンテンツの語および／またはトランスクリプト部分に割り当てられるタイムスタンプに基づき、時間基準でおよび／または語単位基準で測定され得る。別の実施形態において、提供位置は文字単位基準で、文字表８３０に示すように測定される。さらに別の実施形態において、提供位置は音節単位基準で、音節表８４０に示すように測定される。提供位置を測定するためのさらに他のメトリクスが可能である。

図７に戻り、ブロック７０４において、テキストコンテンツが提供され得る。テキストコンテンツは視覚的に（例えばスクリーン上のテキストとして）もしくは触覚的に（例えば、機械的震動によっておよび／または点字を提供することによって）またはそれらの組み合わせを含む、いくつかの方法で提供され得るということが理解されるはずである。上述のように、テキストコンテンツ・アイテムは、電子書籍、定期刊行物、台本、歌詞等のようなテキスト、またはそれらのブロックもしくは部分を含む、任意の電子コンテンツアイテムであり得る。ブロック７０４における提供はテキストコンテンツ・アイテムにおける任意の語から開始し得る。

ブロック７０６において、例証的なルーチン７００はブロック７０４において提供を開始したテキストコンテンツの語を、オーディオコンテンツの語と同期するかどうかを決定し得る。具体的には、例証的なルーチン７００は、ブロック７０４において提供を開始した語がオーディオコンテンツの部分に対応するテキストコンテンツ・アイテムの部分に属するかどうかを決定し得る。そうでなければ、当該テキストコンテンツ・アイテムの提供位置は、テキストコンテンツ・アイテムがオーディオコンテンツの同期提供を伴わずに提供されるため、ブロック７１２において更新され得る。

ブロック７０４において提供が開始した語が、オーディオコンテンツの部分に対応するテキストコンテンツ・アイテムの部分に属する場合、オーディオコンテンツの対応部分はブロック７０８において当該同期語から開始して提供され得る。いくつかの実施形態において、オーディオコンテンツはテキストコンテンツと、例えばユーザコンピューティングデバイス１０２と通信し得るスピーカーまたはヘッドフォンを介して可聴出力を生成することによって同期提供される。オーディオコンテンツが提供されるに従い、その（図８に関して上述のタイムスタンプまたは他のメトリクスによって測定され得る）提供位置はブロック７１０において更新され得る。テキストコンテンツの提供位置は、同様にブロック７１２においても更新され得る。特定の実施例において、これは、オーディオブックの再生がブロック７１２において、表示されているページに関連するテキストを越えてまたは表示されているページに関連するテキストの最後まで先行するとき、ブロック７１０において電子書籍のページをめくることを含み得る。いくつかの実施形態において、オーディオコンテンツの提供位置は、前述のように、例えばコンテンツ同期情報およびテキストコンテンツの提供位置に基づいて、連続的に更新される。

ブロック７１４において、例証的なルーチン７００は、テキストコンテンツがまだ提供されているかどうかを決定し得る。そうであれば、例証的なルーチン７００はブロック７０４に戻り得、ブロック７１２において決定した更新位置からテキストコンテンツを提供し得る。例証的なルーチン７００はブロック７０６において、更新位置にてテキストコンテンツに対応するオーディオコンテンツが存在するかどうか等を決定し得る。テキストコンテンツがもはや提供されていない（例えばユーザコンピューティングデバイス１０２のユーザがユーザコンピューティングデバイス１０２の電源を切り得る、またはコンテンツを提供するために使用するアプリケーションを閉じ得る）場合、例証的なルーチンはブロック７１６にて終了し得る。

図９Ａ、図９Ｂ、および図９Ｃを参照すると、電子書籍および対応オーディオブックのような、コンパニオンコンテンツを同期提供するユーザコンピューティングデバイス１０２の実施例が例証される。同一参照番号が類似または同一な要素を指す、図９Ａ、図９Ｂ、および図９Ｃに例証するように、ユーザコンピューティングデバイス１０２は電子書籍のテキストを画面９００上に視覚的に提供し得る。ユーザコンピューティングデバイス１０２は、聴覚的にもまたコンパニオンオーディオブックを同時に、スピーカーまたはヘッドフォンに提供され得る１つ以上のスピーカー９０２および／または１つ以上のオーディオ出力を介して提供し得る。コンテンツ同期情報は、オーディオブックコンテンツおよび視覚電子書籍コンテンツの両方を同期提供しそれらの提供位置を更新するために使用され得る。これは、例えば、図７に描写する例証的なルーチン７００を参照して記載する特徴の任意の組み合わせを含み得る。

さらに、ユーザコンピューティングデバイス１０２は、目印９０６もまた提供し得、電子書籍の視覚提供の範囲内の電子書籍コンテンツの視覚提供に対するオーディオブックコンテンツの提供位置を示し得る。例えば、画面９００を使用して提供される電子書籍のテキストは、スピーカー９０２を介して提供されるオーディオブックの再生位置を示すように改良され得る。この点に関して、テキストはマーカー、下線、および／または異なるフォント（例えば異なる色、大きさ、型、効果等を使用して）で提供され得る。個々の語、行、文、および／または他のテキスト単位がオーディオ再生位置を示すために改良され得る。オーディオブックの再生が、提供されている電子書籍のページの最後に到達すると、コンテンツ同期情報を使用して電子書籍の次のページが自動的に表示され得る。

いくつかの実施形態において、ユーザは画面９００上に提供される電子書籍のページの任意の語または語群を選択し得、オーディオブックにおける対応点にて再生を開始し得る。あるいはまたはさらに、ユーザはオーディオブックにおける時間において任意の時点に移動し電子書籍の対応ページがユーザコンピューティングデバイス１０２によって表示され得、および／またはユーザは電子書籍の任意の位置に移動しオーディオブックの再生がオーディオブックにおける対応点にて開始し得る。

ユーザコンピューティングデバイス１０２は検索およびブックマーク機能の支持もまたし得、オーディオブックおよび電子書籍の両方の同期提供を維持し得る。ユーザコンピューティングデバイス１０２はオーディオおよびテキスト提供位置の両方を観測し得るため、ユーザはテキスト画面とオーディオ再生との間を切り替え、コンテンツのもう一方の形態の消費を最後の位置から再開し得る。

図９Ａを具体的に参照すると、提供されているテキストコンテンツは前付９０８を含み得る。上述のように、前付はオーディオコンテンツ内で頻繁には語られず、したがって上述の技術によって不確か領域として特定され得る。したがって、前付９０８に不一致の部分はコンテンツ同期情報において示され得る（例えば、前付９０８はあらゆるオーディオコンテンツの部分に対応しないことがある）。したがって、オーディオコンテンツ９０４は、オーディオコンテンツの部分に対応すると示されるテキストコンテンツの部分に属するテキストコンテンツの第１の語に対応する提供位置から開始して提供され得る。ここで、例えば、前付９０８の語、「トムソーヤの冒険：第１章」はオーディオコンテンツ９０４内で語られる可能性が低い。しかしながら、テキストコンテンツの第１の語はオーディオコンテンツ９０４の部分「トム！」に対応するテキストコンテンツの部分に属する。したがって、同期オーディオコンテンツ９０４が提供される際、部分「トム！」は目印９０６によってマークされ得る。

具体的に図９Ｂを参照すると、表示されているテキストコンテンツは脚注９１０を含み得る。どのオーディオコンテンツの部分も脚注９１０に対応しない可能性が高くあり得、例えば、脚注は、不確か領域ルーチン４００に従い脚注を処理した後でもなお、テキストコンテンツ・アイテム内で不確かまたは不一致領域として特定されていることがある。したがって、脚注９１０の不一致部分はコンテンツ同期情報において示され得る。したがって、オーディオ９０４は目印９０６によって示されるようにテキストコンテンツと同期提供され、テキストコンテンツの次のページへの自動ページめくりが、オーディオコンテンツ９０４の対応部分の最後の語が提供される際に起こり得る。このように、同期提供は維持され得、よって例えば不一致脚注９１０が提供される間オーディオコンテンツの次の部分は提供されない。あるいは、当該ページのオーディオコンテンツの最後の対応部分が提供された後にオーディオコンテンツの提供は停止し、オーディオコンテンツの部分に対応するテキストコンテンツの部分が提供される時（例えば、ユーザがテキストコンテンツの対応部分が存在するページに移動した後）に再開し得る。

具体的に図９Ｃを参照すると、同期提供したオーディオコンテンツ９１２は目印９０６によってマークされたテキストコンテンツに正確に一致している必要はない。上述のように、少なくとも閾値百分率の対応語がオーディオコンテンツの部分およびテキストコンテンツの部分において存在する場合、オーディオコンテンツの部分はテキストコンテンツの部分に対応すると見なされ得る。対応スコア閾値もまた所望であれば設定され得る。例えば、語「Ｗｈａｔ’ｓｇｏｎｅｗｉｔｈｔｈａｔｂｏｙ」は、「Ｗｈａｔ’ｓｇｏｎｅｗｉｔｈｔｈａｔｂｏｙ」がオーディオコンテンツ９１２において提供される際、目印９０６によって連続的にマーカーされ得る。テキストコンテンツ内の語「Ｉｗｏｎｄｅｒ？」はオーディオコンテンツ９１２内に存在しないため、目印９０６は即時的に語「ＹｏｕＴＯＭ！」に飛び移り得る。あらゆる介在する語もまた随意でマーカーされるか別の方法で目印９０６によって示され得る。

コンテンツのコンパニオンアイテムはユーザコンピューティングデバイス１０２上で、購入、ストリーミング、借用、借出し、賃貸借、永久賃貸借、一時賃貸借、または別の方法でコンテンツのコンパニオンアイテムへの一時的もしくは永久的アクセスを得ることのような、様々な方法で獲得し保存され得る。１つの具体的な実施例において、ユーザは電子書籍およびオーディオブックの両方をネットワーク系の小売コンテンツプロバイダから購入し得る。別の具体的な実施例において、ユーザはオーディオブックを借りて、当該オーディオブックをユーザが購入した電子書籍と同期提供し得る。別の具体的な実施例において、ユーザはオーディオブックを賃借し、当該オーディオブックを借用した電子書籍と同期提供し得る。

本明細書内の開示がコンテンツの同期提供の実施例を例証的な目的で記載する一方で、本明細書に記載する原理および利点はコンテンツを同期する他の方法に適用され得る。本明細書に記載する特徴の任意の組み合わせは、適切であればコンテンツ同期の他の形態に適用され得る。例えば、コンテンツ同期情報はオーディオコンテンツとテキストコンテンツとを提供する間を前後に切り換えるために使用され得る。より具体的には、いくつかの実施形態において、コンピューティングデバイスは、電子書籍のテキストを表示し、コンテンツ同期情報を使用して対応位置にてオーディオブックのオーディオを再生するように切り換え得る。別の実施例として、本明細書に記載する原理および利点は、コンパニオンコンテンツの同期提供の文脈外の異なるコンピューティングデバイス上のコンパニオンコンテンツを同期するために使用され得る。例えば、本明細書に記載する特徴の任意の組み合わせが、２０１１年３月２３日出願の米国特許出願第１３／０７０，３１３号、表題「ＳＹＮＣＨＲＯＮＩＺＩＮＧＤＩＧＩＴＡＬＣＯＮＴＥＮＴ」（本明細書で以下’３１３出願）、および２００８年１１月１８日出願の米国特許出願第１２／２７３，４７３号、表題「ＳＹＮＣＨＲＯＮＩＺＡＴＩＯＮＯＦＤＩＧＩＴＡＬＣＯＮＴＥＮＴ」（本明細書で以下’４７３出願）に記載される、異なるコンピューティングデバイス上のコンテンツを同期する実施例のうちのいずれかに適応され得、これらの出願は上記で参照によりそれらの全体が以前に組み込まれた。例えば、’３１３および’４７３出願において記載されるように、同期情報は、コンテンツ発信デバイスの提供に関する、参照点、トラッキング点に従って定義され得、デバイス上のコンテンツの提供の現在状況（例えば読まれた最後のページ）および／またはコンテンツの提供の間得られた追加の情報（例えば、注釈、ブックマーク、マーカー、タグ、抜粋等）を含み得る。あるいはまたはさらに、同期情報は同期事象の決定に基づき異なるデバイス間で共有され得る。同期事象は、デバイスに関連する１つ以上の入力（例えば、電源レベル、無線通信ネットワーク強度、動作センサ、タイマー、ヘッドフォン／スピーカーの起動等）に基づいて決定され得る。別の態様において、同期事象はユーザによって、提供されているコンテンツに関する情報を同期させるために発される、表現される命令／要求（例えば、「私が最後に読んだページを記録」）に対応し得る。同期事象の決定を構成するために、携帯電話のようなデバイスは、ユーザが、同期事象を決定するため、または同期事象を確立するための閾値を確立するため、または両方のために、観測するべきデバイスデータの具体的な型を特定することを可能にするためのインターフェースを生成し得る。

上述の方法および処理の全てが、１つ以上の一般的目的のコンピュータまたは処理装置によって実施されるソフトウェアコードモジュールにおいて実施され、それによって完全に自動化され得る。当該コードモジュールは任意の型の非一時的コンピュータ読み取り可能メディアまたは他のコンピュータ記憶デバイスにおいて保存され得る。当該方法のいくつかまたは全ては、代替的に、特殊化コンピュータハードウェアにおいて実施され得る。

とりわけ、「ｃａｎ」、「ｃｏｕｌｄ」、「ｍｉｇｈｔ」、または「ｍａｙ」のような仮定的な言語は、明確にそれに反する記載がない限り、その場合以外に、ある特徴、要素、および／または工程を他の実施形態が含まない一方で、ある実施形態は含むということを表すことが、一般的に使用される文脈の範囲内で理解される。したがって、かかる仮定的言語は概して、特徴、要素、および／もしくは工程が何らかの形で１つ以上の実施形態のために要求されるということ、またはその１つ以上の実施形態が、ユーザ入力または指示を伴ってもしくは伴わずに、これらの特徴、要素、および／もしくは工程が含まれるかどうか、またはそれらが任意の特定の実施形態において実施されるべきかどうかを決定するための論理を必ず含むということを暗示することを意図するものではない。

「少なくともＸ、Ｙ、およびＺのうちの１つ」のような連語は、明確にそれに反する記載がない限り、その場合以外に、アイテム、用語などが、Ｘ、Ｙ、もしくはＺのいずれか、またはそれらの組み合わせであり得るということが、一般的に使用される文脈で理解される。したがって、かかる連語は概して、ある実施形態が、少なくとも１つのＸ、少なくとも１つのＹ、および少なくとも１つのＺが、それぞれ存在することを要求することを暗示することを意図するものではない。

あらゆるルーチンの記載、本明細書に記載するおよび／または添付の図に描写する、フロー図における要素またはブロックは、特定の論理機能または要素をルーチンにおいて実装するための１つ以上の実行可能な命令を含むモジュール、セグメント、またはコードの部分を潜在的に表すものとして理解されるべきである。代替の実装は本明細書に記載する実施形態の範囲内に含まれ、当業者に理解され得る通りに含まれる機能性に依存し、要素または機能が削除される、または、実質的同期もしくは逆順を含み、示したもしくは記載した順序に反して実施され得る。

多数の変形および修正が上述の実施形態について作られ得、それらの要素は他の容認可能な実施例の間にあるもとして理解されるべきであることが強調されるべきである。全てのかかる修正および変形は、本明細書に本開示の範囲内で含まれ、以下の付記および請求項によって保護されることを意図する。

本開示の様々な実施形態例は、以下の付記に関して記載され得る。

付記１システムであって、
電子データストアであって、
オーディオブックと、
前記オーディオブックのコンパニオンである電子書籍と、を保存するように構成される電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
前記オーディオブックのテキスト・トランスクリプトを生成し、
前記テキスト・トランスクリプトと比較して、前記電子書籍内の不確か領域を特定し、
前記不確か領域に事前整合した前記オーディオブックの領域を特定し、
更新されたテキスト・トランスクリプトを生成するために前記オーディオブックの前記領域に言語モデルを適用し、
前記更新されたテキスト・トランスクリプトの部分が前記不確か領域を含む前記電子書籍の部分に実質的に対応するということを決定し、かつ
コンテンツ同期情報が前記不確か領域を含む前記電子書籍の前記部分および前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成された前記オーディオブックの部分の同期提供を容易にする、コンテンツ同期情報を生成するように構成されるコンピューティングデバイスと、
を備えるシステム。

付記２前記コンピューティングデバイスが、別個のコンピューティングデバイスに前記コンテンツ同期情報を提供するようにさらに構成される、付記１に記載のシステム。

付記３前記コンピューティングデバイスが、前記不確か領域を含む前記電子書籍の前記部分および前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成される前記オーディオブックの前記部分を同期提供するようにさらに構成される、付記１に記載のシステム。

付記４前記言語モデルが前記不確か領域の１つ以上の語に少なくとも部分的に基づく、付記１に記載のシステム。

付記５コンピュータ実装方法であって、
具体的なコンピュータ実行可能命令で構成される１つ以上のコンピューティングデバイスによって実装され、
テキストコンテンツ・アイテム内の不確か領域を特定することと、
前記不確か領域に事前整合したオーディオコンテンツのコンパニオンアイテムの領域を特定することと、
前記オーディオコンテンツ・アイテムの前記領域のテキスト・トランスクリプトを生成することと、
前記テキスト・トランスクリプトの部分が、前記不確か領域が属する前記テキストコンテンツ・アイテムの部分に実質的に対応することを決定することと、
前記テキストコンテンツ・アイテムの前記部分および前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成された前記オーディオコンテンツ・アイテムの部分の提供を同期するための、コンテンツ同期情報を生成することと、を含む、コンピュータ実装方法。

付記６前記テキスト・トランスクリプトの前記部分が、閾値を満たす部分スコアを有する場合、前記テキストコンテンツ・アイテムの前記部分に実質的に対応する、付記５に記載のコンピュータ実装方法。

付記７前記テキスト・トランスクリプトの前記部分の少なくとも閾値百分率の語が前記テキストコンテンツ・アイテムの前記部分の語に対応する場合、前記テキスト・トランスクリプトの前記部分が、前記テキストコンテンツ・アイテムの前記部分に実質的に対応する、付記５に記載のコンピュータ実装方法。

付記８前記テキスト・トランスクリプトの前記部分の語が前記テキストコンテンツ・アイテムの前記部分の語に実質的に一致し経時的に対応する場合、前記テキスト・トランスクリプトの前記部分の前記語が前記テキストコンテンツ・アイテムの前記部分の前記語に対応する、付記７に記載のコンピュータ実装方法。

付記９付記５に記載のコンピュータ実装方法であって、
前記テキスト・トランスクリプトが少なくとも部分的に言語モデルに基づいて生成され、
前記言語モデルが前記不確か領域に属する１つ以上の語に少なくとも部分的に基づく、コンピュータ実装方法。

付記１０前記テキストコンテンツ・アイテムの前記不確か領域が、前記不確か領域を前記オーディオコンテンツ・アイテムの最初のトランスクリプトと比較することによって少なくとも部分的に基づいて特定される、付記５に記載のコンピュータ実装方法。

付記１１オーディオコンテンツ・アイテムのテキストコンテンツのコンパニオンアイテムに対する提供を同期するためのシステムであって、
コンテンツ同期情報を保存するように構成される電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
前記オーディオコンテンツ・アイテムのテキスト・トランスクリプトと比較して、テキストコンテンツの前記コンパニオンアイテムにおいて、１つ以上の語を含む前記不確か領域を特定し、
前記不確か領域に事前整合する、１つ以上の語を含む前記テキスト・トランスクリプトの領域を特定し、
前記不確か領域の前記１つ以上の語を第１の音素列に変換し、
前記テキスト・トランスクリプトの前記領域の前記１つ以上の語を第２の音素列に変換し、かつ
前記第１の音素列が前記第２の音素列に実質的に対応する場合、テキストコンテンツの前記コンパニオンアイテム内の前記不確か領域の前記１つ以上の語および前記テキスト・トランスクリプトの前記領域が生成された前記オーディオコンテンツ・アイテムの前記１つ以上の語の同期提供を容易にするコンテンツ同期情報を生成するように構成される、コンピューティングデバイスと、を含む、システム。

付記１２前記第１の音素列が前記第２の音素列から閾値レーベンシュタイン距離内である場合、前記第１の音素列が前記第２の音素列に実質的に対応する、付記１１に記載のシステム。

付記１３前記コンピューティングデバイスが前記第１の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第１の音素列の前記音響的に混同可能な仮説が前記第２の音素列に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、付記１１に記載のシステム。

付記１４前記コンピューティングデバイスが、前記第２の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第２の音素列の前記音響的に混同可能な仮説が前記第１の音素列に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、付記１１に記載のシステム。

付記１５前記コンピューティングデバイスが、前記第１の音素列の第１の音響的に混同可能な仮説および前記第２の音素列の第２の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第１の音響的に混同可能な仮説が前記第２の音響的に混同可能な仮説に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、付記１１に記載のシステム。

付記１６コンピュータ実行可能モジュールを有する非一時的コンピュータ読み取り可能メディアであって、前記コンピュータ実行可能モジュールが、
テキストコンテンツ・アイテム内の１つ以上の語を含む不確か領域を特定し、
前記不確か領域と事前整合する前記オーディオコンテンツ・アイテムの領域を特定し、
前記オーディオコンテンツ・アイテムの前記領域の、１つ以上の語を含むテキスト・トランスクリプトを生成し、
前記不確か領域の前記１つ以上の語が前記オーディオコンテンツ・アイテムの前記事前整合領域の前記テキスト・トランスクリプトの前記１つ以上の語に実質的に対応するかどうかを決定し、かつ
前記不確か領域の前記１つ以上の語がオーディオコンテンツの前記事前整合領域の更新されたテキスト・トランスクリプトの前記１つ以上の語に実質的に対応する場合、コンテンツ同期情報を生成するように構成され、
そこにおいて前記コンテンツ同期情報が前記テキストコンテンツ・アイテム内の前記不確か領域および前記オーディオコンテンツ・アイテムの前記事前整合領域の同期提供を容易にする、非一時的コンピュータ読み取り可能メディア。

付記１７前記言語モデルが前記不確か領域の前記１つ以上の語に少なくとも部分的に基づく、付記１６に記載の非一時的コンピュータ読み取り可能メディア。

付記１８前記コンピュータ実行可能モジュールが、
前記不確か領域の前記１つ以上の語が前記オーディオコンテンツ・アイテムの前記領域の前記テキスト・トランスクリプトの前記１つ以上の語に実質的に対応しない場合、
前記不確か領域の前記１つ以上の語を第１の音素列に変換し、
前記更新されたテキスト・トランスクリプトの前記１つ以上の語を第２の音素列に変換し、
前記第１の音素列が前記第２の音素列に実質的に対応するかどうかを決定し、かつ
前記第１の音素列が前記第２の音素列に実質的に対応する場合、コンテンツ同期情報を生成するようにさらに構成され、
前記コンテンツ同期情報が前記不確か領域および前記オーディオコンテンツ・アイテムの前記事前整合領域の前記同期提供を容易にする、付記１６に記載の非一時的コンピュータ読み取り可能メディア。

付記１９前記第１の音素列が前記第２の音素列から閾値レーベンシュタイン距離内である場合、前記第１の音素列が前記第２の音素列に実質的に対応する、付記１８に記載の非一時的コンピュータ読み取り可能メディア。

付記２０前記コンピュータ実行可能モジュールが前記第１の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第１の音素列の前記音響的に混同可能な仮説が前記第２の音素列に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、付記１８に記載の非一時的コンピュータ読み取り可能メディア。

付記２１前記コンピュータ実行可能モジュールが前記第２の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第２の音素列の前記音響的に混同可能な仮説が前記第１の音素列に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、付記１８に記載の非一時的コンピュータ読み取り可能メディア。

付記２２付記１８に記載の非一時的コンピュータ読み取り可能メディアであって、
前記コンピュータ実行可能モジュールが、前記第１の音素列の第１の音響的に混同可能な仮説および前記第２の音素列の第２の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第１の音響的に混同可能な仮説が前記第２の音響的に混同可能な仮説に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、非一時的コンピュータ読み取り可能メディア。

付記２３コンピュータ実装方法であって、
具体的なコンピュータ実行可能命令で構成される１つ以上のコンピューティングデバイスによって実装され、
テキストコンテンツ・アイテム内の不確か領域を特定することと、
前記不確か領域と事前整合する前記オーディオコンテンツ・アイテムの領域を特定することと、
前記オーディオコンテンツ・アイテムの前記領域のテキスト・トランスクリプトを生成することと、
前記テキスト・トランスクリプトおよび前記テキストコンテンツ・アイテムの両方において出現する重要対応語を特定することと、
前記テキストコンテンツ・アイテムおよび前記オーディオコンテンツ・アイテムの両方における重要対応語の同期提供を容易にするコンテンツ同期情報を生成することと、を含む、コンピュータ実装方法。

付記２４前記不確か領域が、少なくとも閾値数の語を含む、付記２３に記載のコンピュータ実装方法。

付記２５前記重要対応語が閾値を満たす語スコアを有する、付記２３に記載のコンピュータ実装方法。

付記２６前記重要対応語の前記語スコアが、
前記重要対応語に含まれる文字の数、
前記重要対応語に含まれる１つ以上の文字の頻度、
前記重要対応語に含まれる音節の数、のうちの少なくとも１つに、少なくとも部分的に基づく、付記２５に記載のコンピュータ実装方法。

付記２７付記２３に記載のコンピュータ実装方法であって、前記テキストコンテンツ・アイテムの第１の語列と前記テキスト・トランスクリプトの第２の語列との間の実質的音響類似性を特定することと、
前記第１の語列に対応する前記オーディオコンテンツ・アイテムの副領域を特定することと、をさらに含み、
前記第１の語列が、実質的に前記テキストコンテンツ・アイテム内の前記不確か領域内において生じ、
前記コンテンツ同期情報が前記テキストコンテンツ・アイテム内の前記第１の語列および前記オーディオコンテンツ・アイテムの前記対応副領域の同期提供をさらに容易にする、付記２３に記載のコンピュータ実装方法。

付記２８前記第１の語列も前記第２の語列も前記重要対応語を含まない、付記２７に記載のコンピュータ実装方法。

付記２９前記第１の語列が少なくとも閾値数の語を含む、付記２７に記載のコンピュータ実装方法。

付記３０コンテンツを整合させるためのシステムであって、
電子データストアであって、
複数の段落を含む電子書籍および前記電子書籍のコンパニオンであるオーディオブックを保存するように構成された電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
前記オーディオブックに音声テキスト認識ルーチンを適用することによって前記オーディオブックのテキスト・トランスクリプトを生成し、
前記電子書籍の少なくとも１つの段落に対応する前記テキスト・トランスクリプトの部分を特定し、
前記少なくとも１つの段落および前記テキスト・トランスクリプトの前記対応部分が生成された前記オーディオブックの部分の同期提供を容易にするコンテンツ同期情報を生成するように構成されたコンピューティングデバイスと、を含む、システム。

付記３１前記少なくとも１つの段落が本体テキスト段落である、付記３０に記載のシステム。

付記３２前記コンピューティングデバイスが、別個のコンピューティングデバイスに前記コンテンツ同期情報を提供するようにさらに構成される、付記３０に記載のシステム。

付記３３前記コンピューティングデバイスが、前記少なくとも１つの段落および前記テキスト・トランスクリプトの前記対応部分が生成された前記オーディオブックの前記部分を同期提供するようにさらに構成された、付記３０に記載のシステム。

付記３４コンテンツを整合させるためのコンピュータ実装方法であって、
具体的なコンピュータ実行可能命令で構成される１つ以上のコンピューティングデバイスによって実装され、
オーディオコンテンツを含むコンテンツアイテムのテキスト・トランスクリプトを得ることと、
テキストコンテンツのコンパニオンアイテムの複数の本体テキスト部分を特定することと、
少なくとも１つの本体テキスト部分に対応する前記テキスト・トランスクリプトの部分を特定することと、
前記少なくとも１つの本体テキスト部分および前記テキスト・トランスクリプトの前記部分に対応する前記オーディオコンテンツの部分の同期提供を容易にするコンテンツ同期情報を生成することと、を含む、コンピュータ実装方法。

付記３５前記テキスト・トランスクリプトを得ることが、前記オーディオコンテンツから前記テキスト・トランスクリプトを生成することを含む、付記３４に記載のコンピュータ実装方法。

付記３６前記複数の本体テキスト部分を特定することが、
前記テキスト・トランスクリプトと比較してテキストコンテンツの前記コンパニオンアイテムのそれぞれのブロックについて相関測度を計算することを含み、それぞれのブロックがテキストコンテンツの前記コンパニオンアイテムの１つ以上の部分を含み、
その部分が属する前記ブロックについての前記相関測度が閾値を満たす場合、テキストコンテンツの前記コンパニオンアイテムの部分が本体テキスト部分として特定される、付記３４に記載のコンピュータ実装方法。

付記３７前記複数の本体テキスト部分を特定することが、
テキストコンテンツの前記コンパニオンアイテム内のあらゆる前付部分を特定することと、
テキストコンテンツの前記コンパニオンアイテム内のあらゆる後付部分を特定することと、を含み、
前付部分でなくかつ後付部分でないテキストコンテンツの前記コンパニオンアイテムの全ての部分が本体テキスト部分として特定される、付記３４に記載のコンピュータ実装方法。

付記３８前記複数の本体テキスト部分のそれぞれの本体テキスト部分が少なくとも１つの語、句、文、段落、およびセリフを含む、付記３４に記載のコンピュータ実装方法。

付記３９テキストコンテンツの前記コンパニオンアイテムが電子書籍である、付記３４に記載のコンピュータ実装方法。

付記４０オーディオコンテンツを含む前記コンテンツアイテムがオーディオブックである、付記３４に記載のコンピュータ実装方法。

付記４１オーディオコンテンツを含む前記コンテンツアイテムがビデオコンテンツをさらに含む、付記３４に記載のコンピュータ実装方法。

付記４２コンテンツを整合させるためのシステムであって、
電子データストアであって、
オーディオコンテンツを含むコンテンツアイテムのトランスクリプトと、
テキストコンテンツのコンパニオンアイテムと、を保存するように構成された電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
テキストコンテンツの前記コンパニオンアイテムにおける少なくとも１つの本体テキスト部分を特定し、
トランスクリプトにおいて、前記少なくとも１つの本体テキスト部分に実質的に対応する前記トランスクリプトの部分を特定し、かつ
前記少なくとも１つの本体テキスト部分および前記トランスクリプトの前記特定部分に対応するオーディオコンテンツの部分の同期提供を容易にするコンテンツ同期情報を生成するように構成される、コンピューティングデバイスと、を含む、システム。

付記４３前記少なくとも１つの本体テキスト部分が、テキストコンテンツの前記コンパニオンアイテム内のメタデータに少なくとも部分的に基づいて特定される、付記４２に記載のシステム。

付記４４前記少なくとも１つの本体テキスト部分が、人対話型タスクシステムから受信した入力に少なくとも部分的に基づいて特定される、付記４２に記載のシステム。

付記４５前記少なくとも１つの本体テキスト部分が少なくとも１つの語、文、または段落を含む、付記４２に記載のシステム。

付記４６前記トランスクリプトの前記部分の少なくとも閾値百分率の語が前記少なくとも１つの本体テキスト部分の語に対応する場合、前記トランスクリプトの前記部分が前記本体テキスト部分に実質的に対応する、付記４２に記載のシステム。

付記４７前記トランスクリプトの前記部分の語が前記本体テキスト部分の語に実質的に一致し経時的に対応する場合、前記トランスクリプトの前記部分の前記語が前記本体テキスト部分の前記語に対応する、付記４６に記載のシステム。

付記４８コンピュータ実行可能モジュールを有する非一時的コンピュータ読み取り可能メディアであって、前記コンピュータ実行可能モジュールが、
コンテンツ整合モジュールであって、
テキストコンテンツ・アイテム内の１つ以上の語を選択し、
コンテンツのコンパニオンアイテムにおいて、前記１つ以上の語の第１の語が可聴的に提供される第１のタイムスタンプを特定し、かつ
コンピューティングデバイスが前記第１のタイムスタンプから開始するコンテンツの前記コンパニオンアイテムを前記選択した１つ以上の語が前記コンピューティングデバイスによって提供される際に提供するようにする命令を含むコンテンツ同期情報を生成するように構成された、コンテンツ整合モジュールを含む、非一時的コンピュータ読み取り可能メディア。

付記４９前記１つ以上の語が本体テキスト段落に含まれる、付記４８に記載の非一時的コンピュータ読み取り可能メディア。

付記５０前記本体テキスト段落が前記テキストコンテンツ・アイテムにおいてあらゆる他の本体テキスト段落の前に生じる、付記４９に記載の非一時的コンピュータ読み取り可能メディア。

付記５１前記テキストコンテンツ・アイテムが電子書籍である、付記４８に記載の非一時的コンピュータ読み取り可能メディア。

付記５２コンテンツの前記コンパニオンアイテムがオーディオブックである、付記４８に記載の非一時的コンピュータ読み取り可能メディア。

付記５３付記４８に記載の非一時的コンピュータ読み取り可能メディアであって、
前記コンテンツ整合モジュールが、コンテンツの前記コンパニオンアイテムにおいて、前記１つ以上の語の最後の語が可聴的に提供される第２のタイムスタンプを特定するようにさらに構成され、
前記コンテンツ同期情報が、コンテンツの前記コンパニオンアイテムにおいて前記第２のタイムスタンプに到達したとき、前記コンピューティングデバイスがコンテンツの前記コンパニオンアイテムの提供を停止するようにする命令をさらに含む、非一時的コンピュータ読み取り可能メディア。

付記５４付記５３に記載の非一時的コンピュータ読み取り可能メディアであって、
前記コンテンツ整合モジュールが、
前記テキストコンテンツ・アイテム内の別の１つ以上の語を選択し、かつ
コンテンツの前記コンパニオンアイテムにおいて、前記別の１つ以上の他の語の第１の語が可聴的に提供される第３のタイムスタンプを特定するようにさらに構成され、
前記コンテンツ同期情報が、コンピューティングデバイスが前記第３のタイムスタンプから開始するコンテンツの前記コンパニオンアイテムを、別の１つ以上の新しい語が前記コンピューティングデバイスによって提供される際に提供するようにする命令をさらに含む、非一時的コンピュータ読み取り可能メディア。

Claims

オーディオコンテンツ・アイテムおよび前記オーディオコンテンツ・アイテムのコンパニオンであるテキストコンテンツ・アイテムを保存するように構成された電子データストアと、
前記電子データストアと通信するコンピューティングデバイスと、
を具えるシステムであって、
前記コンピューティングデバイスは、
前記オーディオコンテンツ・アイテムのテキスト・トランスクリプトを生成し、
前記テキスト・トランスクリプトと比較して、前記テキストコンテンツ・アイテムにおける不確か領域を特定し、
前記不確か領域と事前整合する前記オーディオコンテンツ・アイテムの領域を特定し、
更新されたテキスト・トランスクリプトを生成するために前記オーディオコンテンツ・アイテムの前記領域に言語モデルを適用し、
前記更新されたテキスト・トランスクリプトの部分が前記不確か領域を含む前記テキストコンテンツ・アイテムの部分に実質的に対応することを決定し、
コンテンツ同期情報を生成する、
ように構成され、
前記コンテンツ同期情報は、前記不確か領域を含む前記テキストコンテンツ・アイテムの前記部分と、前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成された前記オーディオコンテンツ・アイテムの部分と、の同期提供を容易にする、
システム。
前記コンピューティングデバイスは、別個のコンピューティングデバイスに前記コンテンツ同期情報を提供するようにさらに構成される、
請求項１に記載のシステム。
前記コンピューティングデバイスは、前記不確か領域を含む前記テキストコンテンツ・アイテムの前記部分と、前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成された前記オーディオコンテンツ・アイテムの前記部分と、を同期提供するようにさらに構成される、
請求項１に記載のシステム。
前記言語モデルは、前記不確か領域の１つ以上の語に少なくとも部分的に基づく、
請求項１に記載のシステム。
オーディオコンテンツ・アイテムのテキストコンテンツのコンパニオンアイテムに対する提供を同期するためのシステムであって、
コンテンツ同期情報を保存するように構成される電子データストアと、
前記電子データストアと通信するコンピューティングデバイスと、
を具え、
前記コンピューティングデバイスは、
前記オーディオコンテンツ・アイテムのテキスト・トランスクリプトと比較して、テキストコンテンツの前記コンパニオンアイテムにおいて、１つ以上の語を含む不確か領域を特定し、
前記不確か領域に事前整合する、１つ以上の語を含む前記テキスト・トランスクリプトの領域を特定し、
前記不確か領域の前記１つ以上の語を第１の音素列に変換し、
前記テキスト・トランスクリプトの前記領域の前記１つ以上の語を第２の音素列に変換し、
前記第１の音素列が前記第２の音素列に実質的に対応する場合、テキストコンテンツの前記コンパニオンアイテム内の前記不確か領域の前記１つ以上の語と、前記テキスト・トランスクリプトの前記領域が生成された前記オーディオコンテンツ・アイテムの前記１つ以上の語と、の同期提供を容易にするコンテンツ同期情報を生成するように構成される、
システム。
前記第１の音素列が前記第２の音素列から閾値レーベンシュタイン距離内である場合、前記第１の音素列が前記第２の音素列に実質的に対応する、
請求項５に記載のシステム。
前記コンピューティングデバイスは、前記第１の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第１の音素列の前記音響的に混同可能な仮説が前記第２の音素列に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、
請求項５に記載のシステム。
前記コンピューティングデバイスは、前記第２の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第２の音素列の前記音響的に混同可能な仮説が前記第１の音素列に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、
請求項５に記載のシステム。
前記コンピューティングデバイスは、前記第１の音素列の第１の音響的に混同可能な仮説および前記第２の音素列の第２の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第１の音響的に混同可能な仮説が前記第２の音響的に混同可能な仮説に少なくとも実質的に類似する場合、前記第１の音素列が前記第２の音素列に実質的に対応する、
請求項５に記載のシステム。
コンテンツを整合させるためのシステムであって、
オーディオコンテンツを含むコンテンツアイテムのトランスクリプトおよびテキストコンテンツのコンパニオンアイテムを保存するように構成された電子データストアと、
前記電子データストアと通信するコンピューティングデバイスと、
を具え、
前記コンピューティングデバイスは、
テキストコンテンツの前記コンパニオンアイテム内の少なくとも１つの本体テキスト部分を特定し、
前記トランスクリプトにおいて、前記少なくとも１つの本体テキスト部分に実質的に対応する前記トランスクリプトの部分を特定し、
前記少なくとも１つの本体テキスト部分と、前記トランスクリプトの前記特定部分に対応するオーディオコンテンツの部分と、の同期提供を容易にするコンテンツ同期情報を生成するように構成される、
システム。
前記少なくとも１つの本体テキスト部分は、テキストコンテンツの前記コンパニオンアイテム内のメタデータに少なくとも部分的に基づいて特定される、
請求項１０に記載のシステム。
前記トランスクリプトの前記部分の少なくとも閾値百分率の語が前記少なくとも１つの本体テキスト部分の語に対応する場合、前記トランスクリプトの前記部分が前記本体テキスト部分に実質的に対応する、
請求項１０に記載のシステム。
前記トランスクリプトの前記部分の語が前記本体テキスト部分の語に実質的に一致し経時的に対応する場合、前記トランスクリプトの前記部分の前記語が前記本体テキスト部分の前記語に対応する、
請求項１０に記載のシステム。
コンテンツを整合させるためのコンピュータ実装方法であって、
具体的なコンピュータ実行可能命令で構成される１つ以上のコンピューティングデバイスによって実装され、前記方法は、
オーディオコンテンツを含むコンテンツアイテムのテキスト・トランスクリプトを得るステップと、
テキストコンテンツのコンパニオンアイテムの複数の本体テキスト部分を特定するステップと、
少なくとも１つの本体テキスト部分に対応する前記テキスト・トランスクリプトの部分を特定するステップと、
前記少なくとも１つの本体テキスト部分と、前記テキスト・トランスクリプトの前記部分に対応する前記オーディオコンテンツの部分と、の同期提供を容易にするコンテンツ同期情報を生成するステップと、
を含む方法。
前記複数の本体テキスト部分を特定するステップは、
テキストコンテンツの前記コンパニオンアイテム内のあらゆる前付部分を特定するステップと、
テキストコンテンツの前記コンパニオンアイテム内のあらゆる後付部分を特定するステップと、
を含み、
前付部分でなくかつ後付部分でないテキストコンテンツの前記コンパニオンアイテムの全ての部分は、本体テキスト部分として特定される、
請求項１４に記載のコンピュータ実装方法。