JP2015531915A - 対応メディアコンテンツ部分の整合 - Google Patents

対応メディアコンテンツ部分の整合 Download PDF

Info

Publication number
JP2015531915A
JP2015531915A JP2015525558A JP2015525558A JP2015531915A JP 2015531915 A JP2015531915 A JP 2015531915A JP 2015525558 A JP2015525558 A JP 2015525558A JP 2015525558 A JP2015525558 A JP 2015525558A JP 2015531915 A JP2015531915 A JP 2015531915A
Authority
JP
Japan
Prior art keywords
content
text
transcript
words
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015525558A
Other languages
English (en)
Other versions
JP6099746B2 (ja
Inventor
シー. ジック スティーヴン
シー. ジック スティーヴン
エイ. ストーリー ジュニア ガイ
エイ. ストーリー ジュニア ガイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audible Inc
Original Assignee
Audible Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audible Inc filed Critical Audible Inc
Publication of JP2015531915A publication Critical patent/JP2015531915A/ja
Application granted granted Critical
Publication of JP6099746B2 publication Critical patent/JP6099746B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

コンテンツ整合サービスは、オーディオコンテンツとテキストコンテンツとの同期提供を容易にするために、コンテンツ同期情報を生成し得る。いくつかの実施形態において、オーディオコンテンツに対する対応部が不確かであるテキストコンテンツの領域は、テキストコンテンツの当該領域が当該オーディオコンテンツ内で可聴的に提供される1つ以上の語に対応するかどうか、または、テキストコンテンツの当該領域が当該オーディオコンテンツと比較して不一致であるかどうかを決定するために分析され得る。いくつかの実施形態において、当該テキストコンテンツ内の不一致語が同期提供を維持するために飛ばされ得る一方で、当該オーディオコンテンツ内の語に対応する当該テキストコンテンツにおける語は同期提供される。したがって、1つの適用例において、オーディオブックは電子書籍と同期し、それにより電子書籍が表示されるに伴いオーディオブックの対応語が可聴的に提供される。

Description

概して記載すると、ユーザコンピューティングデバイスは、オーディオブック、電子書籍、歌、ビデオ、テレビ番組、コンピュータおよびビデオゲーム、マルチメディアコンテンツ等のような、コンテンツアイテムの再生や表示を容易にし得る。例えば、電子書籍リーダコンピューティングデバイス(「eリーダ」)は、スクリーン上に電子書籍を表示し得、および/または、スピーカーもしくはヘッドフォンを通してオーディオブックを再生し得る。
いくつかの例において、ユーザは同時に複数のコンテンツアイテムを消費することに関心をもち得る。例えば、ユーザは、「トムソーヤの冒険」などの同じタイトルのオーディオブックを聞いている間に、電子書籍を読みたいと思うことがあるだろう。電子書籍およびオーディオブック(またはより一般的に、同じコンテンツタイトルに関する2つ以上のコンテンツアイテムのあらゆる群)は、コンテンツの「コンパニオン」アイテムと称され得る。
しかしながら、現在の多くのアプローチにおいて、ユーザはコンテンツの2つのコンパニオンアイテムを、オーディオブックで語られる語が、ユーザが電子書籍で読んでいるものに対応するように、手動で整合させなければならない。例えば、ユーザは、オーディオブックにおいて対になる部分を有さない電子書籍の部分の間、オーディオブックを手動で一時停止することが必須であると気付くだろう。同様に、ユーザは、電子書籍において対になる部分を有さないオーディオブック部分の間、オーディオブックを手動で早送りすることが必須であると思うだろう。この仕組みはユーザのいら立ちや不便性を示し得る。
前述の様態および付随する利点の多くは、それらが、添付する図と合わせて以下の詳細な説明を参照してよりよく理解されるに従い、より容易に理解されるようになり得、図面は以下の通りである。
コンテンツ整合サービスが作動し得る例証的なネットワーク環境を描写する、概略ブロック図である。 例証的なコンテンツ整合サーバを描写する、概略ブロック図である。 オーディオコンテンツとテキストコンテンツのコンパニオンアイテムを処理するための例証的なルーチンを描写する、フロー図である。 オーディオコンテンツとテキストコンテンツのコンパニオンアイテムを処理するための例証的なルーチンを描写する、フロー図である。 テキストコンテンツの不確か領域、例えばオーディオコンテンツのコンパニオンアイテム内に対になる部分を有しないかもしれないテキストコンテンツの領域、を処理するための例証的なルーチンを描写する、フロー図である。 テキストコンテンツの不確か領域、例えばオーディオコンテンツのコンパニオンアイテム内に対になる部分を有しないかもしれないテキストコンテンツの領域、を処理するための例証的なルーチンを描写する、フロー図である。 図4Aおよび図4Bのフロー図に従い処理されている例証的な不確か領域を描写する、表図である。 図4Aおよび図4Bのフロー図に従い処理されている例証的な不確か領域を描写する、表図である。 オーディオコンテンツおよびテキストコンテンツのコンパニオンアイテムの同期情報を生成するための例証的なルーチンを描写する、フロー図である。 図6において生成するコンテンツ同期情報を使用してコンテンツのコンパニオンアイテムを同期提供するための例証的なルーチンを描写する、フロー図である。 コンテンツのコンパニオンアイテムの同期提供の提供位置を測定するための例証的なメトリクスを描写する、表図である。 コンテンツのコンパニオンアイテムを同期提供する、例証的なコンピューティングデバイスの絵図である。 コンテンツのコンパニオンアイテムを同期提供する、例証的なコンピューティングデバイスの絵図である。 コンテンツのコンパニオンアイテムを同期提供する、例証的なコンピューティングデバイスの絵図である。
概して記載すると、本開示の態様は、テキストコンテンツ(電子書籍等)のコンパニオンアイテムを有するオーディオコンテンツ(オーディオブック等)を含む、コンテンツアイテムの同期提供を容易にすることに関する。したがって、例えばオーディオコンテンツ内に対になる部分を有さない例えばテキストコンテンツの部分の位置を特定するために、コンテンツのコンパニオンアイテムを分析し得る、コンテンツ整合サービスを開示する。これらの不一致部分は本明細書において「不確か領域」と称され得る。コンテンツ整合サービスにより不確か領域上でさらなる処理が実施され得、トランスクリプトがエラーを含むのかどうか、または語が実際にオーディオコンテンツとテキストコンテンツとの間で異なるのかどうかを決定する。上述に基づき、コンテンツ整合サービスは、前付、後付、脚注、図、表、グラフ等のような、必ずしも語られたり別の方法でオーディオブックにおいて可聴的に提供されたりしない、オーディオブックに対応しない電子書籍の部分を特定し得るということが理解されるだろう。特定されると、オーディオブックにおいて対応しない電子書籍の部分は、コンテンツのコンパニオンアイテムの同期提供を容易にするため、無視され得る(例えば飛ばされる)。例えば、ユーザが新しい電子書籍を読み始めると、電子書籍の前付は無視され得、電子書籍およびコンパニオンオーディオブックの同期提供が、第1章の第1の単語で開始し得る。別の例では、不一致の脚注が提供される間オーディオコンテンツの部分が提供されないため、同期提供は維持され得る。あるいは、オーディオブックの提供はそのページが提供される電子書籍の最後の対応部分の後で停止し、オーディオブック部分に対応する電子書籍の部分が提供されると(例えば、ユーザがオーディオブック部分に対応する電子書籍の部分が存在するページへ移動した後)再開し得る。
一実施形態において、不確か領域を特定するために、コンテンツ整合サービスはオーディオコンテンツ(例えばオーディオブック)を含むコンテンツアイテムのテキスト・トランスクリプトを得ることがあり得、その後オーディオコンテンツのテキスト・トランスクリプトを、テキストコンテンツを含むコンテンツアイテム(例えば電子書籍)と比較し得る。テキスト・トランスクリプトは、既存トランスクリプトを得ることまたは音声テキスト認識技術を使用して生成することのいずれかによって得られ得る。トランスクリプトは、特定の語が話される、歌われる、叫ばれる、または別の方法でオーディオコンテンツにおいて提供される時間間隔を表す、オーディオコンテンツにおいて認識される語のそれぞれのタイムスタンプを含み得る。さらに、オーディオコンテンツのテキスト・トランスクリプトは、ブロックに分割され得、オーディオコンテンツを含む比較的大きい分割のコンテンツアイテムに対応し得る。例えば、オーディオブックブロックはオーディオブックの1つ以上の章に対応し得、または、オーディオブックにおける45分間もしくは1時間のような時間間隔に対応し得る。
それぞれのトランスクリプトのブロックは、オーディオコンテンツを含む当該コンテンツアイテムのコンパニオンであるテキストコンテンツ・アイテムブロックと整合され得る。このブロック単位の整合は、ブロック間の類似性を測定し得る相関測度に基づき得る。テキストコンテンツのブロックとトランスクリプトのブロックとの間の相関測度は、例えば、当該2つのブロック間の、共通する語の百分率または語の分布の類似性に基づいて計算し得る。相関測度が閾値を満たす場合、テキストコンテンツのブロックは、事前にテキストコンテンツのブロックに整合し得る。タイムスタンプは、テキストコンテンツのブロック内のテキストコンテンツの語に、オーディオコンテンツのブロックのトランスクリプトにおける対応タイムスタンプ付き語に基づいて、割り当てられ得る。前付および後付はオーディオコンテンツ・アイテム内に恐らく存在しない可能性が高く、したがってトランスクリプト内にも存在しない可能性が高いため、本相関測度はテキストコンテンツ・アイテム内の本体テキストを特定するためにもまた使用され得る。
テキストコンテンツのそれぞれのブロックは、語、句、文、段落、セリフ等のような1つ以上の部分を含み得る。句、文、段落、またはセリフは、1つの語または1つより多い語を含み得る。しかしながら、テキストコンテンツの部分の全てがオーディオコンテンツに存在し得るわけではない。例えば、図、表、脚注、注釈、解説、傍注、前付、後付等に対応するテキストコンテンツの部分は、テキストコンテンツのブロック内に存在し得る。しかしながら、かかる部分は、オーディオコンテンツ内には存在しないことがある。特定の非制限的実施例において、オーディオブックは電子書籍の本体テキスト部分の語りを含み得るが、当該電子書籍のあらゆる脚注についていかなる語りも含まないことがある。
したがって、コンテンツ整合サービスは、オーディオコンテンツ内に対になる部分を有さないテキストコンテンツの部分の位置を特定するために、事前に整合したコンテンツアイテムを分析し得る。一実施形態において、コンテンツ整合サービスは、トランスクリプトブロックを、語単位基準で事前に整合したテキストコンテンツのブロックと比較する。上述のように、トランスクリプトブロック内のそれぞれの語は、時間間隔に対応するタイムスタンプを割り当てられ得る。トランスクリプトブロックにおける語への割り当てに基づき、整合テキストコンテンツ内のそれぞれの語も同様に、時間間隔に対応するタイムスタンプを割り当てられ得る。したがって、コンテンツ整合サービスは、所与の時間間隔におけるトランスクリプトブロック内のタイムスタンプ付き語に対応しないテキストコンテンツ内の任意のタイムスタンプ付き語または一連の語を特定し得る。これらの非対応語または一連の語は、本明細書において「不確か領域」と称されることがある。
不確か領域は、トランスクリプトにおけるオーディオコンテンツの誤認識または誤トランスクリプトの産物であり得、または、オーディオコンテンツとテキストコンテンツとの間の差異の産物であり得る。コンテンツ整合サービスにより不確か領域上でさらなる処理が実施され得、トランスクリプトがエラーを含むのかどうか、または語が実際にオーディオコンテンツとテキストコンテンツとの間で異なるのかどうかを決定する。
一実施形態において、コンテンツ整合サービスは不確か領域内に存在するテキストコンテンツの任意の語から言語モデルを生成し得る。不確か領域に対応するオーディオコンテンツの間隔は、テキストコンテンツの語から生成する言語モデルを組み込む音声テキストルーチンを使用してテキストに変換し得る。不確か領域内のオーディオコンテンツのこの再トランスクリプトまたは更新トランスクリプトは、テキストコンテンツ・アイテムとオーディオコンテンツ・アイテムのトランスクリプトとの間のより高い語対応をもたらし得る。コンテンツ整合サービスは、任意の可能性のある残存する対応語を、トランスクリプトにおける任意の残存する語について音響的に混同可能な仮説を生成し、当該音響的に混同可能な仮説およびテキストコンテンツ内のタイムスタンプ付き語かどうかを決定すること等により音響技術を使用して特定しようとし得る。コンテンツ整合サービスは、この処理を再帰的に繰り返し、可能な限り多くの対応語を特定し得る。
このさらなる処理に基づき、コンテンツ整合サービスは、どのテキストコンテンツの部分(例えば、語、文、段落等)がオーディオコンテンツの部分に対応するか、およびどのテキストコンテンツの部分がオーディオコンテンツに対応しないかを決定し得る。一実施形態において、コンテンツ整合サービスは、それぞれの段落を、段落が属するブロックの相関測度に基づきそれと時間内に整合するオーディオコンテンツのトランスクリプトと比較し得る。当該段落が、オーディオコンテンツのトランスクリプトの一部と比較して少なくとも閾値百分率の対応語を有する場合、段落は、当該トランスクリプト部分が生成されたオーディオコンテンツの当該部分との比較における対応部分と見なされ得る。対応語の閾値百分率は所望のように設定され得るが、いくつかの実施形態において、閾値百分率は、約50%、約70%、または約95%である。あるいは、対応語である語の頻度を反映する部分スコアが生成され得る。部分スコアが閾値を満たす場合、当該段落はオーディオコンテンツの部分に対応すると見なされ得る。
上述に基づき、コンテンツ整合サービスは、前付、後付、脚注、図、表、グラフ等のような、オーディオブックにおいてめったに語られない、オーディオブック内に対になる部分または一致を有さない電子書籍の部分を特定し得る。かかるテキストコンテンツの部分は、オーディオコンテンツ内に対応部分を欠如する可能性が高く、したがって、あらゆるオーディオコンテンツの部分と比較して対応語の閾値百分率を満たさない可能性が高いことがある。したがって、オーディオコンテンツとテキストコンテンツとの同期提供は、オーディオコンテンツ内に対応部分を有さないテキストコンテンツの部分を無視することにより維持し得る。かかるテキストコンテンツの部分は飛ばされ得(例えば電子書籍における自動ページめくりによって)、またはオーディオコンテンツの提供はテキストコンテンツの不一致部分が提供される間一時停止し得る。同期提供を維持するさらに他の方法が可能である。
コンテンツのコンパニオンアイテムのコンピューティングデバイスによる同期提供を容易にするために、どのテキストコンテンツの部分がどのオーディオコンテンツの部分に対応するかを反映するコンテンツ同期情報がコンテンツ整合サービスによって生成され得る。コンピューティングデバイスはコンテンツ同期情報を得るまたは生成し得、コンテンツ同期情報によって提供される命令に従ってテキストコンテンツとオーディオコンテンツとを同期提供する。これらの命令は、例えば、オーディオコンテンツ内に存在しないテキストコンテンツの部分を飛ばす(例えば電子書籍における自動ページめくりによって)命令、または、テキストコンテンツの不一致部分が提供される間オーディオコンテンツの提供を一時停止もしくは停止する命令を含み得る。同期提供を維持するためにコンピューティングデバイスに命令するさらに他の方法が可能である。
コンテンツ同期情報は、オーディオコンテンツの対応部分に対するテキストコンテンツの基準点マッピング部分をさらに含み得る。特定の実施例において、コンテンツ同期情報は、対応オーディオコンテンツ・アイテムのタイムスタンプに対し、テキストコンテンツの部分(例えば、語、行、文、段落等)をマップ化するために使用し得るデータを含み得る。コンテンツ同期情報は、提供の相対的進行またはコンテンツのデジタル表現の提供状況に関する情報もまた含み得る。コンパニオンコンテンツの同期提供は、当該デバイスの性能および/もしくは構成(例えば携帯電子書籍リーダ対携帯電話)ならびに/またはコンパニオンコンテンツペアにおけるコンテンツの形式(例えばデジタル出版物およびオーディオ録音対ビデオおよびオーディオ録音)に応じて多様であり得る。したがって、コンテンツ同期情報は、様々な形式、版等で生成し得る。
さらに、コンテンツ同期情報は、コンテンツを同期するために使用する特徴またはデータの任意の組み合わせを含み得る。1人のユーザに関連する複数のユーザコンピューティングデバイス上の再生の同期のような、コンテンツ同期のさらなる特徴は、2011年3月23日出願の米国特許出願第13/070,313号、表題「SYNCHRONIZING DIGITAL CONTENT」および2008年11月18日出願の米国特許出願第12/273,473号、表題「SYNCHRONIZATION OF DIGITAL CONTENT」に記載される。これらの出願の両方は参照によりそれらの全体が本明細書に組み込まれる。
コンテンツ整合サービスの1つの例の適用において、オーディオブック部分は電子書籍の本体テキスト部分と比較し得る。電子書籍の本体テキスト部分は、当該本体テキスト部分と比較して約50%、約70%、または約95%の対応語を有するオーディオブックのトランスクリプト部分に対応すると見なされ得る。あるいは、所望であれば部分スコア閾値もまた設定し得、当該部分スコアが当該閾値を満たす場合、トランスクリプトが生成されたオーディオブックの部分は、電子書籍の部分に対応すると見なされ得る。本体テキスト部分ではなく、オーディオブック内の部分に対応しない電子書籍の部分(例えば、オーディオブックにおいてめったに語られない、前付、後付、脚注、図、表、グラフ等)は、同期提供を容易にするために飛ばされたり無視されたりし得る。かかる電子書籍の部分は飛ばされ得(例えば電子書籍における自動ページめくりによって)、または、オーディオブックの提供は電子の不一致部分が提供される間一時停止または停止し得る。
同期提供の、特定の非制限的実施例において、ユーザは、電子書籍の対応テキストを見ている間「トムソーヤの冒険」のオーディオブックを聞き得、テキストはオーディオブックの再生に対応するため、マーカー、下線、または別の方法で強調され得る。同期提供経験は、例えば、オーディオブック再生と同期する自動ページめくり、および/または、検索結果位置で開始する後続同期提供を伴い、1つの形式の検索結果を他方の形式の提供位置と整合させることもまた含み得る。電子書籍の不一致部分は、例えば、表示される非対応部分のテキストをマーカーしない、下線しない、もしくは他の方法で強調しないことによって、または、表示ページ上の全ての対応部分が既にマーカー、下線、または他の方法で強調されている場合は自動的にページをめくることによって、飛ばされたり無視されたりし得る。
コンテンツ整合サービスが多くの異なる型のコンテンツ上で作動し得るということが理解されるだろう。概して記載すると、コンテンツは、直接的または間接的にユーザによってアクセスされ得るあらゆるデータを指し得、オーディオブック、電子書籍、歌、ビデオ、テレビ番組、コンピュータおよびビデオゲーム、マルチメディアコンテンツ、デジタル画像、デジタルビデオ、表示可能テキスト、オーディオデータ、電子ドキュメント、コンピュータ実行可能コード、上記のブロックもしくは部分等を含むが、これらに限らない。したがって、「テキストコンテンツ・アイテム」は、概してテキストを含むあらゆる電子コンテンツアイテムを指し得る。同様に、「オーディオコンテンツ・アイテム」は、概してオーディオコンテンツを含むあらゆる電子コンテンツアイテムを指し得る。
図1を参照すると、例証的なネットワーク環境100が示される。ネットワーク環境100は、ユーザコンピューティングデバイス102、ネットワーク106、人対話型タスクシステム108、コンテンツ整合サーバ110、およびコンテンツデータストア112を含み得る。ネットワーク環境100の構成要素は、局所的にまたはネットワーク106をわたって相互に通信し得る。
ユーザコンピューティングデバイス102は、ネットワーク106をわたって通信することが可能である任意のコンピューティングデバイスであり得、例えば、ノートパソコンまたはタブレットコンピュータ、パソコン、携帯情報端末(PDA)、ハイブリッドPDA/携帯電話、携帯電話、電子書籍リーダ、セットトップボックス、カメラ、オーディオブックプレーヤー、デジタルメディアプレーヤー、ゲーム機、店舗内のキオスク、テレビ、1つ以上の処理装置、コンピューティングデバイスに含むための統合コンポーネント、電化製品、乗物または機械に含むための電子デバイス、ゲーム用デバイス等であり得る。ユーザコンピューティングデバイス102は、概してコンテンツをユーザコンピューティングデバイス102のユーザに提供することが可能であり得る。例えば、ユーザコンピューティングデバイス102は、可聴出力をスピーカー、ヘッドフォン等を通して通過させることにより、オーディオコンテンツを再生することが可能であり得る。ユーザコンピューティングデバイス102は、テキストコンテンツ、グラフィックコンテンツ、またはビデオコンテンツを表示画面上に表示することもまた可能であり得る。いくつかの実施形態において、ユーザコンピューティングデバイス102は、テキストコンテンツと関連するオーディオまたはビデオコンテンツとを同期提供するようにもまた構成し得る。ユーザコンピューティングデバイス102は、例えば、コンテンツ整合サーバ110からコンテンツ同期情報を要求するために、ネットワーク106をわたって通信することもまた可能であり得る。いくつかの実施形態において、ユーザコンピューティングデバイス102は、コンテンツ同期情報ならびに電子書籍およびオーディオブックのようなコンテンツアイテムを保存するための非一時的コンピュータ読み取り可能メディア記憶装置を含み得る。
ネットワーク106は、任意の、有線ネットワーク、無線ネットワーク、またはそれらの組み合わせであり得る。さらに、ネットワーク106は、パーソナルエリアネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、ケーブルネットワーク、衛星ネットワーク、携帯電話ネットワーク、またはそれらの組み合わせであり得る。インターネットまたはあらゆる他の上述の通信ネットワークの型を介する通信のプロトコルおよびコンポーネントはコンピュータ通信の当業者に公知であり、したがって本明細書でより詳細に記載する必要はない。
人対話型タスクシステム108は、コンテンツ整合サーバ110を援助するためにネットワーク環境に含まれ得る。概して記載すると、人対話型タスクシステム108は、人対話型タスク(HIT)を電子的に処理する、コンピュータ化したシステムである。HITは、難しい、時間がかかる、またはコンピューティングデバイスが実施するには高価なタスクであることがある。しかしながら、人がHITを実施することが相対的に容易で速いことがある。したがって、人対話型タスクシステム108は、人作業者が、例えば情報を収集したり質問に回答したりするための、HITを実施すること、ならびに、その結果または回答を人対話型タスクシステム108に、さらなる処理および/または要求者への提供のために返すことを要求し得る。したがって、いくつかの実施形態において、コンテンツ整合サービスは、人対話型タスクシステム108の人作業者に向けてコンテンツアイテムに関する1つ以上の質問を提示するように、人対話型タスクシステム108に指示する。例えば、人作業者は、オーディオコンテンツ・アイテムのトランスクリプトをテキストコンテンツ・アイテムと比較する、または、文もしくは段落のようなテキストコンテンツ・アイテムにおける部分境界を特定するように求められ得る。人間の作業者は、前付、後付、脚注、図、表、グラフ、およびテキストコンテンツ・アイテム内の本体テキストを特定または分類するようにもまた求められ得る。人対話型タスクシステム108は、これらの質問に対する回答を受け取り、それらをユーザコンピューティングデバイス102またはコンテンツ整合サーバ110に送信し、コンテンツ整合サービスの作動を誘導する。人対話型タスクシステム108の人作業者は、これらおよび他のタスクに対応したり、コンテンツアイテムに関する他の情報をコンテンツ整合サーバ110に通信したりすることを自ら進んで行い得る。
コンテンツ整合サーバ110は、コンテンツ整合サービスを実装するために様々なタスクを実行し得るコンピューティングデバイスである。例えば、コンテンツ整合サーバ110は、オーディオコンテンツ・アイテム(例えばオーディオブック)およびテキストコンテンツ・アイテム(例えば電子書籍)を整合させ、そこから同期情報を生成し得る。この同期情報は、コンテンツ整合サーバ110によって、ユーザコンピューティングデバイス102に、ネットワーク106を通じて提供され得る。コンテンツ整合サーバ110のさらなる作動は、図2に関してさらに詳細に記載する。
コンテンツ整合サーバ110は、コンテンツデータストア112と通信し得る。コンテンツデータストアは、オーディオコンテンツ・アイテム(例えばオーディオブック)、テキストコンテンツ・アイテム(例えば電子書籍)、または他のコンテンツアイテムのような、1つ以上のコンテンツアイテムを保存し得る。コンテンツデータストアは、コンテンツ整合サーバ110によって生成したまたは得た、同期情報を保存するようにもまた構成し得る。コンテンツデータストア112は、ハードディスクドライブ、固体記憶装置、および/またはコンテンツ整合サーバ110に遠隔的もしくは局所的にアクセス可能な任意の他の型の非一時的コンピュータ読み取り可能記憶メディアにおいて、具現化され得る。コンテンツデータストア112は、複数の記憶デバイスにわたって、当業者に公知のように、本開示の精神および範囲から逸脱することなく、分布または分配し得る。
ユーザコンピューティングデバイス102およびコンテンツ整合サーバ110は、それぞれ複数のコンポーネントにおいて具現化され得、それぞれコンテンツユーザコンピューティングデバイス102およびコンテンツ整合サーバ110のそれぞれのインスタンスを実行する。サーバまたはユーザコンピューティングデバイス102およびコンテンツ整合サーバ110を実装する他のコンピューティングシステムは、ネットワークインターフェース、メモリ、処理ユニット、およびコンピュータ読み取り可能メディアドライブを含み得、それらの全ては、相互に通信バスを使用して通信し得る。さらに、処理ユニットは、それ自身がコンピューティングデバイスと称され得る。ネットワークインターフェースは、ネットワーク106および/または他のネットワークもしくはコンピュータシステムを通じた接続性を提供し得る。処理ユニットは、ユーザコンピューティングデバイス102およびコンテンツ整合サーバ110を操作するために、処理ユニットが実行するプログラム命令を含むメモリにおよび当該メモリから通信し得る。当該メモリは概して、RAM、ROM、ならびに/または他の持続性および/もしくは補助的非一時性コンピュータ読み取り可能記憶メディアを含む。
本明細書に記載するデバイスの多くは随意であり、環境100の実施形態はデバイスを組み合わせても組み合わせなくてもよいということが認識されるだろう。さらに、デバイスは個別または離散的である必要はない。デバイスは、環境100において再編成もまたし得る。例えば、コンテンツ整合サーバ110は、単一の物理的サーバで表れ得るか、あるいは、複数の物理的サーバに分割され得る。コンテンツ整合サービスの全体は、単一のユーザコンピューティングデバイス102でもまた表れ得る。
さらに、いくつかの実施形態において、コンテンツ整合サービスは、ホストコンピューティング環境内に実装される1つ以上の仮想マシンによって実行される。ホストコンピューティング環境は、1つ以上の迅速にプロビジョニングおよびリリースされたコンピューティングリソースを含み得、当該コンピューティングリソースは、コンピューティング、ネットワーク、および/または記憶デバイスを含み得る。ホストコンピューティング環境は、クラウドコンピューティング環境ともまた称され得る。
図2は、図1に示すコンテンツ整合サーバ110の、模式図である。コンテンツ整合サーバ110は、コンテンツ整合サービスを実装するために使用し得るコンピュータハードウェアおよびソフトウェアコンポーネントの配置列を含む。図2は、図1に例証するコンテンツ整合サーバ110の概略的アーキテクチャを描写する。当業者は、コンテンツ整合サーバ110が、図2に示す物に比べより多くの(またはより少ない)コンポーネントを有し得るということを理解するだろう。しかしながら、有効な開示を提供するためにこれらの概して慣習的なコンポーネントの全てを示すことは必須ではない。
コンテンツ整合サーバ110は処理ユニット202、ネットワークインターフェース204、非一時性コンピュータ読み取り可能メディアドライブ206、および入力/出力デバイスインターフェース208を含み、それらの全ては通信バスにより相互に通信し得る。例証するように、コンテンツ整合サーバ110は、随意で、随意の画面218および随意の入力デバイス220に関連付けられたりそれらと通信したりする。画面218および入力デバイス220は、ユーザがコンテンツ整合サーバ110と直接相互作用する、例えば統合店舗内キオスクのような実施形態において使用し得る。他の実施形態において、画面218および入力デバイス220は、図1に示すユーザコンピューティングデバイス102内に含まれ得る。ネットワークインターフェース204は、コンテンツ整合サーバ110に1つ以上のネットワークまたはコンピューティングシステムへの接続性を提供し得る。処理ユニット202は、したがって、情報および命令を、他のコンピューティングシステム(例えばユーザコンピューティングデバイス102)またはサービスから、ネットワークを介して受け取り得る。処理ユニット202は、メモリ210におよび当該メモリから通信し得、随意の画面218のための出力情報を、入力/出力デバイスインターフェース208を介してさらに提供し得る。入力/出力デバイスインターフェース208は、キーボード、マウス、デジタルペン、タッチスクリーン、またはモーションキャプチャによって記録した動作のような、随意の入力デバイス220からの入力を受諾し得る。入力/出力デバイスインターフェース220は、オーディオデータをスピーカーまたはヘッドフォン(示さない)に出力もまたし得る。
メモリ210は、コンテンツ整合サービスの1つ以上の実施形態を実装するために処理ユニット202が実行するコンピュータプログラム命令を含む。メモリ210は、概してRAM、ROM、および/または他の持続性もしくは非一時性コンピュータ読み取り可能記憶メディアを含む。メモリ210は、コンテンツ整合サーバ110の一般的な管理および作動における処理ユニット202による使用のためのコンピュータプログラム命令を提供するオペレーティングシステム214を保存し得る。メモリ210は、コンテンツ整合サービスの態様を実装するための他の情報をさらに含み得る。例えば、一実施形態において、メモリ210は、ユーザコンピューティングデバイス102のようなコンピューティングデバイス上での表示のために、ユーザインターフェースの生成を容易にする(例えばそれの命令を提供することによって)ユーザインターフェースモジュール212を含む。ユーザインターフェースは、ユーザコンピューティングデバイス102にインストールしたウェブブラウザのようなナビゲーションインターフェースを介して表示され得る。さらに、メモリ210はコンテンツデータストア112を含むかまたはそれと通信し得る。コンテンツデータストア112に保存するコンテンツは、テキストコンテンツ・アイテムおよびオーディオコンテンツ・アイテムを、図1に記載のように含み得る。
ユーザインターフェースモジュール212に加え、メモリ210は処理ユニット202によって実行され得るコンテンツ整合モジュール216を含み得る。一実施形態において、コンテンツ整合モジュール216は、コンテンツ整合サービスを実装するために使用し得、その作動の例は、以下に図3A、図3B、図4A、図4B、および図6に関して記載する。
当業者は、いくつかの実施形態において、コンテンツ整合サービスがユーザコンピューティングデバイス102によって部分的または全体的に実装されるということを認識するだろう。したがって、ユーザコンピューティングデバイス102は、コンテンツ整合モジュール216およびコンテンツ整合サーバ110の一部として例証したコンポーネントに類似して作動する他のコンポーネントを含み得、処理ユニット202、ネットワークインターフェース204、非一時性コンピュータ読み取り可能メディアドライブ206、入力/出力インターフェース208、メモリ210、ユーザインターフェースモジュール212等を含む。
上述のように、テキストコンテンツ・アイテムおよびオーディオコンテンツ・アイテムは、どのテキストコンテンツ・アイテムの部分がオーディオコンテンツ・アイテムの部分に実質的に一致するまたは対応するかを決定するために、分析され得る。オーディオコンテンツ・アイテムの部分とテキストコンテンツ・アイテムの部分との間の対応を反映するコンテンツ同期情報が生成され得る。したがって、図3Aおよび図3Bは、オーディオコンテンツ・アイテム内の語に対応するアイテムテキストコンテンツ内の語(例えばオーディオコンテンツ・アイテム内で可聴的に提供されるテキストコンテンツ内の語)を特定するための例証的なルーチン300を描写する。例証的なルーチン300は、コンテンツ整合サービスによって、例えば、コンテンツ整合サーバ110によるコンテンツ整合モジュール216の実行を介して、実行され得る。
例証的なルーチン300は、そこにおいてコンテンツ整合サービスがコンパニオンテキストコンテンツ・アイテムと同期提供されるオーディオコンテンツ・アイテムのタイムスタンプ付きトランスクリプトを取得し得る、ブロック302において開始する。タイムスタンプ付きトランスクリプトは、それぞれの語がオーディオコンテンツ内で話される(または別の方法で可聴的に提供される)時に対応する、トランスクリプトのそれぞれの語のタイムスタンプを含み得る。例えば、タイムスタンプ付きトランスクリプトの語は、0:01〜0:02のタイムスタンプを割り当てられ得、当該語がオーディオコンテンツのその時間間隔の間話されたことを示す。一実施形態において、それぞれの語の時間間隔は、英国、イングランド、ケンブリッジに本社があるAutonomy Corporationから入手可能なSOFTSOUND(登録商標)音声処理技術のような、公知の音声処理技術を使用して生成する。
一実施形態において、コンテンツ整合サービスは、コンピュータ実装音声テキスト認識技術を使用してオーディオコンテンツのトランスクリプトを作成する。さらに、ピンクノイズフィルタがオーディオコンテンツに、そのトランスクリプトが作成される際またはその前に適用され得る。ピンクノイズフィルタは、背景音楽またはトランスクリプト作成結果上の他の周囲ノイズの効果を最小化し、そのためオーディオコンテンツ内で可聴的に提供される(例えば話される)あらゆる語(例えばオーディオブックの語り)がより正確に認識およびトランスクリプト作成され得る。トランスクリプト作成により音声をテキストにするための技術は、当業者に公知であり、本明細書においてより詳細に記載する必要はない。さらに、他の実施形態において、コンテンツ整合サービスは、既存のトランスクリプトにタイムスタンプを割り当て得、またはタイムスタンプもまた含む既存のトランスクリプトを取得し得る。
ブロック304において、テキストコンテンツのブロックは、オーディオコンテンツのブロックに対する事前整合のために選択され得る。上述のように、オーディオコンテンツのブロックは、オーディオコンテンツの例えば1つ以上の章、トラック、動作等に対応し得る(オーディオコンテンツがかかるブロック分割を含む場合)、または、45分間、1時間、または任意の他の相対的に大きいもしくは統計的に有意な間隔のような、オーディオコンテンツにおける時間間隔に対応し得る。オーディオコンテンツのトランスクリプトは、オーディオコンテンツ内に存在するブロックに対応するブロックに分割し得る。トランスクリプトのブロックは、その後テキストコンテンツのブロックと比較され得、2つの間の類似性を特定する。テキストコンテンツのブロックがトランスクリプトのブロックに十分類似する場合、当該トランスクリプトのブロックを生成したオーディオコンテンツは、当該テキストコンテンツのブロックと事前に整合され得る。
一実施形態において、どのオーディオコンテンツのブロックをどのテキストコンテンツのブロックと整合させるべきかを決定するために、相関測度を使用する。相関測度は、テキストコンテンツのブロックとオーディオコンテンツのトランスクリプトのブロックとの間で共通する語に、少なくとも部分的に基づき得る。例えば、相関測度は、テキストコンテンツのブロックとオーディオコンテンツのトランスクリプトのブロックとの間に共通する語の数または百分率を測定し得る。相関測度は、テキストコンテンツのブロック内の語の確率分布とトランスクリプトブロック内の語の確率分布との間の類似性もまた、例えばテキストコンテンツのブロックの語分布とトランスクリプトブロックの語分布との間のKullback−Liebler距離(KLD)を測定することによって、測定し得る。所望であれば他の相関測度を使用し得る。
テキストコンテンツのブロックが閾値を満たす相関測度を有するトランスクリプトブロックが見つけられない場合、当該テキストコンテンツのブロックは、コンテンツ整合サービスによって、さらなる考慮から除外され得る(例えば、コンテンツ整合サービスは、テキストコンテンツのブロックの部分をオーディオコンテンツ・アイテムの部分と一致しようとしなくてもよい)。ブロック304に関して記載した選択処理は、それぞれのテキストコンテンツのブロックがトランスクリプトのブロックとの整合のために選択されるまたはさらなる考慮から除去されるまで、連続的に繰り返され得る。さらなる考慮から除去されなかった全てのテキストコンテンツのブロックは、トランスクリプトのブロック(およびしたがってオーディオコンテンツのブロック)と整合され得、ブロック306において示すように、テキストコンテンツおよびトランスクリプトの事前整合を生成する。
どのトランスクリプトのブロックとも事前に整合しないあらゆるテキストコンテンツのブロックは、前付(例えば、目次、序文等)または後付(例えば後注、索引、付録等)を表す可能性が、前付および後付がオーディオコンテンツにおいて表されないことがあるため、高いということが理解されるだろう。したがって、ブロック304に関して記載した整合処理は、相関測度が閾値を超えるテキストコンテンツのブロックは前付または後付を除く本体テキストを含む可能性が高いため、テキストコンテンツ・アイテム内の前付および後付を特定するために使用され得る。
前付はオーディオコンテンツ・アイテム内で語られない可能性が高いため、前付を特定することにより、コンテンツ整合サービスは、オーディオコンテンツ・アイテムの同期提供が開始し得るテキストコンテンツ・アイテムにおける提供位置を有利に特定し得る。同様に、後付もまたオーディオコンテンツ・アイテム内で語られない可能性が高いため、後付を特定することにより、コンテンツ整合サービスは、オーディオコンテンツ・アイテムの同期提供が停止し得るテキストコンテンツ・アイテムにおける提供位置を特定し得る。
テキストコンテンツ・アイテム内の前付および後付を特定する他の方法が可能であり本開示の範囲内である。一実施形態において、テキストコンテンツ・アイテム内の前付および後付を特定するために人対話型タスクシステムからの入力が得られ得る。例えば、テキストコンテンツ・アイテムのいくつかまたは全てが人対話型タスクシステムの人作業者に提供され得る。「このテキストコンテンツ・アイテム内の前付または後付のあらゆる領域を特定して下さい」のような質問もまた人作業者に提供され得る。人作業者は、どのテキストコンテンツ・アイテムのブロックが前付または後付であるかを示すために人対話型タスクシステムのコンピューティングデバイスと対話し得、その結果は事前整合の生成における使用のためコンテンツ整合サービスに転送され得る。他の実施形態において、前付、後付、または他の不確か領域が、テキストコンテンツ・アイテムに付随して提供され得るメタデータ(例えばマークアップ)により特定され得る。このメタデータは、例えばテキストコンテンツ・アイテムの出版者もしくは著者によって、またはテキストコンテンツ・アイテムのユーザによって提供され得る。前付および後付がテキストコンテンツ内でどのように特定されるかに関わらず、前付および後付のブロックは、コンテンツ整合サービスによって実施される事前整合の考慮から除外され得る(例えば、コンテンツ整合サービスは、テキストコンテンツのブロックの部分をオーディオブックの部分と一致しようとしなくてもよい)。
引き続き図3Aを参照し、テキストコンテンツおよびオーディオコンテンツのトランスクリプトの事前整合がブロック306において生成されると、ブロック308においてテキストコンテンツの語にタイムスタンプが割り当てられ得る。多くの方法のうちのいずれかでテキストコンテンツの語にタイムスタンプが割り当てられ得、その非制限的な例を以下に記載する。
いくつかの実施形態において、オーディオコンテンツのトランスクリプトブロック内の語のタイムスタンプが、事前整合したテキストコンテンツのブロック内の語にタイムスタンプを割り当てるために使用される。テキストコンテンツのブロック内の語に割り当てられるタイムスタンプは、当該語がタイムスタンプによって特定される時間間隔の間オーディオコンテンツ内で可聴的に提供されるという予測または仮説を表し得る。この予測または仮説は、トランスクリプト内の語に割り当てられるタイムスタンプに、少なくとも部分的に基づき得る。一実施形態において、実質的に上述の通り、Autonomy Corporationにより開発されたSOFTSOUND(登録商標)音声処理技術を使用することにより、この方法でテキストコンテンツのブロックの語にタイムスタンプが割り当てられる。
さらに他の実施形態において、必ずしもタイムスタンプ付きトランスクリプトのブロックを参照することなく、テキストコンテンツのブロックの語にタイムスタンプが割り当てられる。したがって、テキストコンテンツの語のタイムスタンプを決定し得る時間決定法が使用され得る。一実施形態において、テキストコンテンツの語のタイムスタンプは、テキストコンテンツの語の文字数に少なくとも部分的に基づいて推定される。別の実施形態において、テキストコンテンツの語のタイムスタンプは、テキストコンテンツの語の音節数に少なくとも部分的に基づいて推定される。例えば、テキストコンテンツのブロックの第1の語にはテキストコンテンツのブロックの初めに対応するタイムスタンプ(例えば0:00〜0:01秒)が割り当てられ得る。テキストコンテンツのブロックの第2の語には、第1の語の終わりで始まり第2の語の長さで続くタイムスタンプ(例えば0:01〜0:02秒)が割り当てられ得る。
さらに他の実施形態において、連続基準でテキストコンテンツのブロックの語にタイムスタンプが割り当てられる。概して記載すると、タイムスタンプ付きトランスクリプトの語およびテキストコンテンツのブロックの語には連続数が割り当てられ得る。タイムスタンプ付きトランスクリプトの語のタイムスタンプに基づき、連続的に対応するテキストコンテンツのブロックの語には実質的に類似するタイムスタンプが割り当てられ得る。例は例証的なものである。タイムスタンプ付きトランスクリプトブロックの第1の語には0:00〜0:01秒のタイムスタンプが割り当てられ得る。したがって、テキストコンテンツのブロックの第1の語には0:00〜0:01秒のタイムスタンプが割り当てられ得る。タイムスタンプ付きトランスクリプトブロックの第2の語には0:01〜0:02秒のタイムスタンプが割り当てられ得る。したがって、テキストコンテンツのブロックの第2の語には0:01〜0:02秒のタイムスタンプが割り当てられ得る。
テキストコンテンツ内の語にタイムスタンプが割り当てられると、例証的なルーチン300が図3Bのブロック310において続行し、そこで、割り当てられたタイムスタンプを有するテキストコンテンツの語がブロック310において選択され得る。次に、ブロック312において、コンテンツ整合サービスが、選択されたテキストコンテンツにおける語がオーディオコンテンツ・アイテムのトランスクリプト内の語に対応するかどうかを決定し得る。いくつかの実施形態において、テキストコンテンツ内のある語は、オーディオコンテンツのトランスクリプト内のある語との比較において、その語が語と時間の一致である場合、オーディオコンテンツのアイテムのトランスクリプト内の語に対応する。概して記載すると、語と時間の一致は、テキストコンテンツ内の選択された語が、オーディオコンテンツのトランスクリプト内の実質的に一致する語と類似もしくは同一のタイムスタンプ、または連続的位置を有する(または別の方法で経時的に対応するもしくは連続的に対応する)ということを反映している。
対応語の例証的な実施例として、語「tiger」はオーディオコンテンツのブロックにおいて時間間隔0:01〜0:03(秒)の間話され得、語「tiger」のトランスクリプトは「tiger」が時間間隔0:01〜0:03の間に話されたということを示すタイムスタンプを含み得る。テキストコンテンツのブロックは語「tiger」もまた含み得、コンテンツ整合サービスは語「tiger」に、上述のテキストコンテンツ・アイテム内の語にタイムスタンプを割り当てる1つ以上の方法に基づき、テキストコンテンツのブロックにおける0:01〜0:03の時間間隔に対応するタイムスタンプを割り当て得る。したがって、語「tiger」が同じ時間間隔の間テキストコンテンツおよびトランスクリプトの両方において出現するため、語「tiger」は対応語であると決定され得る。
いくつかの実施形態において、時間間隔が重複するまたは1つの時間間隔がもう一方を含む場合、対応語が見つかり得る。上述の実施例に戻り、語「tiger」は、オーディオコンテンツのブロックにおいて時間間隔0:01〜0:03(秒)の間話され得、当該オーディオコンテンツのブロックのトランスクリプトはしたがって「tiger」が時間間隔0:01〜0:03の間話されるということを示すタイムスタンプを有する。テキストコンテンツのブロックは語「tiger」もまた含み得、コンテンツ整合サービスは語「tiger」に、上述のテキストコンテンツ・アイテム内の語にタイムスタンプを割り当てる1つ以上の方法に基づき、テキストコンテンツのブロックにおける0:01〜0:04の時間間隔に対応するタイムスタンプを割り当て得る。「tiger」のオーディオコンテンツにおける間隔(0:01〜0:03)がテキストコンテンツにおいて「tiger」に割り当てられた間隔(0:01〜0:04)の範囲に入るため、「tiger」はしたがってテキストコンテンツ・アイテムおよびオーディオコンテンツ・アイテムにおける対応語と見なされ得る。
あるいは、コンテンツ整合サービスは語「tiger」に、上述のテキストコンテンツ・アイテム内の語にタイムスタンプを割り当てる1つ以上の方法に基づき、テキストコンテンツのブロックにおける時間間隔0:02〜0:04に対応するタイムスタンプを割り当て得る。オーディオコンテンツにおける「tiger」の間隔(0:01〜0:03)が、テキストコンテンツにおける「tiger」に割り当てられる間隔(0:02〜0:04)と部分的に重複するため、これも対応語と見なされ得る。
上述のように、不確か領域は、所与の時間間隔についてトランスクリプトブロックにおけるタイムスタンプ付き語に対応しない、テキストコンテンツ内の一連の1つ以上の語を表し得る。したがって、ブロック310において選択されたテキストコンテンツの語がブロック312で決定されたトランスクリプトの語に対応しない場合、選択された語はテキストコンテンツの不確か領域の一部であると見なされ、例証的なルーチンがブロック314において不確か領域が「開放」であるかどうかを決定する。ブロック310において選択される語の直前のテキストコンテンツの語が、非対応語または不一致として特定される場合、不確か領域は「開放」である。不確か領域が開放でない場合、コンテンツ整合サービスはブロック316において領域を開放する。不確か領域が開放されると、不確か領域を開放するように促した語は、不確か領域に対応する一連の語の第1の語として特定され得る。不確か領域が既に開放である場合、ブロック318に示すように、語は不確か領域に順に加えられ得る。不確か領域に含まれる語は、以下に記載する不確か領域ルーチン400によるさらなる処理のために、メモリに保存され得る。
ブロック310において選択されたテキストコンテンツの語が、ブロック312において決定されたトランスクリプトの語に対応する場合、例証的なルーチン300はブロック320において、当該語が対応するということを示し得る。この対応は、図6に描写し以下でさらに記載する、コンテンツ同期ルーチンによる将来の処理のためにメモリに保存され得る。決定ブロック322によって示されるように不確か領域が開放である場合、当該不確か領域はブロック324において閉鎖され得る。いくつかの実施形態において、不確か領域が閉鎖されると、以前開放で今閉鎖の不確か領域には新しい語は加えられず、次の不確か語が、新しい不確か領域が開放になるように促す。不確か領域の開放および閉鎖は、概して不確か領域が対応語によって区切られ得るということを反映する。
ブロック326において、コンテンツ整合サービスは、テキストコンテンツ・アイテム内(またはテキストコンテンツのブロック内)の全ての語がブロック310〜326に関して上述のように処理されたかどうかを決定する。テキストコンテンツ内に処理されずに残存している語がある場合、例証的なルーチンはブロック310に戻り、テキストコンテンツ内の別の語を選択する。全ての語が処理されている場合、不一致の語が加えられた不確か領域は、図4Aおよび図4Bに関してさらに記載される不確か領域ルーチン400によって処理され得る。
いくつかの実施形態において、図3Bに示す例証的なルーチン300のセグメントは、テキストコンテンツ・アイテムのそれぞれの語について連続的に実施され得、例えばテキストコンテンツ・アイテムの第1の語から始まり、第2の語、第3の語、第4の語へと順に続く。しかしながら、連続的な語単位の比較(例えばブロック310および312における)のあらゆる記載は、例証的な目的のみのためであり本開示の範囲を制限することを意図しないということが理解されるべきである。テキストコンテンツ・アイテム内の語は処理のために特定の順で選択される必要はない。
図4Aを参照すると、不確か領域ルーチン400が示される。上述のように、不確か領域は、オーディオコンテンツのトランスクリプトブロック内のタイムスタンプ付き語に対応しない、テキストコンテンツ内の一連の1つ以上のタイムスタンプ付き語を表し得る。不確か領域ルーチン400は、コンテンツ整合サービスが、不確か領域がトランスクリプトにおけるオーディオコンテンツの誤認識もしくは誤トランスクリプトの産物であるかどうか、または不確か領域がオーディオコンテンツとテキストコンテンツとの間の差異の産物であるかどうかを決定することを助け得る。
不確か領域ルーチン400はブロック402において開始し得る。ブロック404において、図3Aおよび図3Bに示すルーチン300において特定された不確か領域は処理のために選択され得る。不確か領域ルーチン400が反復して作動する実施形態において、不確か領域から細分化した不確か副領域もまた、ブロック404における処理のために選択され得る。不確か領域の細分化はブロック414に関して以下により詳細に記載する。
ブロック406において、コンテンツ整合サービスは処理される不確か領域または副領域が閾値数の語を満たす数の語を有するかどうかを決定する。テキストコンテンツとオーディオコンテンツとの間の小さい不一致が、同期提供のユーザ経験をほんのわずかにしか阻止しないため、いくつかの実施形態においてコンテンツ整合サービスは、少なくとも閾値数の語、例えば少なくとも1つの語、少なくとも5つの語、少なくとも10個の語、または任意の他の閾値数の語を有する不確か領域のみを完全に処理する。少なくとも閾値数の語を含まない不確か領域または副領域は、ブロック412において示し以下にさらに記載する決定法に基づいて単に時間を割り当てられ得る。有利なことに、このアプローチは、コンテンツ整合サービスの態様を実装するコンピュータシステムの計算リソースを保護し得、それがコンテンツ整合サービスの態様を実装するためにかかる時間を減らし得る。
不確か領域または副領域が閾値数の語を含む場合、例証的なルーチン400はブロック408に続く。ブロック408において、言語モデルが不確か領域または副領域内のテキストコンテンツの語から生成され得、テキストコンテンツ内の不確か領域または副領域に対応するオーディオコンテンツ領域の更新トランスクリプトまたは再トランスクリプトを生成するために使用され得る。いくつかの実施形態において、オーディオコンテンツ領域と不確か領域との間の対応は、経時的または連続的対応であり、図3Aにおいて不確か領域の語に割り当てられるタイムスタンプまたは連続的位置に基づく。コンテンツ整合サービスは、ブロック408において再トランスクリプトまたは更新トランスクリプトにおいて特定される任意の新しい対応語をさらに特定し得る。
概して記載すると、言語モデルは、語または一連の語が訓練テキストの特定のコーパスにおいて出現する確率を表す。いくつかの実施形態において、言語モデルは、不確か領域または副領域内の語または一連の語に少なくとも部分的に基づく(例えば不確か領域または副領域は訓練テキストのコーパスの役割をし得る)。訓練テキストから言語モデルを生成する技術は当業者に公知であり、本明細書においてさらに記載する必要はない。言語モデルにおいて存在する確率は、音声認識器の使用を伴い、音響入力を特定するために使用され得る。例えば、音声認識器は、2つ以上の起こり得る語または一連の語に対応し得る音響入力を受信し得る。言語モデルは、音響入力に対応するそれぞれの語または一連の語の確率を決定するために使用され得、音響入力は最も高い確率を有する一連の語であるとして認識され得る。
言語モデルは、オーディオコンテンツのトランスクリプトを再トランスクリプト化または更新するために使用され得る。この再トランスクリプト化または更新は、以前音声認識器によって不一致として誤って認識されたオーディオコンテンツ内のいくつかの語を、テキストコンテンツの語に対応するとして正しく認識させ得る。例えば、オーディオコンテンツのブロックの最初のトランスクリプトが、語「buyer」が0:01〜0:04の時間間隔の間に語られたということを示したということがあり得る。テキストコンテンツのブロックは語「tiger」を含み得、コンテンツ整合サービスは語「tiger」に、上述のテキストコンテンツ・アイテムにおける語にタイムスタンプを割り当てる1つ以上の方法に基づき、テキストコンテンツのブロックにおける0:01〜0:04の時間間隔に対応するタイムスタンプを割り当て得る。「buyer」および「tiger」は異なる語であるため、それらは最初のトランスクリプトに基づき対応語として特定されないだろう。しかしながら、言語モデルが音声認識器に音響入力を不確か領域の語として認識させる可能性がより高くあり得るため、更新されたテキスト・トランスクリプトにおいて「tiger」が代わりに0:01〜0:04の時間間隔の間認識され得る。したがって、最初誤って不一致として認識された語は、更新されたテキスト・トランスクリプトに基づき対応語として正しく特定され得る。
いくつかの実施形態において、更新されたテキスト・トランスクリプト内に出現する語にスコアが割り当てられる。弱い(または低スコアの)対応語は、語が対応する一方で、にもかかわらず当該語が相対的に一般的であり、したがってオーディオコンテンツとテキストコンテンツとの間の任意の差異または類似性についての情報を相対的にほとんど提供しないということを反映し得る。相対的に一般的な語は、前置詞、冠詞、代名詞、助動詞等を含み得る。相対的に一般的な語の表は、テキストコンテンツ・アイテムも同様に書かれ得る様々な語について整備され得る。テキストコンテンツ・アイテム内に出現し、オーディオコンテンツ・アイテム内に対応語を有する、存在する相対的に一般的でないまたは統計的に可能性の低い語(本明細書において「重要」語と称することもある)は、オーディオコンテンツとテキストコンテンツとの間の類似性についての情報を相対的により多く提供し得る。
対応語のスコアはいくつかの方法で測定し得る。一実施形態において、対応語は、当該対応語がテキストコンテンツ・アイテム内にどれだけ頻繁に出現するかに従ってスコア化される。別の実施形態において、対応語は、当該対応語を構成する文字がテキストコンテンツ・アイテムの言語においてどれだけ頻繁に出現するかに従ってスコア化される。例えば、語「xylophone」は、「xylophone」が相対的に一般的でない英語の文字、例えば「x」「y」および「h」を使用するため、相対的に高いスコアを与えられ得る。文字が言語においてどれだけ頻繁に出現するかについての測度例は、米国ロードアイランド州ポータケットに本社があるHasbro Corporationによって製造されたボードゲームSCRABBLE(登録商標)においてアルファベット文字に割り当てられるスコアによって提供される。さらに別の実施形態において、対応語の語スコアは、当該対応語の音節数に少なくとも部分的に基づく。対応語スコアを決定するさらに他の方法が可能である。
不確か領域内の残存する不一致語は、図4Bに示す音響処理サブルーチン450を使用して処理し得る。更新されたテキスト・トランスクリプトは、不確か領域の残存する非対応語を処理するために、音響技術でさらに更新され得る。図4Bを参照すると、音響処理サブルーチン450はブロック452において開始する。ブロック454において、オーディオコンテンツの更新されたテキスト・トランスクリプト内の1つ以上の非対応タイムスタンプ付き語の列、および重複または同一タイムスタンプを有するテキストコンテンツ内の1つ以上の非対応タイムスタンプ付き語の列は、音素列に変換される。語を音素列に変換することにより、コンテンツ整合サービスは、可能性のある対応語を特定するために音響技術を使用し得る。
ブロック456において、テキストコンテンツの1つ以上の語の列から生成した音素列と、有意に重複したまたは同一のタイムスタンプの間に生じる更新トランスクリプト内の1つ以上の語の列から生成した音素列との間の、レーベンシュタイン距離が計算され得る。2つの音素列の間のレーベンシュタイン距離が閾値を満たす場合、音素列(ならびにしたがって更新トランスクリプトおよびテキストコンテンツ・アイテムにおける1つ以上の語)は対応すると見なされ得る。
ブロック458において、音響的に混同可能な仮説が、トランスクリプト内または更新されたテキスト・トランスクリプト内の任意の不一致語に基づいて生成され得る。トランスクリプトまたは更新されたテキスト・トランスクリプトの不一致語が、テキストコンテンツ内の語と時間間隔を共有し、当該トランスクリプトまたは更新されたテキスト・トランスクリプトの語の音響的に混同可能な仮説が、テキストコンテンツ内の語と有意に類似する場合、テキストコンテンツ内の当該語および更新されたテキスト・トランスクリプト内の当該語は対応すると見なされ得る。語または一連の語の音響的に混同可能な仮説を生成するための技術例は、米国特許出願第13/531,376号、表題「MODELLING EXPECTED ERRORS FOR DISCRIMINATIVE TRAINING」2012年6月22日出願(本明細書で以下「’376出願」)において開示される。この出願の開示は参照によりその全体が本明細書に組み込まれる。
例えば、’376出願の態様は、音響モデル訓練データから混同マトリクスを生成することに関する。混同マトリクスは、言語のそれぞれの副語ユニットが当該言語の他のユニットと混同され得る確率を含み得る。副語ユニットは言語の音に対応し得、話される語は1つ以上の一連の副語ユニットを含み得る。副語ユニットは、当業者に公知の任意の形態であり得る。例えば、副語ユニットは、音素、トライフォン、ダイフォン、音節、もしくは音節の一部、または語全体モデルであり得る。混同マトリクスは、公知の正しいトランスクリプトに比べそれぞれの副語ユニットが誤って認識仮説に挿入されたり削除されたりし得る確率もまた含む。混同マトリクスは、公知のトランスクリプトからエラーを生成するために使用され得る。言語モデルの識別訓練は、公知の正しいトランスクリプトと混同マトリクスを使用して生成したエラーとをより明確に識別できるように言語モデルを修正することを含む。言語モデルは、その後関連する正しいトランスクリプトを伴わずに発話のトランスクリプトを作成するために利用され得、よって音声認識システムのユーザは提供されたトランスクリプトが正しいというより強い確信を有し得る。
’376出願のさらなる態様は、確率を生成するための、トップNリスト、格子、またはそれらの組み合わせの使用に関する。音声録音は、1つ以上の認識仮説を生成するために音声認識器によって処理され得、それぞれの仮説は、それが音声録音において話される語に対応する確率と関連付けられ得る。音声認識器は語を認識することにおいてエラーを作り得るため、1つより多い仮説を有することは他の可能性のある正しい語についての情報を提供し得る。認識仮説は、トップNリストまたは格子のような様々なデータ構造において保存され得る。トップNリストのそれぞれのエントリは認識仮説のリストであり得、当該リストは最も確率の高い仮説が表の上になるように順序付けられ得る。
’376出願は、格子が認識仮説をよりコンパクトなデータ構造において保存し得るとさらに記載し、格子の例は図4Bに示す。格子は、セグメント(またはアーク)が仮説内で認識語(または副語ユニット)に関連付けられ、当該語がノードで結合する、有向非巡回グラフであり得る。それぞれのセグメントは、当該セグメントに関連付けられる語が正しい語である確率に、関連付けられ得る。格子を通るそれぞれの経路は認識仮説に対応し得る。認識仮説内の一般的な語が単一セグメントによって表され得るため、格子はよりコンパクトな表現であり得る。例えば、認識仮説の全てが語「the」で始まる場合、格子は語「the」の単一セグメントで開始し得、仮説における後続語のセグメントは最初のセグメントに追随し得る。
’376出願に記載されるように、認識仮説(トップNリストまたは格子に保存される)は録音の正しいトランスクリプトと、例えばレーベンシュタイン距離を使用して整合し得る。レーベンシュタイン距離は仮説内の正しい語(または副語ユニット)をトランスクリプトの正しい語(または副語ユニット)と整合させ、認識仮説内のエラーの数を決定し、そこにおいてエラーは、挿入エラー、削除エラー、または置換エラーの3つの型のうちの1つであり得る。レーベンシュタイン距離は動的プログラミングを使用して実装され得る。
’376出願においてさらに記載されるように、認識仮説がトランスクリプト内に存在しない語を含み、仮説内の周囲の語が正しい場合、余分な語は挿入エラーである。例えば、トランスクリプトが「the sky is blue」であり、仮説が「the sky is be blue」である場合、仮説内の語「be」は挿入エラーである。認識仮説がトランスクリプト内に存在する語を欠如し、欠如する語の周囲の語が正しいとき、欠如する語は削除エラーである。例えば、トランスクリプトが「the sky is blue」であり、仮説が「the sky blue」である場合、仮説内の「is」の不在は、削除エラーである。認識仮説がトランスクリプト内の語を異なる語に交換し、周囲の語が正しいとき、その交換は置換エラーである。例えば、トランスクリプトが「the sky is blue」であり、仮説が「the pie is blue」である場合、語「sky」の語「pie」との交換は置換エラーである。挿入、削除、および置換エラーは連続的に起こり得る。例えば、仮説「the blue」は2つの削除エラーを含み、仮説「the pie as blue」は2つの置換エラーを含む。置換エラーが挿入または削除エラーと連続して生じるとき、語に割り当てられるエラーの型は多様であり得る。例えば、仮説「the sighs blue」は、「sky」の削除および「sighs」の「is」に対する置換として特徴付けられ得、または、「is」の削除および「sighs」の「sky」に対する置換として特徴付けられ得る、削除エラーおよび置換エラーを含む。この状況において、1つの特徴化は恣意的に選択され得るか仮説のさらなる分析に基づき得る。
’376出願は、確率が、録音の正しいトランスクリプトに比較した、処理録音における副語ユニットの存在または不在に基づいて計算され得るということをさらに記載する。当該開示のさらなる態様は、言語モデルを識別的に訓練するために計算確率を使用することに関する。確率は誤ったトランスクリプトを生成するために使用され、言語モデルは誤ったトランスクリプトを正しいトランスクリプトと区別するように訓練される。
図4Aの説明に戻り、ブロック460において、コンテンツ整合サービスは音響技術のいずれかまたは両方によって作り出される任意の対応語を特定し得、かかる語をそれに従ってマークする。これらの対応語はスコアも同様に割り当てられ得、実質的に図4Aのブロック408に関して上述の通りである。
図4Aに戻り、ブロック410において、コンテンツ整合サービスは、任意の対応語がブロック408においてまたは音響処理サブルーチン450において特定されたかどうかを決定し得る。対応語が特定されない場合、ブロック412において不確か領域に時間を割り当てるために決定法が適用され得る。概して記載すると、これらの決定法は、オーディオコンテンツ・アイテムおよびテキストコンテンツ・アイテムが対応しないであろう時間間隔を推定するために使用され得る。この時間間隔は多数の方法で推定され得る。一実施形態において、時間間隔は、不確か領域内の非対応語の数に少なくとも部分的に基づいて推定される。別の実施形態において、時間間隔は、不確か領域における非対応語の音節数に少なくとも部分的に基づいて推定される。さらに別の実施形態において、時間間隔は、不確か領域内の非対応語の文字数に少なくとも部分的に基づいて推定される。不確か領域内の非対応語の時間間隔を推定するためのさらに他の決定法が可能である。有利なことに、この時間間隔は、オーディオコンテンツが必ずしもテキストコンテンツに対応しない時間間隔を示すことにより、コンテンツアイテムとオーディオコンテンツ・アイテムとの同期提供を容易にするために使用され得る。オーディオコンテンツ・アイテムとテキストコンテンツ・アイテムとの同期提供は、適宜開始、停止、および再開し得る。
少なくとも1つの対応語が決定ブロック410において特定された場合、ブロック414において不確か領域は不確か副領域に分割され得る。これらの副領域は重要対応語によって区切られ得る。重要対応語は、閾値を満たす語スコアを有する語であり得、テキストコンテンツ・アイテムとテキスト・トランスクリプトおよび更新されたテキスト・トランスクリプトのうちの少なくとも1つとの間の語および時間一致でもある。これらの副領域は、テキストコンテンツ・アイテムとオーディオコンテンツ・アイテムの更新トランスクリプトとの間の不一致である1つ以上の語を含み得る。これらの副領域は、1つ以上の弱い対応語(例えば、冠詞、前置詞、代名詞、助動詞等のような短いおよび/または一般的な語を表し得る、閾値を満たさない語スコアを有する語)もまた(または代わりに)含み得る。
ブロック416において、コンテンツ整合サービスは、全ての不確か領域および副領域が、ブロック412における決定法に基づいて時間を割り当てられたか、またはブロック414において細分化されたかを決定し得る。そうでない場合、別の不確か領域がブロック404において処理のために選択され得る。全ての不確か領域が処理された場合、不確か領域ルーチン400がブロック418において終了し得る。
上述のように、いくつかの実施形態において、不確か領域ルーチン400は反復して実装される。したがって、ブロック414において特定される副領域は、ブロック404において処理のために選択され得る。これらの実施形態のうちのいくつかにおいて、副領域が処理のために404において選択される場合、ブロック408における言語モデルトランスクリプト作成は起こらない。ブロック408における言語モデルトランスクリプト作成は相対的に計算上コストが高いため、このアプローチは計算リソースを保護し得、および/または、コンテンツ整合の態様を実装するためにかかる時間を減らし得る。ブロック404において処理のために選択される副領域は、ブロック414においてさらに副々領域等にさらに細分化され得るということがさらに認識されるだろう。この繰り返しアプローチは全ての領域、副領域等が処理され、それぞれの語が対応語として特定される(言語モデルトランスクリプトまたは音響技術のいずれかによって)か、またはブロック412において決定法により時間を割り当てられるまで続き得る。
次に図5Aを参照すると、図3A、図3B、図4A、および図4Bに示すルーチンの例証的な作動を描写する。上述のように、不確か領域がオーディオコンテンツの誤トランスクリプトの産物であるかどうか、またはテキストコンテンツがトランスクリプトされたオーディオコンテンツと異なるかどうかに関しては、不明確であり得る。例えば、不確か領域は、テキストコンテンツ・アイテムの前付の一部(例えば目次または序文)であり得、またはテキストコンテンツ・アイテムの後付の一部(例えば索引または付録)であり得る。不確か領域は、脚注、図、表、グラフなどの一部でもあり得る。にもかかわらず、不確か領域が属するテキストコンテンツのブロックは、オーディオコンテンツのブロックのトランスクリプトと共通する十分な語を有し得、図3Aのブロック304に関して上述のように、2つの間の事前整合が相関測度に基づいて作られる。
トランスクリプト表510は、テキストコンテンツ・アイテムのコンパニオンであるオーディオコンテンツの第1のトランスクリプトの領域を表し得る。図3Aのブロック302に関して上述のように、当該領域のそれぞれの語はタイムスタンプを有し得る。テキストコンテンツ表520は、テキストコンテンツの対応領域の語に割り当てられるタイムスタンプを表し得、図3Aのブロック308に関して上述のように、当該タイムスタンプはオーディオコンテンツに割り当てられたタイムスタンプに基づき得る。例えば、表510内の語についてトランスクリプトが作成されるオーディオブロックは、ブロック520の語が属するテキストコンテンツのブロックと整合させられ得、実質的に図3Aのブロック304および306に関して上述の通りである。
図5Aに示すように、語「the quick brown fox」はトランスクリプト表510およびテキストコンテンツ表520の両方において存在する。「the quick brown fox」は、さらに、トランスクリプト表510およびテキスト表520の両方において同時に生じる。したがって、トランスクリプト表510内の領域512内の語およびテキストコンテンツ表520内の領域522は、対応語と見なされ得る。これらの対応語は、不確か領域の一部であり得る。
しかしながら、トランスクリプト表510に示すように、トランスクリプト内の語の全てがテキストコンテンツ内の語に対応するわけではない。トランスクリプトの領域514に示された語は、例えば、テキストコンテンツの領域524内の語との比較において不一致である。したがって、領域524は、不確か領域と見なされ得、上述の不確か領域ルーチン400に関して上述のように処理され得る。不確か領域524は、トランスクリプトの領域514によって示される、類似するタイムスタンプを有する語に対応しない、いくつかの語を含む。
上述のように、オーディオコンテンツの更新されたテキスト・トランスクリプトは、不確か領域524の1つ以上の語から生成する言語モデルに基づいて生成され得る。図5Bを参照すると、更新されたテキスト・トランスクリプト表530は、不確か領域524に少なくとも部分的に基づく言語モデルを使用した、オーディオコンテンツの仮説的な更新されたテキスト・トランスクリプトを示す。上述のように、言語モデルは、テキストコンテンツ内の語に実際に対応するオーディオコンテンツ内の語がそのように正しく認識されるという確率を改善し得る。ここで、例えば、語「jumped over」が不確か領域524内に出現し、したがって言語モデル内に出現し得る。最初オーディオコンテンツにおいて「jump Dover」として認識された語は、言語モデルにおいて「jumped over」に「jump Dover」よりも高い確率が割り当てられるため、言語モデルを使用して代わりに「jumped over」と認識され得る。同様に、語「a」が不確か領域内に出現しない一方、テキストコンテンツの不確か領域524内に出現するため、語「the」が言語モデル内に出現し得る。したがって、最初「a」として誤認識されたオーディオコンテンツの語は、語「the」により高い確率を割り当て得る言語モデルを使用して「the」として正しく認識され得る。
上述のように、いくつかの実施形態において、対応語にスコアが割り当てられ得る。対応語は、当該対応語が閾値を満たす語スコアを有する場合、重要であると考えられ得る。ここで、語「jumped」は、閾値語スコアを満たす語スコアを有し得るため、重要対応語532であると考えられ得る。対照的に、更新されたテキスト・トランスクリプト表530における語「over the」はテキストコンテンツ表520内の語「over the」に対応し得る一方で、それらが語スコア閾値を満たす語スコアを有しない(例えば、「over」および「the」が短く一般的な語であるため)ことがあるため、これらの語は弱い対応語534であると考えられ得る。
さらに、更新されたテキスト・トランスクリプトは、最初誤認識された語を更新されたテキスト・トランスクリプトにおいて誤認識され続けるようにもし得る。ここでは、不一致テキスト列536によって示される更新されたテキスト・トランスクリプト内の語「hazy fog」である。しかしながら、「hazy fog」は言語モデルにおいて「hey see fog」より高い確率を有し得(「hazy fog」は英語において「hey see fog」よりも頻繁に出現し得るため)、よって「hazy fog」は更新されたテキスト・トランスクリプトにおいて「hey see fog」の代わりに認識され得る。
更新されたテキスト・トランスクリプト表530の列532および534内の語「jumped over the」が対応語(例えば、テキストコンテンツ・アイテムに対し語および時間一致である)である一方で、不一致列536は更新されたテキスト・トランスクリプトに残る。更新されたテキスト・トランスクリプト表530に示すように、更新されたテキスト・トランスクリプト内の語「hazy fog」は、語「lazy dog」を時間間隔0:09〜0:12の間含むテキストコンテンツの語に対応する語を含まない、列536を形成する。残存する不一致語を処理するために、コンテンツ整合サービスは音響技術を使用し得、実質的に図4Bに関して上述の通りである。
トランスクリプトまたは更新されたテキスト・トランスクリプトのいずれかの、任意の残存する不一致語を処理するために、音響技術が使用され得る。例えば、テキストコンテンツ内のおよびトランスクリプトまたは更新されたテキスト・トランスクリプト内の任意の不一致語から生成される音素列間にレーベンシュタイン距離が生成され得る。その音素列が閾値を満たすレーベンシュタイン距離を有する、同じ間隔における語は、対応語と見なされ得る。音響的に混同可能な仮説もまた任意の対応語を特定しようとするために使用され得る。
表540は、音響技術を使用して特定される仮説的重要対応領域544を示す。例えば、「hazy fog」は、「lazy dog」の音響的に混同可能な仮説であり得、したがって、オーディオコンテンツの語はテキストコンテンツ内の「lazy dog」に対応すると見なされ得る。あるいは、「hazy fog」は「lazy dog」と比較して相対的に低い音素列レーベンシュタイン距離を有し得、したがって、オーディオコンテンツの語はテキストコンテンツ内の「lazy dog」に対応すると見なされ得る。語「lazy dog」は相対的に一般的でないため、語「lazy」および「dog」を重要対応語にする、閾値を満たす語スコアを有し得る。弱い対応列542内の語「over the」は、図4Aに関して上述のさらなる処理のために副領域として選択され得、または、これもまた図4Aに関して上述の決定法によって割り当てられる時間を有し得る。もし残存する不一致語が表540内に存在する場合、それらは副領域として特定されさらに図4Aのブロック404において最処理のために選択され得る。
対応語(テキストコンテンツ・アイテムおよびオーディオコンテンツ・アイテムのトランスクリプト内の語および時間一致である語)を特定するために使用される技術は、所望であれば並べ替えられ得るということが認識されるだろう。例証的な目的で、例証的な不確か領域処理ルーチン400は、オーディオコンテンツの更新トランスクリプトを生成するために言語モデルを使用し、その後、当該言語モデルで更新されたトランスクリプトに基づき音響処理を使用する。しかしながら、本明細書に記載する音響処理は、本明細書で記載する言語モデル処理技術の前または同時に用いられ得るということが認識されるだろう。
上述の不確か領域処理は、どのテキストコンテンツの部分がどのオーディオコンテンツの部分に一致または対応するかをより正確に決定するために使用され得る。不確か領域処理は、トランスクリプトおよびテキストコンテンツにおける差異が、オーディオコンテンツ内の語の誤認識の産物であるか、またはオーディオコンテンツの語とテキストコンテンツの語との間の実際の差異の産物であるかどうかを決定し得る。トランスクリプトおよびテキストコンテンツにおける差異は、オーディオコンテンツの語とテキストコンテンツの語との間の実際の差異の産物であり、オーディオおよびテキストコンテンツの対応または一致部分の同期提供を容易にするためにより良い正確性で有利に特定され得る。
これらの対応部分を反映するコンテンツ同期が生成され得る。次に図6を参照すると、図3A、図3B、図4A、および図4Bにおいて生成される整合からコンテンツ同期情報を生成するための例証的なルーチン600を示す。上述のように、コンテンツ同期情報は、オーディオコンテンツ・アイテムのトランスクリプト(または更新されたテキスト・トランスクリプト)とコンパニオンテキストコンテンツ・アイテムとの間の対応語に基づいて生成され得る。概して記載すると、コンテンツ同期情報はコンピューティングデバイスにコンテンツのコンパニオンアイテムの対応部分を同期提供させ、コンテンツのコンパニオンアイテムの不一致部分については同期提供を停止させる。このコンテンツ同期情報は、したがって、オーディオコンテンツ・アイテムの部分およびテキストコンテンツ・アイテムの対応部分の同期提供を容易にし得る。
コンテンツ同期情報がどのようにオーディオコンテンツおよびテキストコンテンツのコンパニオンアイテムの同期提供を容易にするかの一実施例において、オーディオコンテンツはテキストコンテンツにおけるユーザの進度に追随し、そのため、オーディオコンテンツ内で語られる語がテキストコンテンツ内でユーザによって読まれる語と並ぶ。コンテンツ同期情報は、ユーザコンピューティングデバイス102に、例えばテキストコンテンツ・アイテムの部分に対応すると示されるオーディオコンテンツ・アイテムの部分を同期提供させ得る。
コンテンツ同期情報を生成するための例証的なルーチン600は、ブロック602において開始し得る。ブロック604において、コンテンツ整合サービスは、テキストコンテンツ・アイテムの部分を選択し得る。概して記載すると、テキストコンテンツの部分はテキストコンテンツのブロックの構成要素であり、図3Aに関して上述の相関測度に基づいてオーディオコンテンツのブロックに整合させられ得る。ブロックは1つ以上の部分を含み、それぞれの部分は語、句、文、段落等に対応する。
テキストコンテンツの部分はテキストコンテンツのブロックにおいて多数の方法で特定し得る。語、句、または文に対応する部分は、統計言語モデル、有限文法、スペースを特定するための光学式文字認識、および他の技術のような技術を使用して特定され得る。英語および多くの他の言語に関する実施例において、語は両側のスペースによって区切られ得、句は句読点、前置詞、接続詞、語型の変化(例えば、主語から述語への変化を示す名詞から動詞)によって区切られ得、文は大文字による開始およびピリオド、感嘆符、疑問符等による終了によって区切られ得る。
段落に対応する部分はいくつかの方法で特定され得る。一実施形態において、光学的文字認識技術が段落の境界を特定するために使用される。例えば、多くの言語において、同じ段落内の語は典型的に、段落内の最後の語に到達するまで、左から右へ水平に続き、それぞれの行の最後でページの下に続く。段落内の最後の語に到達すると、次の段落の第1の語は、前の段落内の最後の語と同じ行ではなく、次の行に出現する。したがって、段落境界は、段落内の語の典型的水平進行における中断の位置を特定することによって特定され得る。他の実施形態において、メタデータ(例えば組み込みマークアップ言語)または段落境界を示すしるし(例えば段落記号、改行復帰、ASCIIまたはユニコードハードリターン、段落番号)が段落境界を特定するために使用される。
本明細書で記載する部分を特定するための技術は、特定の言語においてテキストがどのように進行するのかに基づき、他の言語での使用に柔軟に採用され得るということが理解されるだろう。スペイン語テキストにおいて文を特定する一実施例において、疑問文に対応する文の開始は反転した疑問符で開始し直立の疑問符で終了し得る。直立および反転疑問符はしたがって文に対応する部分の区切りを示し得る。さらに、多くの東アジア言語(例えば、中国語、日本語、および韓国語)において、テキストは右から左へおよび/または上から下へ読まれ得、一方でアラビア語およびヘブライ語において、テキストは右から左へおよびそれぞれの行の最後でページの下へ読まれ得、したがって上述の段落を特定するためのスペース化技術が準じて採用され得る。さらに、人対話型タスクシステムからの入力が、語、句、段落等に対応する部分を特定するために得られ得る。
上述のように、オーディオコンテンツのブロックがテキストコンテンツのブロックと整合し得る。これらのブロック整合に基づき、オーディオコンテンツの部分がテキストコンテンツの部分に整合し得る。実施例は例証的なものであるとわかるだろう。オーディオコンテンツのブロックは10分間続き得る。タイムスタンプは図3Aに関して上述のようにテキストコンテンツのブロックの語に割り当てられ得る。したがって、タイムスタンプは1つ以上の語を含むテキストコンテンツの部分に割り当てられ得る。3つの段落を含むテキストコンテンツのブロックは10分間に及ぶオーディオコンテンツのブロックに整合し得る。テキストコンテンツのブロックの語に割り当てられるタイムスタンプに基づき、コンテンツ整合サービスは、テキストコンテンツの第1の段落は時間間隔0:00〜0:02(分)に及ぶオーディオコンテンツの部分と比較すべきであり、テキストコンテンツの第2の段落は0:02〜0:06(分)に及ぶオーディオコンテンツの部分と比較すべきであり、テキストコンテンツの第3の段落は0:06〜0:10(分)に及ぶオーディオコンテンツの部分と比較すべきであるということを決定し得る。
ブロック606において、コンテンツ整合サービスは、オーディオコンテンツ・アイテム部分およびテキストコンテンツ・アイテム部分が対応するかどうかを測定し得る。いくつかの実施形態において、テキストコンテンツの部分がそれを比較するオーディオコンテンツの部分に含まれる語に対応する少なくとも閾値百分率の語を有する場合、これらの部分は対応し、テキストコンテンツのタイムスタンプ付き部分をオーディオコンテンツの部分のタイムスタンプ付きトランスクリプトと比較することによって測定され得る。この閾値百分率は50%対応語、70%対応語、95%対応語、または任意の他の閾値百分率であり得る。
上述の例に戻ると、テキストコンテンツのブロックの第1の段落がオーディオコンテンツの部分に対応するかどうかを決定するために、コンテンツ整合サービスは、時間間隔0:00〜0:02(分)に対応するテキストコンテンツのタイムスタンプ付き語を、同じ時間間隔に対応するトランスクリプトのタイムスタンプ付き語と比較し得る。少なくとも段落内の閾値百分率の語がトランスクリプト内の語に対応する場合、当該テキストコンテンツの部分および当該トランスクリプト部分が生成されたオーディオコンテンツの部分は、ブロック610に示すように、対応部分として特定され得る。そうでなければ、当該部分は、ブロック608に示すように、非対応不一致として特定され得る。
他の実施形態において、部分スコアはオーディオコンテンツの部分およびテキストコンテンツの部分が対応するかどうかを決定するために使用され得る。オーディオコンテンツの部分とテキストコンテンツの部分との間の部分スコアは、テキストコンテンツのタイムスタンプ付き部分をオーディオコンテンツ部分のタイムスタンプ付きトランスクリプトと比較し、あらゆる対応語を特定することによって計算され得る。スコアはそれぞれの個々の対応語に、実質的に図4Aに関して上述のように、割り当てられ得る。テキストコンテンツの部分およびオーディオコンテンツのトランスクリプト部分の部分スコアが閾値を満たす場合、当該テキストコンテンツの部分は当該トランスクリプト部分が生成されたオーディオコンテンツの部分に対応すると決定され得る。
部分が対応しない場合、コンテンツ整合サービスはブロック608に続き得、生成されているコンテンツ同期情報において当該テキストコンテンツが当該オーディオコンテンツに対応しないとういうことを示し得る。したがって、いくつかの実施形態において、テキストコンテンツ・アイテムの不一致部分がコンテンツ同期情報を提供されるユーザコンピューティングデバイス102上に提供される一方、オーディオコンテンツはユーザコンピューティングデバイス102によって提供されない。コンテンツ整合サービスはその後直接ブロック612に続き得る。
テキストコンテンツ・アイテムの部分がオーディオコンテンツ・アイテムの部分に対応する場合、コンテンツ整合サービスはブロック610に続き得、生成されているコンテンツ同期情報において当該部分が対応するということを示し得る。したがって、いくつかの実施形態において、テキストコンテンツ・アイテムの部分がコンテンツ同期情報を提供されるユーザコンピューティングデバイス102上に提供される一方、当該テキストコンテンツに対応するオーディオコンテンツはユーザコンピューティングデバイス102によって同期提供される。コンテンツ整合サービスはその後直接ブロック612に続き得る。
ブロック612において、コンテンツ整合サービスは全てのテキストコンテンツの部分がコンテンツ同期情報を生成する目的のために処理されたかどうかを決定し得る。そうでなければ、コンテンツ整合サービスはブロック604に戻る。一方で、全てのテキストコンテンツの部分が処理された場合、コンテンツ同期情報生成ルーチン600はブロック614において終了する。
したがって、生成コンテンツ同期情報は、テキストコンテンツ・アイテムの、1つ、いくつか、または全ての部分がオーディオコンテンツの部分に対応するかどうかを示す情報を含み得る。この生成コンテンツ同期情報は、オーディオコンテンツおよびテキストコンテンツの一致部分の同期提供を容易にするために使用され得る。同期提供が不一致部分について無効になり得る一方で、対応部分は同期提供され得る。
例証的なルーチン600が対応部分および非対応部分を特定するにつれ、例証的なルーチン600は、オーディオおよびテキストコンテンツのコンパニオンアイテムの、それぞれの対応部分および非対応部分のそれぞれのコンテンツのコンパニオンアイテムにおける提供位置もまた決定し得る。それぞれのコンテンツのコンパニオンアイテムにおける提供位置は、語位置、時間位置、または他のメトリクスによって、本明細書において図7および図8に関してさらに記載するように、測定され得る。
コンテンツのコンパニオンアイテムの対応部分および非対応部分の提供位置に基づき、例証的なルーチン600がテキストコンテンツ・アイテム内の前付および後付を特定するために使用され得るということが認識されるだろう。例えば、オーディオコンテンツの対応部分が示される第1のテキストコンテンツの部分の前に生じる全てのテキストコンテンツの部分またはブロック(例えばテキストコンテンツ・アイテムにおける提供位置がテキストコンテンツの第1の対応部分の前であるもの)は、前付と見なされ得る。前付はオーディオコンテンツにおいて語られない、目次、序文、題字、プロローグ、解説、献題、著作権表示、米国議会図書化情報または他の文献情報等を含み得る。同様に、オーディオコンテンツの対応部分が示される最後のテキストコンテンツの部分の後に入る全てのテキストコンテンツの部分またはブロックは、後付と見なされ得、オーディオコンテンツ内で語られない、付録、索引、後書、用語集、用語索引、解説、エピローグ等を含み得る。
上述のように、例証的なルーチン600の間に生成されたコンテンツ同期情報は、オーディオコンテンツおよびテキストコンテンツのコンパニオンアイテムの同期提供を容易にするために使用され得る。図7を参照すると、コンテンツ同期情報を使用しコンパニオンコンテンツを同期提供するための例証的なルーチン700のフロー図が描写される。
ブロック702にて、ユーザコンピューティングデバイス102のようなコンピューティングデバイスは、コンパニオンテキストコンテンツおよびオーディオコンテンツに対応するコンテンツ同期情報を取得し得る。コンテンツ同期情報は、例えば、コンテンツ同期情報を生成するように構成される、コンテンツ整合サーバ110から得られ得る。あるいはまたはさらに、コンテンツ同期情報は、コンテンツ同期情報を生成するように構成されるユーザコンピューティングデバイス102によって得られ得る。コンテンツ同期情報を生成するための例証的なルーチン600は図6に関して上述する。
前に記載したように、コンテンツ同期情報は、オーディオコンテンツを含むコンテンツアイテムにおける位置に対応するテキストコンテンツ・アイテムにおける位置に関する情報(例えば、電子書籍内のページおよび行、ならびにオーディオブックの再生位置)、同期提供に関する追加の情報(例えばオーディオブックの再生に対応する電子書籍の部分をマーカー、下線等するための情報)、対応するもしくは対応しない、あるいはそれらの組み合わせの、テキストコンテンツおよびオーディオコンテンツの部分を特定する情報を含み得る。
テキストコンテンツおよびオーディオコンテンツの提供位置は様々なメトリクスのうちの任意のもので測定され得、その具体的で非制限的な例は図8に示す。例えば、提供位置は、タイムスタンプ表810および語表820に示すように、テキストコンテンツの語および/またはトランスクリプト部分に割り当てられるタイムスタンプに基づき、時間基準でおよび/または語単位基準で測定され得る。別の実施形態において、提供位置は文字単位基準で、文字表830に示すように測定される。さらに別の実施形態において、提供位置は音節単位基準で、音節表840に示すように測定される。提供位置を測定するためのさらに他のメトリクスが可能である。
図7に戻り、ブロック704において、テキストコンテンツが提供され得る。テキストコンテンツは視覚的に(例えばスクリーン上のテキストとして)もしくは触覚的に(例えば、機械的震動によっておよび/または点字を提供することによって)またはそれらの組み合わせを含む、いくつかの方法で提供され得るということが理解されるはずである。上述のように、テキストコンテンツ・アイテムは、電子書籍、定期刊行物、台本、歌詞等のようなテキスト、またはそれらのブロックもしくは部分を含む、任意の電子コンテンツアイテムであり得る。ブロック704における提供はテキストコンテンツ・アイテムにおける任意の語から開始し得る。
ブロック706において、例証的なルーチン700はブロック704において提供を開始したテキストコンテンツの語を、オーディオコンテンツの語と同期するかどうかを決定し得る。具体的には、例証的なルーチン700は、ブロック704において提供を開始した語がオーディオコンテンツの部分に対応するテキストコンテンツ・アイテムの部分に属するかどうかを決定し得る。そうでなければ、当該テキストコンテンツ・アイテムの提供位置は、テキストコンテンツ・アイテムがオーディオコンテンツの同期提供を伴わずに提供されるため、ブロック712において更新され得る。
ブロック704において提供が開始した語が、オーディオコンテンツの部分に対応するテキストコンテンツ・アイテムの部分に属する場合、オーディオコンテンツの対応部分はブロック708において当該同期語から開始して提供され得る。いくつかの実施形態において、オーディオコンテンツはテキストコンテンツと、例えばユーザコンピューティングデバイス102と通信し得るスピーカーまたはヘッドフォンを介して可聴出力を生成することによって同期提供される。オーディオコンテンツが提供されるに従い、その(図8に関して上述のタイムスタンプまたは他のメトリクスによって測定され得る)提供位置はブロック710において更新され得る。テキストコンテンツの提供位置は、同様にブロック712においても更新され得る。特定の実施例において、これは、オーディオブックの再生がブロック712において、表示されているページに関連するテキストを越えてまたは表示されているページに関連するテキストの最後まで先行するとき、ブロック710において電子書籍のページをめくることを含み得る。いくつかの実施形態において、オーディオコンテンツの提供位置は、前述のように、例えばコンテンツ同期情報およびテキストコンテンツの提供位置に基づいて、連続的に更新される。
ブロック714において、例証的なルーチン700は、テキストコンテンツがまだ提供されているかどうかを決定し得る。そうであれば、例証的なルーチン700はブロック704に戻り得、ブロック712において決定した更新位置からテキストコンテンツを提供し得る。例証的なルーチン700はブロック706において、更新位置にてテキストコンテンツに対応するオーディオコンテンツが存在するかどうか等を決定し得る。テキストコンテンツがもはや提供されていない(例えばユーザコンピューティングデバイス102のユーザがユーザコンピューティングデバイス102の電源を切り得る、またはコンテンツを提供するために使用するアプリケーションを閉じ得る)場合、例証的なルーチンはブロック716にて終了し得る。
図9A、図9B、および図9Cを参照すると、電子書籍および対応オーディオブックのような、コンパニオンコンテンツを同期提供するユーザコンピューティングデバイス102の実施例が例証される。同一参照番号が類似または同一な要素を指す、図9A、図9B、および図9Cに例証するように、ユーザコンピューティングデバイス102は電子書籍のテキストを画面900上に視覚的に提供し得る。ユーザコンピューティングデバイス102は、聴覚的にもまたコンパニオンオーディオブックを同時に、スピーカーまたはヘッドフォンに提供され得る1つ以上のスピーカー902および/または1つ以上のオーディオ出力を介して提供し得る。コンテンツ同期情報は、オーディオブックコンテンツおよび視覚電子書籍コンテンツの両方を同期提供しそれらの提供位置を更新するために使用され得る。これは、例えば、図7に描写する例証的なルーチン700を参照して記載する特徴の任意の組み合わせを含み得る。
さらに、ユーザコンピューティングデバイス102は、目印906もまた提供し得、電子書籍の視覚提供の範囲内の電子書籍コンテンツの視覚提供に対するオーディオブックコンテンツの提供位置を示し得る。例えば、画面900を使用して提供される電子書籍のテキストは、スピーカー902を介して提供されるオーディオブックの再生位置を示すように改良され得る。この点に関して、テキストはマーカー、下線、および/または異なるフォント(例えば異なる色、大きさ、型、効果等を使用して)で提供され得る。個々の語、行、文、および/または他のテキスト単位がオーディオ再生位置を示すために改良され得る。オーディオブックの再生が、提供されている電子書籍のページの最後に到達すると、コンテンツ同期情報を使用して電子書籍の次のページが自動的に表示され得る。
いくつかの実施形態において、ユーザは画面900上に提供される電子書籍のページの任意の語または語群を選択し得、オーディオブックにおける対応点にて再生を開始し得る。あるいはまたはさらに、ユーザはオーディオブックにおける時間において任意の時点に移動し電子書籍の対応ページがユーザコンピューティングデバイス102によって表示され得、および/またはユーザは電子書籍の任意の位置に移動しオーディオブックの再生がオーディオブックにおける対応点にて開始し得る。
ユーザコンピューティングデバイス102は検索およびブックマーク機能の支持もまたし得、オーディオブックおよび電子書籍の両方の同期提供を維持し得る。ユーザコンピューティングデバイス102はオーディオおよびテキスト提供位置の両方を観測し得るため、ユーザはテキスト画面とオーディオ再生との間を切り替え、コンテンツのもう一方の形態の消費を最後の位置から再開し得る。
図9Aを具体的に参照すると、提供されているテキストコンテンツは前付908を含み得る。上述のように、前付はオーディオコンテンツ内で頻繁には語られず、したがって上述の技術によって不確か領域として特定され得る。したがって、前付908に不一致の部分はコンテンツ同期情報において示され得る(例えば、前付908はあらゆるオーディオコンテンツの部分に対応しないことがある)。したがって、オーディオコンテンツ904は、オーディオコンテンツの部分に対応すると示されるテキストコンテンツの部分に属するテキストコンテンツの第1の語に対応する提供位置から開始して提供され得る。ここで、例えば、前付908の語、「トムソーヤの冒険:第1章」はオーディオコンテンツ904内で語られる可能性が低い。しかしながら、テキストコンテンツの第1の語はオーディオコンテンツ904の部分「トム!」に対応するテキストコンテンツの部分に属する。したがって、同期オーディオコンテンツ904が提供される際、部分「トム!」は目印906によってマークされ得る。
具体的に図9Bを参照すると、表示されているテキストコンテンツは脚注910を含み得る。どのオーディオコンテンツの部分も脚注910に対応しない可能性が高くあり得、例えば、脚注は、不確か領域ルーチン400に従い脚注を処理した後でもなお、テキストコンテンツ・アイテム内で不確かまたは不一致領域として特定されていることがある。したがって、脚注910の不一致部分はコンテンツ同期情報において示され得る。したがって、オーディオ904は目印906によって示されるようにテキストコンテンツと同期提供され、テキストコンテンツの次のページへの自動ページめくりが、オーディオコンテンツ904の対応部分の最後の語が提供される際に起こり得る。このように、同期提供は維持され得、よって例えば不一致脚注910が提供される間オーディオコンテンツの次の部分は提供されない。あるいは、当該ページのオーディオコンテンツの最後の対応部分が提供された後にオーディオコンテンツの提供は停止し、オーディオコンテンツの部分に対応するテキストコンテンツの部分が提供される時(例えば、ユーザがテキストコンテンツの対応部分が存在するページに移動した後)に再開し得る。
具体的に図9Cを参照すると、同期提供したオーディオコンテンツ912は目印906によってマークされたテキストコンテンツに正確に一致している必要はない。上述のように、少なくとも閾値百分率の対応語がオーディオコンテンツの部分およびテキストコンテンツの部分において存在する場合、オーディオコンテンツの部分はテキストコンテンツの部分に対応すると見なされ得る。対応スコア閾値もまた所望であれば設定され得る。例えば、語「What’s gone with that boy」は、「What’s gone with that boy」がオーディオコンテンツ912において提供される際、目印906によって連続的にマーカーされ得る。テキストコンテンツ内の語「I wonder?」はオーディオコンテンツ912内に存在しないため、目印906は即時的に語「You TOM!」に飛び移り得る。あらゆる介在する語もまた随意でマーカーされるか別の方法で目印906によって示され得る。
コンテンツのコンパニオンアイテムはユーザコンピューティングデバイス102上で、購入、ストリーミング、借用、借出し、賃貸借、永久賃貸借、一時賃貸借、または別の方法でコンテンツのコンパニオンアイテムへの一時的もしくは永久的アクセスを得ることのような、様々な方法で獲得し保存され得る。1つの具体的な実施例において、ユーザは電子書籍およびオーディオブックの両方をネットワーク系の小売コンテンツプロバイダから購入し得る。別の具体的な実施例において、ユーザはオーディオブックを借りて、当該オーディオブックをユーザが購入した電子書籍と同期提供し得る。別の具体的な実施例において、ユーザはオーディオブックを賃借し、当該オーディオブックを借用した電子書籍と同期提供し得る。
本明細書内の開示がコンテンツの同期提供の実施例を例証的な目的で記載する一方で、本明細書に記載する原理および利点はコンテンツを同期する他の方法に適用され得る。本明細書に記載する特徴の任意の組み合わせは、適切であればコンテンツ同期の他の形態に適用され得る。例えば、コンテンツ同期情報はオーディオコンテンツとテキストコンテンツとを提供する間を前後に切り換えるために使用され得る。より具体的には、いくつかの実施形態において、コンピューティングデバイスは、電子書籍のテキストを表示し、コンテンツ同期情報を使用して対応位置にてオーディオブックのオーディオを再生するように切り換え得る。別の実施例として、本明細書に記載する原理および利点は、コンパニオンコンテンツの同期提供の文脈外の異なるコンピューティングデバイス上のコンパニオンコンテンツを同期するために使用され得る。例えば、本明細書に記載する特徴の任意の組み合わせが、2011年3月23日出願の米国特許出願第13/070,313号、表題「SYNCHRONIZING DIGITAL CONTENT」(本明細書で以下’313出願)、および2008年11月18日出願の米国特許出願第12/273,473号、表題「SYNCHRONIZATION OF DIGITAL CONTENT」(本明細書で以下’473出願)に記載される、異なるコンピューティングデバイス上のコンテンツを同期する実施例のうちのいずれかに適応され得、これらの出願は上記で参照によりそれらの全体が以前に組み込まれた。例えば、’313および’473出願において記載されるように、同期情報は、コンテンツ発信デバイスの提供に関する、参照点、トラッキング点に従って定義され得、デバイス上のコンテンツの提供の現在状況(例えば読まれた最後のページ)および/またはコンテンツの提供の間得られた追加の情報(例えば、注釈、ブックマーク、マーカー、タグ、抜粋等)を含み得る。あるいはまたはさらに、同期情報は同期事象の決定に基づき異なるデバイス間で共有され得る。同期事象は、デバイスに関連する1つ以上の入力(例えば、電源レベル、無線通信ネットワーク強度、動作センサ、タイマー、ヘッドフォン/スピーカーの起動等)に基づいて決定され得る。別の態様において、同期事象はユーザによって、提供されているコンテンツに関する情報を同期させるために発される、表現される命令/要求(例えば、「私が最後に読んだページを記録」)に対応し得る。同期事象の決定を構成するために、携帯電話のようなデバイスは、ユーザが、同期事象を決定するため、または同期事象を確立するための閾値を確立するため、または両方のために、観測するべきデバイスデータの具体的な型を特定することを可能にするためのインターフェースを生成し得る。
上述の方法および処理の全てが、1つ以上の一般的目的のコンピュータまたは処理装置によって実施されるソフトウェアコードモジュールにおいて実施され、それによって完全に自動化され得る。当該コードモジュールは任意の型の非一時的コンピュータ読み取り可能メディアまたは他のコンピュータ記憶デバイスにおいて保存され得る。当該方法のいくつかまたは全ては、代替的に、特殊化コンピュータハードウェアにおいて実施され得る。
とりわけ、「can」、「could」、「might」、または「may」のような仮定的な言語は、明確にそれに反する記載がない限り、その場合以外に、ある特徴、要素、および/または工程を他の実施形態が含まない一方で、ある実施形態は含むということを表すことが、一般的に使用される文脈の範囲内で理解される。したがって、かかる仮定的言語は概して、特徴、要素、および/もしくは工程が何らかの形で1つ以上の実施形態のために要求されるということ、またはその1つ以上の実施形態が、ユーザ入力または指示を伴ってもしくは伴わずに、これらの特徴、要素、および/もしくは工程が含まれるかどうか、またはそれらが任意の特定の実施形態において実施されるべきかどうかを決定するための論理を必ず含むということを暗示することを意図するものではない。
「少なくともX、Y、およびZのうちの1つ」のような連語は、明確にそれに反する記載がない限り、その場合以外に、アイテム、用語などが、X、Y、もしくはZのいずれか、またはそれらの組み合わせであり得るということが、一般的に使用される文脈で理解される。したがって、かかる連語は概して、ある実施形態が、少なくとも1つのX、少なくとも1つのY、および少なくとも1つのZが、それぞれ存在することを要求することを暗示することを意図するものではない。
あらゆるルーチンの記載、本明細書に記載するおよび/または添付の図に描写する、フロー図における要素またはブロックは、特定の論理機能または要素をルーチンにおいて実装するための1つ以上の実行可能な命令を含むモジュール、セグメント、またはコードの部分を潜在的に表すものとして理解されるべきである。代替の実装は本明細書に記載する実施形態の範囲内に含まれ、当業者に理解され得る通りに含まれる機能性に依存し、要素または機能が削除される、または、実質的同期もしくは逆順を含み、示したもしくは記載した順序に反して実施され得る。
多数の変形および修正が上述の実施形態について作られ得、それらの要素は他の容認可能な実施例の間にあるもとして理解されるべきであることが強調されるべきである。全てのかかる修正および変形は、本明細書に本開示の範囲内で含まれ、以下の付記および請求項によって保護されることを意図する。
本開示の様々な実施形態例は、以下の付記に関して記載され得る。
付記1 システムであって、
電子データストアであって、
オーディオブックと、
前記オーディオブックのコンパニオンである電子書籍と、を保存するように構成される電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
前記オーディオブックのテキスト・トランスクリプトを生成し、
前記テキスト・トランスクリプトと比較して、前記電子書籍内の不確か領域を特定し、
前記不確か領域に事前整合した前記オーディオブックの領域を特定し、
更新されたテキスト・トランスクリプトを生成するために前記オーディオブックの前記領域に言語モデルを適用し、
前記更新されたテキスト・トランスクリプトの部分が前記不確か領域を含む前記電子書籍の部分に実質的に対応するということを決定し、かつ
コンテンツ同期情報が前記不確か領域を含む前記電子書籍の前記部分および前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成された前記オーディオブックの部分の同期提供を容易にする、コンテンツ同期情報を生成するように構成されるコンピューティングデバイスと、
を備えるシステム。
付記2 前記コンピューティングデバイスが、別個のコンピューティングデバイスに前記コンテンツ同期情報を提供するようにさらに構成される、付記1に記載のシステム。
付記3 前記コンピューティングデバイスが、前記不確か領域を含む前記電子書籍の前記部分および前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成される前記オーディオブックの前記部分を同期提供するようにさらに構成される、付記1に記載のシステム。
付記4 前記言語モデルが前記不確か領域の1つ以上の語に少なくとも部分的に基づく、付記1に記載のシステム。
付記5 コンピュータ実装方法であって、
具体的なコンピュータ実行可能命令で構成される1つ以上のコンピューティングデバイスによって実装され、
テキストコンテンツ・アイテム内の不確か領域を特定することと、
前記不確か領域に事前整合したオーディオコンテンツのコンパニオンアイテムの領域を特定することと、
前記オーディオコンテンツ・アイテムの前記領域のテキスト・トランスクリプトを生成することと、
前記テキスト・トランスクリプトの部分が、前記不確か領域が属する前記テキストコンテンツ・アイテムの部分に実質的に対応することを決定することと、
前記テキストコンテンツ・アイテムの前記部分および前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成された前記オーディオコンテンツ・アイテムの部分の提供を同期するための、コンテンツ同期情報を生成することと、を含む、コンピュータ実装方法。
付記6 前記テキスト・トランスクリプトの前記部分が、閾値を満たす部分スコアを有する場合、前記テキストコンテンツ・アイテムの前記部分に実質的に対応する、付記5に記載のコンピュータ実装方法。
付記7 前記テキスト・トランスクリプトの前記部分の少なくとも閾値百分率の語が前記テキストコンテンツ・アイテムの前記部分の語に対応する場合、前記テキスト・トランスクリプトの前記部分が、前記テキストコンテンツ・アイテムの前記部分に実質的に対応する、付記5に記載のコンピュータ実装方法。
付記8 前記テキスト・トランスクリプトの前記部分の語が前記テキストコンテンツ・アイテムの前記部分の語に実質的に一致し経時的に対応する場合、前記テキスト・トランスクリプトの前記部分の前記語が前記テキストコンテンツ・アイテムの前記部分の前記語に対応する、付記7に記載のコンピュータ実装方法。
付記9 付記5に記載のコンピュータ実装方法であって、
前記テキスト・トランスクリプトが少なくとも部分的に言語モデルに基づいて生成され、
前記言語モデルが前記不確か領域に属する1つ以上の語に少なくとも部分的に基づく、コンピュータ実装方法。
付記10 前記テキストコンテンツ・アイテムの前記不確か領域が、前記不確か領域を前記オーディオコンテンツ・アイテムの最初のトランスクリプトと比較することによって少なくとも部分的に基づいて特定される、付記5に記載のコンピュータ実装方法。
付記11 オーディオコンテンツ・アイテムのテキストコンテンツのコンパニオンアイテムに対する提供を同期するためのシステムであって、
コンテンツ同期情報を保存するように構成される電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
前記オーディオコンテンツ・アイテムのテキスト・トランスクリプトと比較して、テキストコンテンツの前記コンパニオンアイテムにおいて、1つ以上の語を含む前記不確か領域を特定し、
前記不確か領域に事前整合する、1つ以上の語を含む前記テキスト・トランスクリプトの領域を特定し、
前記不確か領域の前記1つ以上の語を第1の音素列に変換し、
前記テキスト・トランスクリプトの前記領域の前記1つ以上の語を第2の音素列に変換し、かつ
前記第1の音素列が前記第2の音素列に実質的に対応する場合、テキストコンテンツの前記コンパニオンアイテム内の前記不確か領域の前記1つ以上の語および前記テキスト・トランスクリプトの前記領域が生成された前記オーディオコンテンツ・アイテムの前記1つ以上の語の同期提供を容易にするコンテンツ同期情報を生成するように構成される、コンピューティングデバイスと、を含む、システム。
付記12 前記第1の音素列が前記第2の音素列から閾値レーベンシュタイン距離内である場合、前記第1の音素列が前記第2の音素列に実質的に対応する、付記11に記載のシステム。
付記13 前記コンピューティングデバイスが前記第1の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第1の音素列の前記音響的に混同可能な仮説が前記第2の音素列に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、付記11に記載のシステム。
付記14 前記コンピューティングデバイスが、前記第2の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第2の音素列の前記音響的に混同可能な仮説が前記第1の音素列に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、付記11に記載のシステム。
付記15 前記コンピューティングデバイスが、前記第1の音素列の第1の音響的に混同可能な仮説および前記第2の音素列の第2の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第1の音響的に混同可能な仮説が前記第2の音響的に混同可能な仮説に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、付記11に記載のシステム。
付記16 コンピュータ実行可能モジュールを有する非一時的コンピュータ読み取り可能メディアであって、前記コンピュータ実行可能モジュールが、
テキストコンテンツ・アイテム内の1つ以上の語を含む不確か領域を特定し、
前記不確か領域と事前整合する前記オーディオコンテンツ・アイテムの領域を特定し、
前記オーディオコンテンツ・アイテムの前記領域の、1つ以上の語を含むテキスト・トランスクリプトを生成し、
前記不確か領域の前記1つ以上の語が前記オーディオコンテンツ・アイテムの前記事前整合領域の前記テキスト・トランスクリプトの前記1つ以上の語に実質的に対応するかどうかを決定し、かつ
前記不確か領域の前記1つ以上の語がオーディオコンテンツの前記事前整合領域の更新されたテキスト・トランスクリプトの前記1つ以上の語に実質的に対応する場合、コンテンツ同期情報を生成するように構成され、
そこにおいて前記コンテンツ同期情報が前記テキストコンテンツ・アイテム内の前記不確か領域および前記オーディオコンテンツ・アイテムの前記事前整合領域の同期提供を容易にする、非一時的コンピュータ読み取り可能メディア。
付記17 前記言語モデルが前記不確か領域の前記1つ以上の語に少なくとも部分的に基づく、付記16に記載の非一時的コンピュータ読み取り可能メディア。
付記18 前記コンピュータ実行可能モジュールが、
前記不確か領域の前記1つ以上の語が前記オーディオコンテンツ・アイテムの前記領域の前記テキスト・トランスクリプトの前記1つ以上の語に実質的に対応しない場合、
前記不確か領域の前記1つ以上の語を第1の音素列に変換し、
前記更新されたテキスト・トランスクリプトの前記1つ以上の語を第2の音素列に変換し、
前記第1の音素列が前記第2の音素列に実質的に対応するかどうかを決定し、かつ
前記第1の音素列が前記第2の音素列に実質的に対応する場合、コンテンツ同期情報を生成するようにさらに構成され、
前記コンテンツ同期情報が前記不確か領域および前記オーディオコンテンツ・アイテムの前記事前整合領域の前記同期提供を容易にする、付記16に記載の非一時的コンピュータ読み取り可能メディア。
付記19 前記第1の音素列が前記第2の音素列から閾値レーベンシュタイン距離内である場合、前記第1の音素列が前記第2の音素列に実質的に対応する、付記18に記載の非一時的コンピュータ読み取り可能メディア。
付記20 前記コンピュータ実行可能モジュールが前記第1の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第1の音素列の前記音響的に混同可能な仮説が前記第2の音素列に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、付記18に記載の非一時的コンピュータ読み取り可能メディア。
付記21 前記コンピュータ実行可能モジュールが前記第2の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第2の音素列の前記音響的に混同可能な仮説が前記第1の音素列に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、付記18に記載の非一時的コンピュータ読み取り可能メディア。
付記22 付記18に記載の非一時的コンピュータ読み取り可能メディアであって、
前記コンピュータ実行可能モジュールが、前記第1の音素列の第1の音響的に混同可能な仮説および前記第2の音素列の第2の音響的に混同可能な仮説を生成するようにさらに構成され、
前記第1の音響的に混同可能な仮説が前記第2の音響的に混同可能な仮説に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、非一時的コンピュータ読み取り可能メディア。
付記23 コンピュータ実装方法であって、
具体的なコンピュータ実行可能命令で構成される1つ以上のコンピューティングデバイスによって実装され、
テキストコンテンツ・アイテム内の不確か領域を特定することと、
前記不確か領域と事前整合する前記オーディオコンテンツ・アイテムの領域を特定することと、
前記オーディオコンテンツ・アイテムの前記領域のテキスト・トランスクリプトを生成することと、
前記テキスト・トランスクリプトおよび前記テキストコンテンツ・アイテムの両方において出現する重要対応語を特定することと、
前記テキストコンテンツ・アイテムおよび前記オーディオコンテンツ・アイテムの両方における重要対応語の同期提供を容易にするコンテンツ同期情報を生成することと、を含む、コンピュータ実装方法。
付記24 前記不確か領域が、少なくとも閾値数の語を含む、付記23に記載のコンピュータ実装方法。
付記25 前記重要対応語が閾値を満たす語スコアを有する、付記23に記載のコンピュータ実装方法。
付記26 前記重要対応語の前記語スコアが、
前記重要対応語に含まれる文字の数、
前記重要対応語に含まれる1つ以上の文字の頻度、
前記重要対応語に含まれる音節の数、のうちの少なくとも1つに、少なくとも部分的に基づく、付記25に記載のコンピュータ実装方法。
付記27 付記23に記載のコンピュータ実装方法であって、前記テキストコンテンツ・アイテムの第1の語列と前記テキスト・トランスクリプトの第2の語列との間の実質的音響類似性を特定することと、
前記第1の語列に対応する前記オーディオコンテンツ・アイテムの副領域を特定することと、をさらに含み、
前記第1の語列が、実質的に前記テキストコンテンツ・アイテム内の前記不確か領域内において生じ、
前記コンテンツ同期情報が前記テキストコンテンツ・アイテム内の前記第1の語列および前記オーディオコンテンツ・アイテムの前記対応副領域の同期提供をさらに容易にする、付記23に記載のコンピュータ実装方法。
付記28 前記第1の語列も前記第2の語列も前記重要対応語を含まない、付記27に記載のコンピュータ実装方法。
付記29 前記第1の語列が少なくとも閾値数の語を含む、付記27に記載のコンピュータ実装方法。
付記30 コンテンツを整合させるためのシステムであって、
電子データストアであって、
複数の段落を含む電子書籍および前記電子書籍のコンパニオンであるオーディオブックを保存するように構成された電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
前記オーディオブックに音声テキスト認識ルーチンを適用することによって前記オーディオブックのテキスト・トランスクリプトを生成し、
前記電子書籍の少なくとも1つの段落に対応する前記テキスト・トランスクリプトの部分を特定し、
前記少なくとも1つの段落および前記テキスト・トランスクリプトの前記対応部分が生成された前記オーディオブックの部分の同期提供を容易にするコンテンツ同期情報を生成するように構成されたコンピューティングデバイスと、を含む、システム。
付記31 前記少なくとも1つの段落が本体テキスト段落である、付記30に記載のシステム。
付記32 前記コンピューティングデバイスが、別個のコンピューティングデバイスに前記コンテンツ同期情報を提供するようにさらに構成される、付記30に記載のシステム。
付記33 前記コンピューティングデバイスが、前記少なくとも1つの段落および前記テキスト・トランスクリプトの前記対応部分が生成された前記オーディオブックの前記部分を同期提供するようにさらに構成された、付記30に記載のシステム。
付記34 コンテンツを整合させるためのコンピュータ実装方法であって、
具体的なコンピュータ実行可能命令で構成される1つ以上のコンピューティングデバイスによって実装され、
オーディオコンテンツを含むコンテンツアイテムのテキスト・トランスクリプトを得ることと、
テキストコンテンツのコンパニオンアイテムの複数の本体テキスト部分を特定することと、
少なくとも1つの本体テキスト部分に対応する前記テキスト・トランスクリプトの部分を特定することと、
前記少なくとも1つの本体テキスト部分および前記テキスト・トランスクリプトの前記部分に対応する前記オーディオコンテンツの部分の同期提供を容易にするコンテンツ同期情報を生成することと、を含む、コンピュータ実装方法。
付記35 前記テキスト・トランスクリプトを得ることが、前記オーディオコンテンツから前記テキスト・トランスクリプトを生成することを含む、付記34に記載のコンピュータ実装方法。
付記36 前記複数の本体テキスト部分を特定することが、
前記テキスト・トランスクリプトと比較してテキストコンテンツの前記コンパニオンアイテムのそれぞれのブロックについて相関測度を計算することを含み、それぞれのブロックがテキストコンテンツの前記コンパニオンアイテムの1つ以上の部分を含み、
その部分が属する前記ブロックについての前記相関測度が閾値を満たす場合、テキストコンテンツの前記コンパニオンアイテムの部分が本体テキスト部分として特定される、付記34に記載のコンピュータ実装方法。
付記37 前記複数の本体テキスト部分を特定することが、
テキストコンテンツの前記コンパニオンアイテム内のあらゆる前付部分を特定することと、
テキストコンテンツの前記コンパニオンアイテム内のあらゆる後付部分を特定することと、を含み、
前付部分でなくかつ後付部分でないテキストコンテンツの前記コンパニオンアイテムの全ての部分が本体テキスト部分として特定される、付記34に記載のコンピュータ実装方法。
付記38 前記複数の本体テキスト部分のそれぞれの本体テキスト部分が少なくとも1つの語、句、文、段落、およびセリフを含む、付記34に記載のコンピュータ実装方法。
付記39 テキストコンテンツの前記コンパニオンアイテムが電子書籍である、付記34に記載のコンピュータ実装方法。
付記40 オーディオコンテンツを含む前記コンテンツアイテムがオーディオブックである、付記34に記載のコンピュータ実装方法。
付記41 オーディオコンテンツを含む前記コンテンツアイテムがビデオコンテンツをさらに含む、付記34に記載のコンピュータ実装方法。
付記42 コンテンツを整合させるためのシステムであって、
電子データストアであって、
オーディオコンテンツを含むコンテンツアイテムのトランスクリプトと、
テキストコンテンツのコンパニオンアイテムと、を保存するように構成された電子データストアと、
前記電子データストアと通信するコンピューティングデバイスであって、
テキストコンテンツの前記コンパニオンアイテムにおける少なくとも1つの本体テキスト部分を特定し、
トランスクリプトにおいて、前記少なくとも1つの本体テキスト部分に実質的に対応する前記トランスクリプトの部分を特定し、かつ
前記少なくとも1つの本体テキスト部分および前記トランスクリプトの前記特定部分に対応するオーディオコンテンツの部分の同期提供を容易にするコンテンツ同期情報を生成するように構成される、コンピューティングデバイスと、を含む、システム。
付記43 前記少なくとも1つの本体テキスト部分が、テキストコンテンツの前記コンパニオンアイテム内のメタデータに少なくとも部分的に基づいて特定される、付記42に記載のシステム。
付記44 前記少なくとも1つの本体テキスト部分が、人対話型タスクシステムから受信した入力に少なくとも部分的に基づいて特定される、付記42に記載のシステム。
付記45 前記少なくとも1つの本体テキスト部分が少なくとも1つの語、文、または段落を含む、付記42に記載のシステム。
付記46 前記トランスクリプトの前記部分の少なくとも閾値百分率の語が前記少なくとも1つの本体テキスト部分の語に対応する場合、前記トランスクリプトの前記部分が前記本体テキスト部分に実質的に対応する、付記42に記載のシステム。
付記47 前記トランスクリプトの前記部分の語が前記本体テキスト部分の語に実質的に一致し経時的に対応する場合、前記トランスクリプトの前記部分の前記語が前記本体テキスト部分の前記語に対応する、付記46に記載のシステム。
付記48 コンピュータ実行可能モジュールを有する非一時的コンピュータ読み取り可能メディアであって、前記コンピュータ実行可能モジュールが、
コンテンツ整合モジュールであって、
テキストコンテンツ・アイテム内の1つ以上の語を選択し、
コンテンツのコンパニオンアイテムにおいて、前記1つ以上の語の第1の語が可聴的に提供される第1のタイムスタンプを特定し、かつ
コンピューティングデバイスが前記第1のタイムスタンプから開始するコンテンツの前記コンパニオンアイテムを前記選択した1つ以上の語が前記コンピューティングデバイスによって提供される際に提供するようにする命令を含むコンテンツ同期情報を生成するように構成された、コンテンツ整合モジュールを含む、非一時的コンピュータ読み取り可能メディア。
付記49 前記1つ以上の語が本体テキスト段落に含まれる、付記48に記載の非一時的コンピュータ読み取り可能メディア。
付記50 前記本体テキスト段落が前記テキストコンテンツ・アイテムにおいてあらゆる他の本体テキスト段落の前に生じる、付記49に記載の非一時的コンピュータ読み取り可能メディア。
付記51 前記テキストコンテンツ・アイテムが電子書籍である、付記48に記載の非一時的コンピュータ読み取り可能メディア。
付記52 コンテンツの前記コンパニオンアイテムがオーディオブックである、付記48に記載の非一時的コンピュータ読み取り可能メディア。
付記53 付記48に記載の非一時的コンピュータ読み取り可能メディアであって、
前記コンテンツ整合モジュールが、コンテンツの前記コンパニオンアイテムにおいて、前記1つ以上の語の最後の語が可聴的に提供される第2のタイムスタンプを特定するようにさらに構成され、
前記コンテンツ同期情報が、コンテンツの前記コンパニオンアイテムにおいて前記第2のタイムスタンプに到達したとき、前記コンピューティングデバイスがコンテンツの前記コンパニオンアイテムの提供を停止するようにする命令をさらに含む、非一時的コンピュータ読み取り可能メディア。
付記54 付記53に記載の非一時的コンピュータ読み取り可能メディアであって、
前記コンテンツ整合モジュールが、
前記テキストコンテンツ・アイテム内の別の1つ以上の語を選択し、かつ
コンテンツの前記コンパニオンアイテムにおいて、前記別の1つ以上の他の語の第1の語が可聴的に提供される第3のタイムスタンプを特定するようにさらに構成され、
前記コンテンツ同期情報が、コンピューティングデバイスが前記第3のタイムスタンプから開始するコンテンツの前記コンパニオンアイテムを、別の1つ以上の新しい語が前記コンピューティングデバイスによって提供される際に提供するようにする命令をさらに含む、非一時的コンピュータ読み取り可能メディア。

Claims (15)

  1. オーディオコンテンツ・アイテムおよび前記オーディオコンテンツ・アイテムのコンパニオンであるテキストコンテンツ・アイテムを保存するように構成された電子データストアと、
    前記電子データストアと通信するコンピューティングデバイスと、
    を具えるシステムであって、
    前記コンピューティングデバイスは、
    前記オーディオコンテンツ・アイテムのテキスト・トランスクリプトを生成し、
    前記テキスト・トランスクリプトと比較して、前記テキストコンテンツ・アイテムにおける不確か領域を特定し、
    前記不確か領域と事前整合する前記オーディオコンテンツ・アイテムの領域を特定し、
    更新されたテキスト・トランスクリプトを生成するために前記オーディオコンテンツ・アイテムの前記領域に言語モデルを適用し、
    前記更新されたテキスト・トランスクリプトの部分が前記不確か領域を含む前記テキストコンテンツ・アイテムの部分に実質的に対応することを決定し、
    コンテンツ同期情報を生成する、
    ように構成され、
    前記コンテンツ同期情報は、前記不確か領域を含む前記テキストコンテンツ・アイテムの前記部分と、前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成された前記オーディオコンテンツ・アイテムの部分と、の同期提供を容易にする、
    システム。
  2. 前記コンピューティングデバイスは、別個のコンピューティングデバイスに前記コンテンツ同期情報を提供するようにさらに構成される、
    請求項1に記載のシステム。
  3. 前記コンピューティングデバイスは、前記不確か領域を含む前記テキストコンテンツ・アイテムの前記部分と、前記更新されたテキスト・トランスクリプトの前記実質的に対応する部分が生成された前記オーディオコンテンツ・アイテムの前記部分と、を同期提供するようにさらに構成される、
    請求項1に記載のシステム。
  4. 前記言語モデルは、前記不確か領域の1つ以上の語に少なくとも部分的に基づく、
    請求項1に記載のシステム。
  5. オーディオコンテンツ・アイテムのテキストコンテンツのコンパニオンアイテムに対する提供を同期するためのシステムであって、
    コンテンツ同期情報を保存するように構成される電子データストアと、
    前記電子データストアと通信するコンピューティングデバイスと、
    を具え、
    前記コンピューティングデバイスは、
    前記オーディオコンテンツ・アイテムのテキスト・トランスクリプトと比較して、テキストコンテンツの前記コンパニオンアイテムにおいて、1つ以上の語を含む不確か領域を特定し、
    前記不確か領域に事前整合する、1つ以上の語を含む前記テキスト・トランスクリプトの領域を特定し、
    前記不確か領域の前記1つ以上の語を第1の音素列に変換し、
    前記テキスト・トランスクリプトの前記領域の前記1つ以上の語を第2の音素列に変換し、
    前記第1の音素列が前記第2の音素列に実質的に対応する場合、テキストコンテンツの前記コンパニオンアイテム内の前記不確か領域の前記1つ以上の語と、前記テキスト・トランスクリプトの前記領域が生成された前記オーディオコンテンツ・アイテムの前記1つ以上の語と、の同期提供を容易にするコンテンツ同期情報を生成するように構成される、
    システム。
  6. 前記第1の音素列が前記第2の音素列から閾値レーベンシュタイン距離内である場合、前記第1の音素列が前記第2の音素列に実質的に対応する、
    請求項5に記載のシステム。
  7. 前記コンピューティングデバイスは、前記第1の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
    前記第1の音素列の前記音響的に混同可能な仮説が前記第2の音素列に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、
    請求項5に記載のシステム。
  8. 前記コンピューティングデバイスは、前記第2の音素列の音響的に混同可能な仮説を生成するようにさらに構成され、
    前記第2の音素列の前記音響的に混同可能な仮説が前記第1の音素列に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、
    請求項5に記載のシステム。
  9. 前記コンピューティングデバイスは、前記第1の音素列の第1の音響的に混同可能な仮説および前記第2の音素列の第2の音響的に混同可能な仮説を生成するようにさらに構成され、
    前記第1の音響的に混同可能な仮説が前記第2の音響的に混同可能な仮説に少なくとも実質的に類似する場合、前記第1の音素列が前記第2の音素列に実質的に対応する、
    請求項5に記載のシステム。
  10. コンテンツを整合させるためのシステムであって、
    オーディオコンテンツを含むコンテンツアイテムのトランスクリプトおよびテキストコンテンツのコンパニオンアイテムを保存するように構成された電子データストアと、
    前記電子データストアと通信するコンピューティングデバイスと、
    を具え、
    前記コンピューティングデバイスは、
    テキストコンテンツの前記コンパニオンアイテム内の少なくとも1つの本体テキスト部分を特定し、
    前記トランスクリプトにおいて、前記少なくとも1つの本体テキスト部分に実質的に対応する前記トランスクリプトの部分を特定し、
    前記少なくとも1つの本体テキスト部分と、前記トランスクリプトの前記特定部分に対応するオーディオコンテンツの部分と、の同期提供を容易にするコンテンツ同期情報を生成するように構成される、
    システム。
  11. 前記少なくとも1つの本体テキスト部分は、テキストコンテンツの前記コンパニオンアイテム内のメタデータに少なくとも部分的に基づいて特定される、
    請求項10に記載のシステム。
  12. 前記トランスクリプトの前記部分の少なくとも閾値百分率の語が前記少なくとも1つの本体テキスト部分の語に対応する場合、前記トランスクリプトの前記部分が前記本体テキスト部分に実質的に対応する、
    請求項10に記載のシステム。
  13. 前記トランスクリプトの前記部分の語が前記本体テキスト部分の語に実質的に一致し経時的に対応する場合、前記トランスクリプトの前記部分の前記語が前記本体テキスト部分の前記語に対応する、
    請求項10に記載のシステム。
  14. コンテンツを整合させるためのコンピュータ実装方法であって、
    具体的なコンピュータ実行可能命令で構成される1つ以上のコンピューティングデバイスによって実装され、前記方法は、
    オーディオコンテンツを含むコンテンツアイテムのテキスト・トランスクリプトを得るステップと、
    テキストコンテンツのコンパニオンアイテムの複数の本体テキスト部分を特定するステップと、
    少なくとも1つの本体テキスト部分に対応する前記テキスト・トランスクリプトの部分を特定するステップと、
    前記少なくとも1つの本体テキスト部分と、前記テキスト・トランスクリプトの前記部分に対応する前記オーディオコンテンツの部分と、の同期提供を容易にするコンテンツ同期情報を生成するステップと、
    を含む方法。
  15. 前記複数の本体テキスト部分を特定するステップは、
    テキストコンテンツの前記コンパニオンアイテム内のあらゆる前付部分を特定するステップと、
    テキストコンテンツの前記コンパニオンアイテム内のあらゆる後付部分を特定するステップと、
    を含み、
    前付部分でなくかつ後付部分でないテキストコンテンツの前記コンパニオンアイテムの全ての部分は、本体テキスト部分として特定される、
    請求項14に記載のコンピュータ実装方法。
JP2015525558A 2012-08-02 2013-07-31 対応メディアコンテンツ部分の整合 Active JP6099746B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201261679015P 2012-08-02 2012-08-02
US61/679,015 2012-08-02
US13/604,486 2012-09-05
US13/604,482 US9099089B2 (en) 2012-08-02 2012-09-05 Identifying corresponding regions of content
US13/604,486 US10109278B2 (en) 2012-08-02 2012-09-05 Aligning body matter across content formats
US13/604,482 2012-09-05
PCT/US2013/053020 WO2014022559A1 (en) 2012-08-02 2013-07-31 Alignment of corresponding media content portions

Publications (2)

Publication Number Publication Date
JP2015531915A true JP2015531915A (ja) 2015-11-05
JP6099746B2 JP6099746B2 (ja) 2017-03-22

Family

ID=50026323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015525558A Active JP6099746B2 (ja) 2012-08-02 2013-07-31 対応メディアコンテンツ部分の整合

Country Status (5)

Country Link
US (3) US10109278B2 (ja)
EP (1) EP2880652B1 (ja)
JP (1) JP6099746B2 (ja)
CN (1) CN104662604B (ja)
WO (1) WO2014022559A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10276150B2 (en) 2016-09-12 2019-04-30 Kabushiki Kaisha Toshiba Correction system, method of correction, and computer program product
US10609455B2 (en) 2017-03-21 2020-03-31 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product
US10614265B2 (en) 2016-03-16 2020-04-07 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for correcting speech recognition error
JP2020166262A (ja) * 2019-03-29 2020-10-08 株式会社ソニー・インタラクティブエンタテインメント 音声確認システム、音声確認方法およびプログラム

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US9760920B2 (en) 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US9706247B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US9075760B2 (en) 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US8972265B1 (en) 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
GB2505072A (en) 2012-07-06 2014-02-19 Box Inc Identifying users and collaborators as search results in a cloud-based system
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US10109278B2 (en) * 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US10915492B2 (en) * 2012-09-19 2021-02-09 Box, Inc. Cloud-based platform enabled with media content indexed for text-based searches and/or metadata extraction
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9087508B1 (en) 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
US9836442B1 (en) * 2013-02-12 2017-12-05 Google Llc Synchronization and playback of related media items of different formats
US20140250355A1 (en) * 2013-03-04 2014-09-04 The Cutting Corporation Time-synchronized, talking ebooks and readers
US9368115B2 (en) * 2013-03-13 2016-06-14 Nuance Communications, Inc. Identifying corresponding positions in different representations of a textual work
US9378739B2 (en) 2013-03-13 2016-06-28 Nuance Communications, Inc. Identifying corresponding positions in different representations of a textual work
US9613641B2 (en) 2013-03-13 2017-04-04 Nuance Communications, Inc. Identifying corresponding positions in different representations of a textual work
US9495365B2 (en) * 2013-03-15 2016-11-15 International Business Machines Corporation Identifying key differences between related content from different mediums
US9804729B2 (en) 2013-03-15 2017-10-31 International Business Machines Corporation Presenting key differences between related content from different mediums
US9158435B2 (en) 2013-03-15 2015-10-13 International Business Machines Corporation Synchronizing progress between related content from different mediums
WO2014176750A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Reminder setting method, apparatus and system
US20160133251A1 (en) * 2013-05-31 2016-05-12 Longsand Limited Processing of audio data
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
US20150012840A1 (en) * 2013-07-02 2015-01-08 International Business Machines Corporation Identification and Sharing of Selections within Streaming Content
US20150039991A1 (en) * 2013-08-01 2015-02-05 Booktrack Holdings Limited Creation system for producing synchronised soundtracks for electronic media content
US20150066506A1 (en) * 2013-08-30 2015-03-05 Verint Systems Ltd. System and Method of Text Zoning
US9489360B2 (en) * 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
US9378651B2 (en) * 2013-12-17 2016-06-28 Google Inc. Audio book smart pause
US9632747B2 (en) * 2014-02-18 2017-04-25 Lenovo (Singapore) Pte. Ltd. Tracking recitation of text
US9286287B1 (en) * 2014-03-14 2016-03-15 Audible, Inc. Reference content determination from audio content
JP5943436B2 (ja) * 2014-06-30 2016-07-05 シナノケンシ株式会社 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
US20160140086A1 (en) * 2014-11-19 2016-05-19 Kobo Incorporated System and method for content repagination providing a page continuity indicium while e-reading
US11030406B2 (en) 2015-01-27 2021-06-08 Verint Systems Ltd. Ontology expansion using entity-association rules and abstract relations
US10140310B1 (en) 2015-06-30 2018-11-27 Amazon Technologies, Inc. Identifying and utilizing synchronized content
US10146789B1 (en) * 2015-06-30 2018-12-04 Amazon Technologies, Inc. Identifying and utilizing synchronized content
US11102313B2 (en) 2015-08-10 2021-08-24 Oracle International Corporation Transactional autosave with local and remote lifecycles
US10582001B2 (en) 2015-08-11 2020-03-03 Oracle International Corporation Asynchronous pre-caching of synchronously loaded resources
US10419514B2 (en) * 2015-08-14 2019-09-17 Oracle International Corporation Discovery of federated logins
US10452497B2 (en) 2015-08-14 2019-10-22 Oracle International Corporation Restoration of UI state in transactional systems
CN105117367A (zh) * 2015-09-21 2015-12-02 联想(北京)有限公司 一种电子书切换方法和电子设备
US10582012B2 (en) 2015-10-16 2020-03-03 Oracle International Corporation Adaptive data transfer optimization
US10068356B2 (en) * 2015-11-02 2018-09-04 International Business Machines Corporation Synchronized maps in eBooks using virtual GPS channels
US9697835B1 (en) * 2016-03-31 2017-07-04 International Business Machines Corporation Acoustic model training
US11195542B2 (en) * 2019-10-31 2021-12-07 Ron Zass Detecting repetitions in audio data
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
US10157607B2 (en) * 2016-10-20 2018-12-18 International Business Machines Corporation Real time speech output speed adjustment
WO2018084910A1 (en) * 2016-11-07 2018-05-11 Axon Enterprise, Inc. Systems and methods for interrelating text transcript information with video and/or audio information
US20180143956A1 (en) * 2016-11-18 2018-05-24 Microsoft Technology Licensing, Llc Real-time caption correction by audience
CN106980459A (zh) * 2017-03-31 2017-07-25 广州华多网络科技有限公司 基于触屏设备的点读方法及装置
US11482213B2 (en) 2018-07-20 2022-10-25 Cisco Technology, Inc. Automatic speech recognition correction
WO2020046269A1 (en) * 2018-08-27 2020-03-05 Google Llc Algorithmic determination of a story readers discontinuation of reading
CN112889022A (zh) 2018-08-31 2021-06-01 谷歌有限责任公司 基于场境数据的故事时间特殊效果的动态调整
EP3837597A1 (en) 2018-09-04 2021-06-23 Google LLC Detection of story reader progress for pre-caching special effects
US11526671B2 (en) 2018-09-04 2022-12-13 Google Llc Reading progress estimation based on phonetic fuzzy matching and confidence interval
US10325597B1 (en) 2018-10-08 2019-06-18 Sorenson Ip Holdings, Llc Transcription of communications
US10930300B2 (en) 2018-11-02 2021-02-23 Veritext, Llc Automated transcript generation from multi-channel audio
US20200142962A1 (en) * 2018-11-07 2020-05-07 Jpmorgan Chase Bank, N.A. Systems and methods for content filtering of publications
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10785385B2 (en) 2018-12-26 2020-09-22 NBCUniversal Media, LLC. Systems and methods for aligning text and multimedia content
CN109920431B (zh) * 2019-03-05 2021-12-07 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US11769012B2 (en) 2019-03-27 2023-09-26 Verint Americas Inc. Automated system and method to prioritize language model and ontology expansion and pruning
US10832733B1 (en) * 2019-05-15 2020-11-10 International Business Machines Corporation Verbal command video editing
JP7354750B2 (ja) * 2019-10-10 2023-10-03 富士フイルムビジネスイノベーション株式会社 情報処理システム
US11354920B2 (en) * 2019-10-12 2022-06-07 International Business Machines Corporation Updating and implementing a document from an audio proceeding
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
CN112487162A (zh) * 2020-11-25 2021-03-12 腾讯音乐娱乐科技(深圳)有限公司 确定文本语义信息的方法、装置、设备以及存储介质
CN112530472B (zh) * 2020-11-26 2022-06-21 北京字节跳动网络技术有限公司 音频与文本的同步方法、装置、可读介质和电子设备
CN112397104B (zh) * 2020-11-26 2022-03-29 北京字节跳动网络技术有限公司 音频与文本的同步方法、装置、可读介质和电子设备
US20220230463A1 (en) * 2021-01-21 2022-07-21 Mediamacros, Inc. System and method for facilitating the synchronization of written works with accompanying audio
EP4248441A4 (en) * 2021-03-25 2024-07-10 Samsung Electronics Co Ltd SPEECH RECOGNITION METHOD, DEVICE, ELECTRONIC DEVICE AND COMPUTER-READABLE STORAGE MEDIUM
CN113096635B (zh) * 2021-03-31 2024-01-09 抖音视界有限公司 一种音频和文本的同步方法、装置、设备以及介质
CN114022668B (zh) * 2021-10-29 2023-09-22 北京有竹居网络技术有限公司 一种文本对齐语音的方法、装置、设备及介质
US20220083741A1 (en) * 2021-11-30 2022-03-17 Baidu.Com Times Technology (Beijing) Co., Ltd. Method for aligning text with media material, apparatus and storage medium

Family Cites Families (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5351189A (en) 1985-03-29 1994-09-27 Kabushiki Kaisha Toshiba Machine translation system including separated side-by-side display of original and corresponding translated sentences
US5203705A (en) 1989-11-29 1993-04-20 Franklin Electronic Publishers, Incorporated Word spelling and definition educational device
US5657426A (en) 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US7174299B2 (en) 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
JPH0981566A (ja) 1995-09-08 1997-03-28 Toshiba Corp 翻訳装置及び翻訳方法
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09265299A (ja) 1996-03-28 1997-10-07 Secom Co Ltd テキスト読み上げ装置
US5848386A (en) 1996-05-28 1998-12-08 Ricoh Company, Ltd. Method and system for translating documents using different translation resources for different portions of the documents
GB2303955B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6088711A (en) * 1997-07-01 2000-07-11 Microsoft Corporation Method and system for defining and applying a style to a paragraph
US6018708A (en) 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
US6356922B1 (en) 1997-09-15 2002-03-12 Fuji Xerox Co., Ltd. Method and system for suggesting related documents
US6151576A (en) * 1998-08-11 2000-11-21 Adobe Systems Incorporated Mixing digitized speech and text using reliability indices
US6317722B1 (en) 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
US6256610B1 (en) * 1998-12-30 2001-07-03 Lernout & Hauspie Speech Products N.V. Header/footer avoidance for reading system
US6175820B1 (en) 1999-01-28 2001-01-16 International Business Machines Corporation Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment
US6611802B2 (en) 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6442518B1 (en) 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
JP2001096068A (ja) 1999-09-30 2001-04-10 Konami Co Ltd ゲームプログラム作成方法、ゲームシステム、及び、記録媒体
US6260011B1 (en) 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6263308B1 (en) 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US20020054073A1 (en) * 2000-06-02 2002-05-09 Yuen Henry C. Electronic book with indexed text-to-audio switching capabilities
US20020007349A1 (en) 2000-06-02 2002-01-17 Yuen Henry C. Electronic reading system with copying capabilities
JP2002140085A (ja) 2000-08-25 2002-05-17 Fujitsu Ltd 文書読み上げ装置及び方法、コンピュータプログラム並びに記憶媒体
JP2002114107A (ja) 2000-10-10 2002-04-16 Nissan Motor Co Ltd オーディオ装置及び音楽提供方法
US6952673B2 (en) 2001-02-20 2005-10-04 International Business Machines Corporation System and method for adapting speech playback speed to typing speed
US7107533B2 (en) 2001-04-09 2006-09-12 International Business Machines Corporation Electronic book with multimode I/O
JP4383690B2 (ja) 2001-04-27 2009-12-16 株式会社日立製作所 デジタルコンテンツ出力方法およびシステム
US7020663B2 (en) * 2001-05-30 2006-03-28 George M. Hay System and method for the delivery of electronic books
JP2002358092A (ja) 2001-06-01 2002-12-13 Sony Corp 音声合成システム
US20030061028A1 (en) 2001-09-21 2003-03-27 Knumi Inc. Tool for automatically mapping multimedia annotations to ontologies
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
US7632101B2 (en) 2001-10-05 2009-12-15 Vision Works Ip Corporation Method and apparatus for periodically questioning a user using a computer system or other device to facilitate memorization and learning of information
DE60211197T2 (de) 2001-10-31 2007-05-03 Koninklijke Philips Electronics N.V. Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte
US6766294B2 (en) 2001-11-30 2004-07-20 Dictaphone Corporation Performance gauge for a distributed speech recognition system
US20030115289A1 (en) 2001-12-14 2003-06-19 Garry Chinn Navigation in a voice recognition system
JP4649091B2 (ja) 2002-01-30 2011-03-09 株式会社エヌ・ティ・ティ・ドコモ 通信端末、サーバ装置、中継装置、放送通信システム、放送通信方法及びプログラム
US20060148569A1 (en) 2002-05-02 2006-07-06 Beck Stephen C Methods and apparatus for a portable toy video/audio visual program player device - "silicon movies" played on portable computing devices such as pda (personal digital assistants) and other "palm" type, hand-held devices
US7231351B1 (en) 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
JP4038081B2 (ja) 2002-06-25 2008-01-23 日本放送協会 楽曲選択型コンテンツ再生装置、そのプログラム
JP2004117618A (ja) 2002-09-25 2004-04-15 Toshiba Corp 情報処理装置、コンテンツ転送方法、および音楽再生装置
US20040076931A1 (en) 2002-10-18 2004-04-22 Cashflow Technologies, Inc. Educational interactive games
GB2414320B (en) 2003-02-24 2007-08-22 Listen Com Media service delivery system providing conditional access to media content from various client devices
JP2004266576A (ja) 2003-02-28 2004-09-24 Casio Comput Co Ltd メディアデータ記憶装置、およびメディアデータ記憶処理プログラム
US7768234B2 (en) 2004-02-28 2010-08-03 Janik Craig M System and method for automatically synchronizing and acquiring content for battery powered devices
US20050022113A1 (en) * 2003-07-24 2005-01-27 Hanlon Robert Eliot System and method to efficiently switch between paper, electronic and audio versions of documents
KR100541215B1 (ko) 2003-11-24 2006-01-10 (주)테일러테크놀로지 디지탈 오디오파일의 가사제공시스템
JP2005189454A (ja) 2003-12-25 2005-07-14 Casio Comput Co Ltd テキスト同期音声再生制御装置及びプログラム
NZ532174A (en) 2004-04-06 2007-01-26 Voiceq Internat Ltd Voice over synchronisation
US8109765B2 (en) 2004-09-10 2012-02-07 Scientific Learning Corporation Intelligent tutoring feedback
WO2006029458A1 (en) 2004-09-14 2006-03-23 Reading Systems Pty Ltd Literacy training system and method
US8200700B2 (en) 2005-02-01 2012-06-12 Newsilike Media Group, Inc Systems and methods for use of structured and unstructured distributed data
KR100728679B1 (ko) 2005-04-29 2007-06-15 엘지전자 주식회사 자막싱크 보정기능이 구비된 이동통신 단말기 및 동작방법
US7571015B2 (en) 2005-07-14 2009-08-04 Perception Digital Limited Personal audio player
JP4894201B2 (ja) 2005-08-26 2012-03-14 富士ゼロックス株式会社 画像表示装置、及び画像表示方法
JP5120826B2 (ja) 2005-09-29 2013-01-16 独立行政法人産業技術総合研究所 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
US8577953B2 (en) 2005-12-09 2013-11-05 At&T Intellectual Property I, Lp System and method for providing multimedia services
US8234494B1 (en) * 2005-12-21 2012-07-31 At&T Intellectual Property Ii, L.P. Speaker-verification digital signatures
ATE440334T1 (de) 2006-02-10 2009-09-15 Harman Becker Automotive Sys System für sprachgesteuerte auswahl einer audiodatei und verfahren dafür
US8036889B2 (en) * 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
JP5175446B2 (ja) 2006-03-16 2013-04-03 株式会社エクシング 携帯端末機
US10026255B2 (en) 2006-04-13 2018-07-17 Igt Presentation of remotely-hosted and locally rendered content for gaming systems
US8407052B2 (en) 2006-04-17 2013-03-26 Vovision, Llc Methods and systems for correcting transcribed audio files
WO2007124582A1 (en) 2006-04-27 2007-11-08 Technologies Humanware Canada Inc. Method for the time scaling of an audio signal
US7792792B2 (en) 2006-05-22 2010-09-07 Microsoft Corporation Synchronizing structured web site contents
US20080005656A1 (en) 2006-06-28 2008-01-03 Shu Fan Stephen Pang Apparatus, method, and file format for text with synchronized audio
US20080039163A1 (en) 2006-06-29 2008-02-14 Nokia Corporation System for providing a personalized comic strip
WO2008001500A1 (fr) 2006-06-30 2008-01-03 Nec Corporation Système de génération de contenus audio, système d'échange d'informations, programme, procédé de génération de contenus audio et procédé d'échange d'informations
US20080027726A1 (en) 2006-07-28 2008-01-31 Eric Louis Hansen Text to audio mapping, and animation of the text
US7801721B2 (en) 2006-10-02 2010-09-21 Google Inc. Displaying original text in a user interface with translated text
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
CA2571617A1 (en) 2006-12-15 2008-06-15 Desktopbox Inc. Simulcast internet media distribution system and method
JP4935345B2 (ja) 2006-12-25 2012-05-23 ソニー株式会社 コンテンツ再生システム、再生装置、再生制御方法及びプログラム
US20080294453A1 (en) 2007-05-24 2008-11-27 La La Media, Inc. Network Based Digital Rights Management System
EP2183685A4 (en) 2007-08-01 2012-08-08 Ginger Software Inc AUTOMATIC CONTEXT-RELATED LANGUAGE CORRECTION AND EXPANSION USING AN INTERNET CORP
JP2009048676A (ja) 2007-08-14 2009-03-05 Toshiba Corp 再生装置および方法
AU2007237206B2 (en) 2007-11-27 2009-12-10 Canon Kabushiki Kaisha Method, apparatus and system for displaying video data
US9110890B2 (en) 2008-02-15 2015-08-18 International Business Machines Corporation Selecting a language encoding of a static communication in a virtual universe
US8190683B2 (en) 2008-02-29 2012-05-29 Microsoft Corporation Synchronizing multiple user remote content playback
JP4650701B2 (ja) 2008-05-12 2011-03-16 ソニー株式会社 コンテンツ再生装置、ステータスバー表示方法及びステータスバー表示プログラム
US7996422B2 (en) 2008-07-22 2011-08-09 At&T Intellectual Property L.L.P. System and method for adaptive media playback based on destination
US20100042702A1 (en) 2008-08-13 2010-02-18 Hanses Philip C Bookmarks for Flexible Integrated Access to Published Material
US20100042682A1 (en) 2008-08-15 2010-02-18 Evan John Kaye Digital Rights Management for Music Video Soundtracks
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8131545B1 (en) 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US20100279822A1 (en) 2008-11-01 2010-11-04 Ford John Hajime Systems and methods for optimizing one or more audio tracks to a video stream
US8832319B2 (en) 2008-11-18 2014-09-09 Amazon Technologies, Inc. Synchronization of digital content
US8317606B2 (en) 2008-12-04 2012-11-27 Disney Enterprises, Inc. Live authoring method for real time development of video games
CN101651788B (zh) 2008-12-26 2012-11-21 中国科学院声学研究所 一种在线语音文本对齐系统及方法
US8442423B1 (en) 2009-01-26 2013-05-14 Amazon Technologies, Inc. Testing within digital media items
EP2221806B1 (en) 2009-02-19 2013-07-17 Nuance Communications, Inc. Speech recognition of a list entry
US20100225809A1 (en) 2009-03-09 2010-09-09 Sony Corporation And Sony Electronics Inc. Electronic book with enhanced features
US9213687B2 (en) 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
JP2010250023A (ja) 2009-04-14 2010-11-04 Fujitsu Ltd テキスト表示機能付情報処理装置、データ取得方法およびデータ取得プログラム
US20100287256A1 (en) 2009-05-05 2010-11-11 Nokia Corporation Method and apparatus for providing social networking content
US8290777B1 (en) * 2009-06-12 2012-10-16 Amazon Technologies, Inc. Synchronizing the playing and displaying of digital content
WO2011022430A2 (en) 2009-08-17 2011-02-24 Weigel Broadcasting Co. System and method for remote live audio-visual production
CN101996631B (zh) * 2009-08-28 2014-12-03 国际商业机器公司 用于对齐文本的方法和装置
US20110066438A1 (en) 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
KR101617461B1 (ko) 2009-11-17 2016-05-02 엘지전자 주식회사 이동 통신 단말기에서의 티티에스 음성 데이터 출력 방법 및 이를 적용한 이동 통신 단말기
US20110153330A1 (en) * 2009-11-27 2011-06-23 i-SCROLL System and method for rendering text synchronized audio
US8819028B2 (en) * 2009-12-14 2014-08-26 Hewlett-Packard Development Company, L.P. System and method for web content extraction
US20110177481A1 (en) 2010-01-15 2011-07-21 Haff Olle Electronic device with media function and method
US20110184738A1 (en) 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
US8296130B2 (en) 2010-01-29 2012-10-23 Ipar, Llc Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization
US20110231484A1 (en) * 2010-03-22 2011-09-22 Hillcrest Laboratories, Inc. TV Internet Browser
US9323756B2 (en) * 2010-03-22 2016-04-26 Lenovo (Singapore) Pte. Ltd. Audio book and e-book synchronization
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
US9009022B2 (en) 2010-03-30 2015-04-14 Young Hee Yi E-book reader language mapping system and method
US9191639B2 (en) * 2010-04-12 2015-11-17 Adobe Systems Incorporated Method and apparatus for generating video descriptions
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US8543395B2 (en) 2010-05-18 2013-09-24 Shazam Entertainment Ltd. Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization
EP2388780A1 (en) 2010-05-19 2011-11-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for extending or compressing time sections of an audio signal
US20120030288A1 (en) 2010-07-27 2012-02-02 International Business Machines Corporation Synchronizing user content in a collaborative session
US8861925B1 (en) * 2010-07-28 2014-10-14 Intuit Inc. Methods and systems for audio-visual synchronization
US8548618B1 (en) 2010-09-13 2013-10-01 Audible, Inc. Systems and methods for creating narration audio
US8918447B2 (en) 2010-12-10 2014-12-23 Sap Se Methods, apparatus, systems and computer readable mediums for use in sharing information between entities
US8798366B1 (en) * 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9800941B2 (en) 2011-01-03 2017-10-24 Curt Evans Text-synchronized media utilization and manipulation for transcripts
US9697265B2 (en) 2011-03-23 2017-07-04 Audible, Inc. Synchronizing digital content
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US9760920B2 (en) 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
JP5855223B2 (ja) 2011-03-23 2016-02-09 オーディブル・インコーポレイテッドAudible, Inc. 同期されたコンテンツの再生管理
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US9697871B2 (en) 2011-03-23 2017-07-04 Audible, Inc. Synchronizing recorded audio content and companion content
US9706247B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8504906B1 (en) * 2011-09-08 2013-08-06 Amazon Technologies, Inc. Sending selected text and corresponding media content
US20130103814A1 (en) 2011-10-25 2013-04-25 Cbs Interactive Inc. System and Method for a Shared Media Experience
US9031493B2 (en) 2011-11-18 2015-05-12 Google Inc. Custom narration of electronic books
US9117195B2 (en) 2012-02-13 2015-08-25 Google Inc. Synchronized consumption modes for e-books
US8849676B2 (en) 2012-03-29 2014-09-30 Audible, Inc. Content customization
US9037956B2 (en) 2012-03-29 2015-05-19 Audible, Inc. Content customization
WO2013148724A1 (en) 2012-03-29 2013-10-03 Audible, Inc. Content customization
JP2015517684A (ja) 2012-05-07 2015-06-22 オーディブル・インコーポレイテッドAudible, Inc. コンテンツのカスタマイズ
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016009450; 井倉法久 他1名: '日本語文章と音声データの同期の自動化に関する一手法' 電子情報通信学会論文誌 Vol.J89-D No.2, 20060201, 261-270頁, 社団法人電子情報通信学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614265B2 (en) 2016-03-16 2020-04-07 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for correcting speech recognition error
US10276150B2 (en) 2016-09-12 2019-04-30 Kabushiki Kaisha Toshiba Correction system, method of correction, and computer program product
US10609455B2 (en) 2017-03-21 2020-03-31 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product
JP2020166262A (ja) * 2019-03-29 2020-10-08 株式会社ソニー・インタラクティブエンタテインメント 音声確認システム、音声確認方法およびプログラム
US11386901B2 (en) 2019-03-29 2022-07-12 Sony Interactive Entertainment Inc. Audio confirmation system, audio confirmation method, and program via speech and text comparison
JP7311450B2 (ja) 2019-03-29 2023-07-19 株式会社ソニー・インタラクティブエンタテインメント 音声確認システム、音声確認方法およびプログラム

Also Published As

Publication number Publication date
EP2880652A4 (en) 2016-03-09
CN104662604A (zh) 2015-05-27
US20140039887A1 (en) 2014-02-06
US20150340038A1 (en) 2015-11-26
US9799336B2 (en) 2017-10-24
CN104662604B (zh) 2018-06-15
WO2014022559A8 (en) 2015-02-05
JP6099746B2 (ja) 2017-03-22
WO2014022559A1 (en) 2014-02-06
EP2880652A1 (en) 2015-06-10
US9099089B2 (en) 2015-08-04
US10109278B2 (en) 2018-10-23
US20140040713A1 (en) 2014-02-06
EP2880652B1 (en) 2020-05-06

Similar Documents

Publication Publication Date Title
JP6099746B2 (ja) 対応メディアコンテンツ部分の整合
US10891948B2 (en) Identification of taste attributes from an audio signal
US10176804B2 (en) Analyzing textual data
US8527272B2 (en) Method and apparatus for aligning texts
US10896222B1 (en) Subject-specific data set for named entity resolution
US10997223B1 (en) Subject-specific data set for named entity resolution
US8972265B1 (en) Multiple voices in audio content
Ran et al. Artificial intelligence speech recognition model for correcting spoken English teaching
US20140316764A1 (en) Clarifying natural language input using targeted questions
US20140223272A1 (en) Selective synchronous presentation
JP2011100355A (ja) 発言記録装置、発言記録方法、プログラム及び記録媒体
Kumar et al. A knowledge graph based speech interface for question answering systems
Knill et al. Automatic grammatical error detection of non-native spoken learner english
Anastasopoulos Computational tools for endangered language documentation
CN110633724A (zh) 意图识别模型动态训练方法、装置、设备和存储介质
WO2024114389A1 (zh) 用于交互的方法、装置、设备和存储介质
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
Gaspers et al. Constructing a language from scratch: Combining bottom–up and top–down learning processes in a computational model of language acquisition
JP4840051B2 (ja) 音声学習支援装置及び音声学習支援プログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
Chen et al. An Alignment Method Leveraging Articulatory Features for Mispronunciation Detection and Diagnosis in L2 English.
JP7258627B2 (ja) 採点支援装置、その方法、およびプログラム
Alharbi Metadiscourse tagging in academic lectures
CN114547288A (zh) 一种客服信息展示方法、装置、设备及介质
Vignesh et al. Tamil speech recognizer using hidden markov model for question answering system of railways

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160314

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170221

R150 Certificate of patent or registration of utility model

Ref document number: 6099746

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250