JP2021533405A

JP2021533405A - 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理

Info

Publication number: JP2021533405A
Application number: JP2021505405A
Authority: JP
Inventors: ストヤンシック，ミハイロ; パッカード，ウォレン
Original assignee: スーズ，インコーポレイテッド
Priority date: 2018-07-30
Filing date: 2019-07-18
Publication date: 2021-12-02
Anticipated expiration: 2039-07-18
Also published as: EP3831083A4; CA3108129A1; AU2024203420A1; EP3831083A1; WO2020028057A1; CN117041659A; CN113170228B; JP7541972B2; AU2019314223A1; CN113170228A; US20200037022A1; JP2024133486A; AU2019314223B2

Abstract

イベントを描写する視聴覚コンテンツのハイライトの境界が識別される。視聴覚コンテンツは、スポーツイベントのテレビジョン放送などの放送であり得る。ハイライトは、特に関心があると思われる視聴覚コンテンツのセグメントであり得る。視聴覚コンテンツのオーディオデータが記憶され、オーディオデータが自動的に分析されて、分析されたオーディオデータ内の低スペクトル活動ポイントおよび／または低音量ポイントとして識別されるソフトエントリポイントが検出される。ソフトエントリポイントに対応する視聴覚コンテンツ内の時間インデックスが、ハイライトの開始または終了であり得る境界として指定され得る。【選択図】図４

Description

関連出願の相互参照
本出願は、２０１８年７月３０日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｘｔｒａｃｔｉｏｎｏｆＶａｒｉａｂｌｅＬｅｎｇｔｈＤｉｓｊｏｉｎｔＳｅｇｍｅｎｔｓｆｒｏｍＴｅｌｅｖｉｓｉｏｎＳｉｇｎａｌ」の米国仮出願第６２／７１２，０４１号（代理人整理番号ＴＨＵ００６−ＰＲＯＶ）の利益を主張し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年１０月１６日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＤｅｔｅｃｔｉｎｇＯｃｃｕｒｒｅｎｃｅｓｏｆＬｏｕｄＳｏｕｎｄＣｈａｒａｃｔｅｒｉｚｅｄｂｙＳｈｏｒｔ−ＴｉｍｅＥｎｅｒｇｙＢｕｒｓｔｓ」の米国仮出願第６２／７４６，４５４号（代理人整理番号ＴＨＵ０１６−ＰＲＯＶ）からの優先権を主張し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年６月１３日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｘｔｒａｃｔｉｏｎｏｆＶａｒｉａｂｌｅＬｅｎｇｔｈＤｉｓｊｏｉｎｔＳｅｇｍｅｎｔｓｆｒｏｍＡｕｄｉｏｖｉｓｕａｌＣｏｎｔｅｎｔ」の米国実用新案出願第１６／４４０，２２９号（代理人整理番号ＴＨＵ００６）からの優先権を主張し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１５年６月１６日に米国特許第９，０６０，２１０号として発行された、「ＧｅｎｅｒａｔｉｎｇＥｘｃｉｔｅｍｅｎｔＬｅｖｅｌｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」の米国実用新案出願第１３／６０１，９１５号に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１４年９月２３日に米国特許第８，８４２，００７号として発行された、「ＧｅｎｅｒａｔｉｎｇＡｌｅｒｔｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」の米国実用新案出願第１３／６０１，９２７号に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１３年１１月２６日に米国特許第８，５９５，７６３号として発行された、「ＧｅｎｅｒａｔｉｎｇＴｅａｓｅｒｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」の米国実用新案出願第１３／６０１，９３３号に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１４年１０月９日に出願された「ＧｅｎｅｒａｔｉｎｇａＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｅｑｕｅｎｃｅＤｅｐｉｃｔｉｎｇａｎＥｖｅｎｔ」の米国実用新案出願第１４／５１０，４８１号（代理人整理番号ＴＨＵ００１）に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１５年５月１２日に出願された「ＧｅｎｅｒａｔｉｎｇａＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｅｑｕｅｎｃｅＤｅｐｉｃｔｉｎｇＭｕｌｔｉｐｌｅＥｖｅｎｔｓ」の米国実用新案出願第１４／７１０，４３８号（代理人整理番号ＴＨＵ００２）に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１５年１０月７日に出願された「ＣｕｓｔｏｍｉｚｅｄＧｅｎｅｒａｔｉｏｎｏｆＨｉｇｈｌｉｇｈｔＳｈｏｗｗｉｔｈＮａｒｒａｔｉｖｅＣｏｍｐｏｎｅｎｔ」の米国実用新案出願第１４／８７７，６９１号（代理人整理番号ＴＨＵ００４）に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１６年９月１４日に出願された「ＵｓｅｒＩｎｔｅｒｆａｃｅｆｏｒＩｎｔｅｒａｃｔｉｏｎｗｉｔｈＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｈｏｗｓ」の米国実用新案出願第１５／２６４，９２８号（代理人整理番号ＴＨＵ００５）に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｎａｂｌｉｎｇＳｐｏｒｔｓＨｉｇｈｌｉｇｈｔｓＧｅｎｅｒａｔｉｏｎ」の米国実用新案出願第１６／４１１，７０４号（代理人整理番号ＴＨＵ００９）に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇａｎｄＩｎｔｅｒｐｒｅｔｉｎｇＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＣｏｎｔｅｎｔ」の米国実用新案出願第１６／４１１，７１０号（代理人整理番号ＴＨＵ０１０）に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＬｏｃａｌｉｚａｔｉｏｎａｎｄＣｏｎｔｅｎｔＥｘｔｒａｃｔｉｏｎ」の米国実用新案出願第１６／４１１，７１３号（代理人整理番号ＴＨＵ０１２）に関連し、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月２３日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＤｅｔｅｃｔｉｎｇＯｃｃｕｒｒｅｎｃｅｓｏｆＣｒｏｗｄＮｏｉｓｅｉｎＳｐｏｒｔｉｎｇＥｖｅｎｔＴｅｌｅｖｉｓｉｏｎＰｒｏｇｒａｍｍｉｎｇ」の米国実用新案出願第１６／４２１，３９１号（代理人整理番号ＴＨＵ００７）に関連し、その全体が参照により本明細書に組み込まれる。

本文書は、マルチメディアコンテンツを配信するテレビジョンデバイスまたはビデオサーバ上のマルチメディアコンテンツおよび関連する情報を識別し、またマルチメディアコンテンツの配信と同期してコンテンツおよびサービスを提供するために、組み込みソフトウェアアプリケーションがマルチメディアコンテンツを利用することを可能にする技術に関する。様々な実施形態は、スポーツイベントを描写する番組コンテンツをセグメント化して、試合中および試合後の閲覧のためのビデオハイライトを作成する自動オーディオ分析を提供するための方法およびシステムに関する。

対話型広告などの拡張テレビジョンアプリケーション、ならびに試合前、試合中、および試合後の対話型アプリケーションを持つ拡張番組ガイドが長い間想定されてきた。もともと放送テレビジョン用に設計された既存のケーブルシステムは、対話型テレビジョンサービスおよび拡張（対話型）番組ガイドを含む、新しいアプリケーションおよびサービスのホストをサポートするよう求められている。

拡張テレビジョンアプリケーションを可能にするためのいくつかのフレームワークが標準化されている。例としては、ＯｐｅｎＣａｂｌｅ（商標）拡張ＴＶアプリケーションメッセージング仕様およびＴｒｕ２ｗａｙ仕様が挙げられ、これらは、ケーブルビデオネットワークを介して配信される対話型デジタルケーブルサービスを指し、対話型番組ガイド、対話型広告、および試合などの機能を含んでいる。さらに、ケーブル事業者の「ＯＣＡＰ」番組は、ｅコマースショッピング、オンラインバンキング、電子番組ガイド、およびデジタルビデオ録画などの対話型サービスを提供している。これらの取り組みにより、番組編成者／放送局が配信するビデオコンテンツと同期され、追加のデータおよび対話性をテレビジョン番組に提供する、第１世代のビデオ同期アプリケーションが可能になった。

ビデオ／オーディオコンテンツ分析技術および対応するモバイルデバイスにおける最近の開発により、ライブＴＶ番組イベントと同期して動作する洗練されたアプリケーションの開発における一連の新しい可能性が開かれた。これらの新しい技術、オーディオ信号処理およびコンピュータビジョンの進歩、ならびに最新のプロセッサの改善された計算能力により、テレビジョンおよび他のメディア環境において現在欠けているメタデータを伴う洗練された番組コンテンツのハイライトをリアルタイムで生成できる。

音節の終了、単語もしくは単語のグループの終了、および／または文の終了（ソフトエントリポイント）など、オーディオストリーム内の低スペクトル活動および／または低音量エントリポイントを検出するためのオーディオ処理に基づいて、スポーツイベントのテレビジョン番組および／または他の視聴覚コンテンツの自動リアルタイムセグメンテーションを可能にするシステムおよび方法が提示される。（スペクトル活動が最小でありおよび／または音量が低い）検出されたソフトエントリポイントのリストを使用して、ビデオハイライト生成の基準に従って視聴覚コンテンツのセグメントを抽出できる。

少なくとも１つの実施形態では、スペクトログラムがオーディオ信号用に構築され、スライディング２Ｄエリアウィンドウを用いた時間周波数分析が可能になる。分析ウィンドウの位置ごとに、分析ウィンドウ内のスペクトル活動を表すスペクトル修飾子を生成することができる。関連する時間位置を持つスペクトル修飾子のベクトルを形成することができ、ベクトルは、連続する１秒間隔のセットにさらに分割できる。１秒間隔ごとに、内部修飾子をソートすることができ、非最大抑制を実行して、１秒間隔ごとに最大化された修飾子を持つ修飾子／位置ペアの第１のベクトルを形成することができる。後続のステップにおいて、１秒間隔内の検出されたエントリポイントを処理して、所望の平均時間スペーシングを提供し、および／または修飾子／位置ペアのさらなる選択を提供することができる。

修飾子／位置ペアの第１のベクトル内で初期アンカー要素（第１の要素）が確立された後、修飾子／位置ペアの第１のベクトルの次の要素を、最小の所望の距離（例えば、２秒など）において選択することができる。次に、次の要素のすぐ左と右の近傍を調べて、局所近傍のための最大化された修飾子を持つ新しいアンカー要素を生成することができる。このプロセスは、修飾子／位置ペアの第１のベクトルのすべての要素が使い果たされるまで続き、これにより、平均２〜３秒の可変相互距離を持ち、かつ局所近傍ごとに最大化されたスペクトル修飾子を持つ、エントリポイント（ソフトエントリ）の新しいセットが生成され得る。

次に、ソフトエントリのベクトルは、最良のエントリポイントのリストに変換され、その後、ビデオハイライト生成に適用され得る。ハイライトされたビデオセグメントの境界は、元の境界の近傍における利用可能な最良のソフトエントリに従って修正され得、その後、ハイライトが、ビデオハイライト生成アプリケーションによるさらなる処理のために抽出され得る。

少なくとも１つの実施形態では、抽出されたビデオハイライトセグメントはまた、セグメント境界に適用されるミラー化されたリードおよびトレイル曲率を用いた任意選択のフェージング機能を展開することによって処理され得、抽出された分解されたビデオセグメント間の遷移のさらなる平滑化が可能になる。

本明細書に提示される方法は、最小限の目立たないオーディオ遷移を伴うセグメント化されたビデオの滑らかな再組み立てを必要とする任意のアプリケーションにおけるビデオセグメンテーションに使用できるという意味において、一般化することができる。

少なくとも１つの実施形態では、イベントを描写する視聴覚コンテンツのハイライトの境界を識別するための方法は、イベントの少なくとも一部を描写するオーディオデータを記憶することと、オーディオデータを自動的に分析して、オーディオデータのソフトエントリポイントを検出することと、視聴覚コンテンツ内の、ソフトエントリポイントに対応する時間インデックスを境界として指定することであって、境界が、ハイライトの開始または終了を含む、指定することと、を含み得る。視聴覚コンテンツは、例えば、スポーツイベントのテレビジョン放送であり得る。

視聴覚コンテンツは、視聴覚ストリームを含み得る。この方法は、イベントの少なくとも一部を描写するオーディオデータを記憶する前に、視聴覚ストリームからオーディオデータを抽出することをさらに含み得る。

視聴覚コンテンツは、記憶された視聴覚コンテンツおよび／またはリアルタイムコンテンツを含み得る。この方法は、イベントの少なくとも一部を描写するオーディオデータを記憶する前に、記憶された視聴覚コンテンツおよび／またはリアルタイムコンテンツからオーディオデータを抽出することをさらに含み得る。

イベントは、スポーツイベントであり得る。ハイライトは、１人以上のユーザにとって特に関心があると見なされるスポーツイベントの一部を描写し得る。

この方法は、ソフトエントリポイントの検出中に、視聴覚コンテンツおよびハイライトのうちの１つを出力デバイスにおいて再生することをさらに含み得る。

この方法は、ソフトエントリポイントを検出する前に、オーディオデータを所望のサンプリングレートにリサンプリングすることによってオーディオデータを前処理することをさらに含み得る。

この方法は、ソフトエントリポイントを検出する前に、オーディオデータをフィルタリングしてノイズを低減または除去することによってオーディオデータを前処理することをさらに含み得る。

この方法は、ソフトエントリポイントを検出する前に、オーディオデータを処理して、オーディオデータの少なくとも一部のスペクトログラムを生成することをさらに含み得る。

ソフトエントリポイントを検出することは、スペクトログラムに対してスライディング２次元時間周波数分析ウィンドウを適用することを含み得る。

ソフトエントリポイントを検出することは、スペクトログラムのスライディング２次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、平均スペクトル振幅インジケータを使用して、スペクトログラムのスペクトル振幅インジケータ／位置ペアのベクトルを形成することと、を含み得る。

ソフトエントリポイントを検出することは、各ベクトル要素の平均スペクトル振幅インジケータを整数修飾子Ｑにコンバートすることと、Ｑ／位置ペアを持つ初期ベクトルを生成することと、をさらに含み得る。

ソフトエントリポイントを検出することは、Ｑ／位置ペアを持つ初期ベクトルの要素をステップ実行することと、１秒間隔ごとにＱ修飾子の非最大抑制を実行し、最大化されたＱ修飾子を持つ第１のベクトルを形成することによって、各１秒間隔あたりのＱを最大化することと、をさらに含み得る。

ソフトエントリポイントを検出することは、最大化されたＱ修飾子を持つ第１のベクトルの各エントリの時間コンポーネントをステップ実行することと、各時間位置について、現在の位置の時間コンポーネントを前の位置の前の時間コンポーネントと比較して、距離を取得することと、距離がしきい値よりも大きい第１のベクトルの各要素について、その要素の位置のすぐ近傍において最大のＱを見つけることと、各近傍において最大のＱを持つＱ／位置ペアを新しいソフトエントリベクトルに入力することと、をさらに含み得る。

この方法は、時間インデックスを境界として指定する前に、ハイライトを暫定的な境界で識別することをさらに含み得る。時間インデックスを境界として指定することは、暫定的な境界を、利用可能なソフトエントリのリストから取得された境界で置き換えることを含み得る。

さらなる詳細および変形例は、本明細書に記載されている。

添付の図面は、説明とともに、いくつかの実施形態を示している。当業者は、図面に示される特定の実施形態は単なる例示的なものであり、範囲を限定することを意図するものではないことを認識するであろう。

クライアント／サーバの実施形態による、ハードウェアアーキテクチャを示すブロック図であり、イベントコンテンツは、ネットワーク接続されたコンテンツプロバイダを介して提供される。別のクライアント／サーバの実施形態による、ハードウェアアーキテクチャを示すブロック図であり、イベントコンテンツは、クライアントベースの記憶デバイスに記憶される。スタンドアロンの実施形態による、ハードウェアアーキテクチャを示すブロック図である。一実施形態による、システムアーキテクチャの概要を示すブロック図である。一実施形態による、図１Ａ、図Ｂ、および図１Ｃのオーディオデータ、ユーザデータ、およびハイライトデータに組み込むことができるデータ構造の例を示す概略ブロック図である。一実施形態による、時間領域においてスポーツイベントのテレビジョン番組コンテンツから抽出されたオーディオストリーム内のソフトエントリポイントのオカレンスを示すオーディオ波形グラフの例を示す。一実施形態による、時間周波数領域における、図３Ａのオーディオ波形グラフに対応するスペクトログラムの例を示す。一実施形態による、リサンプリング、フィルタリング、およびスペクトログラム構築によるオーディオ前処理のための方法を示すフローチャートである。一実施形態による、時間周波数領域におけるオーディオストリームなどのオーディオデータを分析し、修飾子の初期ベクトルを生成するための方法を示すフローチャートである。一実施形態による、各１秒間隔内で最大化された修飾子を持つベクトルを生成するための方法を示すフローチャートである。一実施形態による、可変スペーシングおよび最大化された局所近傍修飾子を持つソフトエントリポイントをさらに選択するための方法を示すフローチャートである。一実施形態による、スパースセグメンテーションのための、検出されたエントリポイントの任意選択の修正のための方法を示すフローチャートである。一実施形態による、利用可能なソフトエントリポイントのリストに基づいて調整されたハイライトを組み立てる方法を示すフローチャートである。

定義
以下の定義は説明のみを目的として提示されており、範囲を制限することを意図するものではない。
・イベント：本明細書の説明の目的上、「イベント」という用語は、試合、セッション、対戦、シリーズ、パフォーマンス、番組、コンサートなど、またはその部分（行為、ピリオド、クォーター、ハーフ、イニング、シーン、チャプターなど）を指す。イベントは、スポーツイベント、娯楽イベント、イベントの参加者のより大きい集団内の一個人または部分集団の特定のパフォーマンスなどであってもよい。スポーツ以外のイベントの例としては、テレビジョンショー、ニュース速報、社会政治的出来事、自然災害、映画、演劇、ラジオショー、ポッドキャスト、オーディオブック、オンラインコンテンツ、演奏などが挙げられる。イベントは、任意の長さを有することができる。例示目的のために、本明細書ではスポーツイベントの観点から本技術を説明することが多いが、当業者は、この技術が、任意の視聴覚、オーディオ、ビジュアル、グラフィックスベース、対話型、非対話型、またはテキストベースのコンテンツのハイライトショーを含む、他の文脈でも使用できることを認識するであろう。したがって、本説明における「スポーツイベント」という用語および任意の他のスポーツ固有の用語の使用は、１つの想定される実施形態を例示することを意図しているが、記載される技術の範囲をその１つの実施形態に限定することを意図しているわけではない。むしろ、そのような用語は、この技術に適切な、任意の好適なスポーツ以外の文脈にまで及ぶと考えられるべきである。説明を容易にするために、「イベント」という用語はまた、イベントの視聴覚記録などのイベントの報告もしくは表現、またはイベントの報告、説明、もしくは描写を含む任意の他のコンテンツ項目を指すためにも使用される。
・ハイライト：イベントの抜粋もしく一部、または１人以上のユーザにとって特に関心があると思われるイベントに関連するコンテンツの抜粋もしくは一部。ハイライトは、任意の長さを有することができる。概して、本明細書に記載の技術は、任意の好適なイベントについて、カスタマイズされたハイライトのセット（特定の特性および／またはユーザ選好に基づいて選択され得る）を識別および提示するための機構を提供する。「ハイライト」という用語はまた、ハイライトの視聴覚記録などのハイライトの報告もしくは表現、またはハイライトの報告、説明、もしくは描写を含む任意の他のコンテンツ項目を指すためにも使用され得る。ハイライトは、イベント自体の描写に限定される必要はないが、イベントに関連付けられた他のコンテンツを含むことができる。例えば、スポーツイベントの場合、ハイライトは、試合中のオーディオ／ビデオ、ならびに試合前、試合中、および試合後のインタビュー、分析、解説などの他のコンテンツを含むことができる。このようなコンテンツは、（例えば、イベント自体を描写する視聴覚ストリームの一部として）リニアテレビジョンから記録するか、または他の任意の数のソースから取得することができる。例えば、オカレンス（プレー）、ストリング、ポゼッション、およびシーケンスを含む、様々なタイプのハイライトを提供でき、これらはすべて以下で定義される。ハイライトは、固定された持続時間である必要はないが、以下で説明するように、開始オフセットおよび／または終了オフセットを組み込むことができる。
・クリップ：イベントのオーディオ、ビジュアル、または視聴覚表現の一部。クリップは、ハイライトに対応するか、またはハイライトを表す場合がある。本明細書の多くの文脈では、「セグメント」という用語が「クリップ」と交換可能に使用される。クリップは、オーディオストリーム、ビデオストリーム、もしくは視聴覚ストリームの部分である場合もあれば、または記憶されたオーディオ、ビデオ、もしくは視聴覚コンテンツの部分である場合もある。
・コンテンツデリニエータ：ハイライトの開始または終了を示す１つ以上のビデオフレーム。
・オカレンス：イベント中に発生するもの。例としては、ゴール、プレー、ダウン、ヒット、セーブ、ゴールへのシュート、バスケットの得点、盗塁、スナップもしくはスナップの試み、ニアミス、喧嘩、試合、クォーター、ハーフ、ピリオド、もしくはイニングの開始もしくは終了、投球、ペナルティ、負傷、娯楽イベントでのドラマチックな出来事、歌、ソロなどが挙げられる。停電、手に負えないファンの出来事など、オカレンスは異例のことである場合もある。このようなオカレンスの検出は、視聴覚ストリームの特定の部分をハイライトとして指定するか否かを判定するための基礎として使用できる。オカレンスは、学術用語を容易にするために、本明細書では「プレー」とも呼ばれるが、そのような使用法は、範囲を限定するものと解釈されるべきではない。オカレンスは、任意の長さを有してもよく、オカレンスの表現は、様々な長さを有してもよい。例えば、上記のように、オカレンスの拡張表現は、オカレンスの直前および直後の時間期間を描写する映像を含み得るが、簡単な表現は、オカレンス自体のみを含み得る。任意の中間表現も提供することができる。少なくとも１つの実施形態では、オカレンスを表現するための持続時間の選択は、ユーザ選好、利用可能な時間、オカレンスに対する判定された興奮レベル、オカレンスの重要度、および／または任意の他の要因に依存することができる。
・オフセット：ハイライトの長さが調整される量。少なくとも１つの実施形態では、ハイライトの開始時間および／または終了時間をそれぞれ調整するために、開始オフセットおよび／または終了オフセットを提供することができる。例えば、ハイライトがゴールを描写する場合、ハイライトは、ゴールに続く賞揚および／またはファンの反応を含むように、（終了オフセットを介して）数秒間延長され得る。オフセットは、例えば、ハイライトに利用可能な時間量、ハイライトの重要度および／もしくは興奮レベル、ならびに／または任意の他の好適な要因に基づいて、自動または手動で変更するように構成することができる。
・ストリング：何らかの形で互いとリンクまたは関連している一連のオカレンス。オカレンスは、ポゼッション（以下に定義する）内で発生してもよく、複数のポゼッションにまたがってもよい。オカレンスは、シーケンス（以下に定義する）内で発生してもよく、複数のシーケンスにまたがってもよい。オカレンスは、互いに何らかの主題的もしくは物語的なつながりがあるため、またはあるものが別のものにつながるため、または任意の他の理由で、リンクまたは関連していてもよい。ストリングの一例は、ゴールまたはバスケットの得点につながるパスのセットである。これは、コンピュータプログラミング分野におけるストリングに通常割り当てられている意味を有する「テキストストリング」と混同してはならない。
・ポゼッション：イベントの任意の時間で区切られた部分。ポゼッションの開始／終了時間の分界は、イベントのタイプによって決まり得る。一方のチームが攻撃的であり得るが、他方のチームが防御的である特定のスポーツイベント（例えば、バスケットボールまたはサッカーなど）の場合、ポゼッションは、チームの一方がボールを有している時間期間として定義することができる。ホッケーまたはサッカーなど、パックまたはボールのポゼッションがより流動的であるスポーツでは、ポゼッションは、チームのうちの一方が他方のチームによる瞬間的な接触（ブロックされたシュートまたはセーブなど）を無視して、パックまたはボールの実質的な制御を有する時間期間にまで及ぶと考えられ得る。野球の場合、ポゼッションはハーフイニングとして定義される。フットボールの場合、ポゼッションは、同じチームがボールを有しているいくつかのシーケンスを含むことができる。他のタイプのスポーツイベントならびにスポーツ以外のイベントの場合、「ポゼッション」という用語は、いくぶん誤称であり得るが、本明細書では、それでも説明のために使用する。スポーツ以外の文脈における例としては、チャプター、シーン、アクトなどを挙げることができる。例えば、音楽コンサートの文脈では、ポゼッションは、単一の歌のパフォーマンスに相当し得る。ポゼッションは、任意の数のオカレンスを含むことができる。
・シーケンス：１つの連続したアクションの時間期間を含むイベントの時間で区切られた部分。例えば、スポーツイベントでは、シーケンスはアクションの開始時（フェイスオフ、またはジャンプボールなど）に開始し得、笛が吹かれてアクションの中断を示すときに終了し得る。野球またはフットボールなどのスポーツでは、シーケンスはプレーと同等である場合があり、これはオカレンスの一形態である。シーケンスは、任意の数のポゼッションを含むことができるか、またはポゼッションの一部分であってもよい。
・ハイライトショー：ユーザへの提示のために構成されたハイライトのセット。ハイライトショーは、（視聴覚ストリームなど）直線的に提示されるか、またはユーザが（例えば、リンクもしくはサムネイルをクリックすることによって）閲覧するハイライトおよび順序を選択できるように提示され得る。ハイライトショーの提示は、非対話型または対話型であり得、例えば、ユーザが一時停止、巻き戻し、スキップ、早送り、賛成または反対の選好を伝達することなどを可能にする。ハイライトショーは、例えば、凝縮された試合であり得る。ハイライトショーは、単一のイベントから、または複数のイベントから、連続または非連続のハイライトを任意の数だけ含むことができ、さらには異なるタイプのイベント（例えば、異なるスポーツ、ならびに／またはスポーツおよびスポーツ以外のイベントのハイライトの組み合わせ）からのハイライトを含むこともできる。
・ユーザ／閲覧者：「ユーザ」または「閲覧者」という用語は、イベント、イベントの１つ以上のハイライト、またはハイライトショーを見たり、聞いたり、または他の方法で体験したりする個人、グループ、または他のエンティティを交換可能に指す。「ユーザ」または「閲覧者」という用語はまた、ある将来の時点で、イベント、イベントの１つ以上のハイライト、またはハイライトショーのいずれかを見たり、聞いたり、または他の方法で体験したりし得る個人、グループ、または他のエンティティを指すこともできる。「閲覧者」という用語は説明の目的で使用される場合があるが、イベントにビジュアルコンポーネントが含まれている必要はないため、「閲覧者」は代わりにリスナーまたはコンテンツの任意の他の消費者であってもよい。
・興奮レベル：特定のユーザまたは一般のユーザにとって、イベントまたはハイライトがどれほど興奮するものになるかまたは興味深いものになるかを示す尺度。興奮レベルは、特定のオカレンスまたはプレーヤに関して判定することもできる。興奮レベルを測定または評価するための様々な技術は、上記で参照した関連出願において説明されている。説明したように、興奮レベルは、イベント内のオカレンス、およびイベントの全体的な文脈または重要度（プレーオフ試合、ペナントの影響、および／またはライバル関係など）などの他の要因によって決まる場合がある。少なくとも１つの実施形態では、興奮レベルは、イベント内の各オカレンス、ストリング、ポゼッション、またはシーケンスに関連付けることができる。例えば、ポゼッションの興奮レベルは、そのポゼッション内で発生するオカレンスに基づいて判定することができる。興奮レベルは、異なるユーザ（例えば、あるチームのファンと中立のファン）によって異なる方法で測定されてもよく、各ユーザの個人的な特性によって決まる場合がある。
・メタデータ：他のデータに関連し、他のデータに関連付けられて記憶されるデータ。一次データは、スポーツ番組またはハイライトなどのメディアであってもよい。
・ビデオデータ。デジタル形式またはアナログ形式であり得る、ある長さのビデオ。ビデオデータは、ローカル記憶デバイスに記憶することができるか、またはＴＶ放送アンテナ、ケーブルネットワーク、もしくはコンピュータサーバなどのソースからリアルタイムで受信することができ、この場合、それは「ビデオストリーム」と呼ばれることもある。ビデオデータは、オーディオコンポーネントを含む場合と含まない場合があり、オーディオコンポーネントを含む場合は、「視聴覚データ」または「視聴覚ストリーム」と呼ばれることがある。
・オーディオデータ。デジタル形式またはアナログ形式であり得る、ある長さのオーディオ。オーディオデータは、視聴覚データまたは視聴覚ストリームのオーディオコンポーネントであり得、視聴覚データからオーディオデータを抽出することによって分離され得る。オーディオデータは、ローカル記憶装置に記憶することができるか、またはＴＶ放送アンテナ、ケーブルネットワーク、もしくはコンピュータサーバなどのソースからリアルタイムで受信することができ、この場合、それは「オーディオストリーム」と呼ばれることもある。
・ストリーム。オーディオストリーム、ビデオストリーム、または視聴覚ストリーム。
・時間インデックス。イベントが発生するか、または別様にハイライトなどの指定されたセグメントに関連する、オーディオデータ、ビデオデータ、または視聴覚データ内の時間のインジケータ。
・スペクトログラム。時間とともに変化する、オーディオストリームなどの信号の周波数スペクトルのビジュアル表現。スペクトログラムは、オーディオ信号に短時間フーリエ変換（ＳＴＦＴ）を適用することによって導出されるオーディオ信号の２次元時間周波数表現であり得る。
・分析ウィンドウ。ビデオデータ、オーディオデータ、視聴覚データ、スペクトログラム、ストリーム、または他の方法で処理されたバージョンのストリームもしくはデータの、指定されたサブセットであって、そこにおいて分析の１つのステップに焦点が当てられる。オーディオデータ、ビデオデータ、視聴覚データ、またはスペクトログラムは、例えば、データまたはスペクトログラムの様々なセグメントをカバーする移動する分析ウィンドウおよび／または一連の分析ウィンドウを使用してセグメント内で分析することができる。
・境界。あるオーディオ、ビデオ、および／または視聴覚セグメントを別のセグメントから分離する分界。境界は、テレビジョン放送などの視聴覚コンテンツのハイライトなどのセグメントの開始または終了であり得る。境界は、暫定的（つまり、仮のおよび／もしくはその後の置換を目的としたもの）または最終的であり得る。いくつかの実施形態では、ハイライトは、最初に暫定的な境界で識別され得る。オーディオ分析を実行して、次いでハイライトの最終的な境界を（時間的に）特定するために使用されるソフトエントリポイントを識別することができる。
・ソフトエントリポイント。異なるシーン、コンテンツのタイプ、再生などの間の有望なまたは好ましい遷移ポイントを表すオーディオ、ビデオ、または視聴覚ストリームの一部。ソフトエントリポイントは、スポーツイベントの文脈では、試合中の解説またはプレー間の休止を表すオーディオ信号のより静かな部分である場合がある。

概要
少なくとも１つの実施形態では、本明細書に記載のシステムおよび方法は、音節、文、および／または単語のグループの終了などの低活動エントリポイント（「ソフトエントリポイント」）を検出するためのオーディオ処理に基づいて、テレビジョン番組などの視聴覚番組の自動リアルタイム可変長セグメンテーションを実行する。これらのエントリポイントは、視聴覚番組のセグメントを抽出する際のガイドとして使用でき、これにより、あるハイライトから次のハイライトへの遷移が改善されてハイライト生成が容易になり、会話または他の音が途切れることを回避し、突然の遷移を回避することができる。

少なくとも１つの実施形態では、自動化されたビデオハイライトおよび関連するメタデータ生成アプリケーションは、ライブ放送視聴覚ストリーム、またはコンピュータサーバを介して受信されたデジタル視聴覚ストリームを受信することができる。次に、アプリケーションは、例えば、デジタル信号処理技術を使用して、視聴覚ストリームから抽出されたオーディオストリームなどのオーディオデータを処理して、ソフトエントリポイントを検出することができる。

代替の実施形態では、本明細書に記載の技術は、他のタイプのソースコンテンツに適用することができる。例えば、オーディオデータは、視聴覚ストリームから抽出される必要はなく、むしろ、スポーツイベントまたは他のイベントのラジオ放送または他のオーディオ描写であってもよい。あるいは、本明細書に記載の技術は、イベントを描写する記憶されたオーディオデータに適用することができ、このようなデータは、記憶された視聴覚データから抽出される場合と抽出されない場合がある。

対話型テレビジョンアプリケーションは、プライマリテレビジョンディスプレイ、またはタブレット、ラップトップ、もしくはスマートフォンなどのセカンダリディスプレイのいずれかでテレビジョン番組を見ているユーザに、ハイライトされたテレビジョン番組コンテンツをタイムリーに適切に提示できるようにする。少なくとも１つの実施形態では、テレビジョン放送コンテンツのハイライトを表すクリップのセットが、ハイライトクリップによって提示されるイベントをより詳細に記述する時間ベースのメタデータを含むデータベースとともに、リアルタイムで生成および／または記憶される。本明細書でより詳細に説明するように、そのようなクリップの開始時間および／または終了時間は、少なくとも部分的に、抽出されたオーディオデータの分析に基づいて判定することができる。

様々な実施形態では、クリップに付随するメタデータは、テキスト情報、画像、および／または任意のタイプの視聴覚データなどの任意の情報であり得る。試合中のビデオコンテンツのハイライトと、試合後のビデオコンテンツのハイライトの両方に関連するメタデータの１つのタイプは、スポーツイベントのテレビジョン番組または他の視聴覚コンテンツから抽出されたオーディオデータのリアルタイム処理によって検出されたイベントを提示する。様々な実施形態では、本明細書に記載のシステムおよび方法は、自動メタデータ生成およびビデオハイライト処理を可能にし、ハイライトの開始時間および／または終了時間は、オーディオストリームなどのデジタルオーディオデータを分析することによって検出および／または精緻化され得る。

例えば、ハイライトは、そのようなオーディオデータを分析して、特定の興奮するイベント、オーディオアナウンス、音楽などに続く歓声を上げる群衆のノイズを検出することによって識別できる。さらに、または代わりに、ハイライトは、上記の親出願のいずれかにおいて提示された他の方法のいずれかで検出され得る。ソフトエントリポイントの識別は、ハイライトの開始時間および／または終了時間を識別または精緻化するために使用され得、その結果、ハイライトは、視聴覚コンテンツ内の自然な中断において開始および／または終了し、このようにして不必要に突然の遷移を回避する。少なくとも１つの実施形態では、スポーツイベントのテレビジョン番組コンテンツから抽出されたオーディオストリームであり得るオーディオデータに対してリアルタイム処理を実行して、そのようなソフトエントリポイントを検出、選択、および追跡する。

少なくとも１つの実施形態では、スポーツイベントのテレビジョン番組コンテンツなどの視聴覚コンテンツから抽出されたオーディオ信号の自動リアルタイム処理のための方法は、ソフトエントリポイントを検出する。この方法は、オーディオ信号をキャプチャ、デコード、および前処理することと、低スペクトル活動のエリアを検出するための結合された時間周波数分析のための時間周波数オーディオスペクトログラムを生成することと、重複しているスペクトログラムエリアのスペクトルインジケータを生成することと、関連する時間位置を持つスペクトル修飾子のベクトルを形成することとを含み得る。この方法はさらに、ベクトルを連続する１秒間隔に分割することと、１秒間隔ごとに内部スペクトル修飾子をソートすることと、非最大抑制を実行して、修飾子／位置ペアの第１のベクトルを形成することとを含み得る。さらに、この方法は、各修飾子／位置ペアの第１のベクトルを処理して、所望の平均時間スペーシングを提供し、修飾子／位置ペアのさらなる選択を提供することを含み得る。またさらに、この方法は、最良のエントリポイントのリストを形成することと、例えば、元の境界の近傍における利用可能な最良のソフトエントリに従って、ハイライトされたビデオセグメントの境界を修正することによって、最良のエントリポイントのリストをビデオハイライト生成に適用することとを含み得る。

少なくとも１つの実施形態では、このシステムおよび方法は、圧縮されたオーディオデータを受信し、圧縮されたオーディオデータを読み取り、デコードし、かつ所望のサンプリングレートにリサンプリングする。ノイズ低減、クリック除去、および対象の周波数帯域の選択のために、事前フィルタリングを実行できる。いくつかの交換可能なデジタルフィルタリング段階のいずれかを使用できる。

重複しているスペクトログラムエリアは、１秒未満の時間範囲の２Ｄ時間周波数ウィンドウによって分析できる。少なくとも１つの実施形態では、分析時間周波数ウィンドウは、スペクトログラム時間座標に沿ってスライドされ、ウィンドウの正規化された平均振幅が、重複している各ウィンドウ位置において計算される。

平均振幅は、各分析ウィンドウ位置において生成されるスペクトルインジケータであり得る。関連する時間位置を持つスペクトルインジケータの初期ベクトルが形成され、連続する１秒間隔にさらに分割され得る。１秒間隔ごとに、内部修飾子をソートすることができ、非最大抑制を実行して、修飾子／位置ペアの第１のベクトルを形成することができる。１秒間隔内の検出されたエントリポイントを処理して、所望の平均時間スペーシングを提供し、修飾子／位置ペアのさらなる選択を提供することができる。説明のために、本明細書の説明は１秒間隔に言及するが、当業者は、任意の好適な長さの間隔を使用できることを認識するであろう。

初期アンカー要素（第１の要素）が確立された後、次の要素は、２秒などの長さを持つ最小の所望の距離において選択され得る。他の長さも使用できる。次の要素のすぐ左と右の近傍の要素を調べて、局所近傍のための最大化された修飾子を持つ新しいアンカー要素を生成することができる。修飾子／位置ペアのすべての第１のベクトルは、連続するステップにおいて処理され、例えば、平均２〜３秒の可変相互距離を持ち、かつ局所近傍ごとに最大化されたスペクトル修飾子を持つ、ソフトエントリポイントの新しいセットを生成できる。

ソフトエントリのベクトルは、最良のエントリポイントのリストに変換され、その後、ビデオハイライト生成に適用され得る。ハイライトされたビデオセグメントの境界は、元の境界の近傍における利用可能な最良のソフトエントリに従って修正され得る。境界が修正されたハイライトされたビデオセグメントが、ビデオハイライト生成アプリケーションによるさらなる処理のために抽出され得る。さらに、抽出されたビデオハイライトセグメントは、セグメント境界に適用されるミラー化されたリードおよびトレイル曲率を用いた任意選択のフェージング機能を展開することによって処理できる。

システムアーキテクチャ
様々な実施形態によれば、システムは、情報を受信、記憶、および提示するように装備された任意の電子デバイスまたは電子デバイスのセットに実装することができる。このような電子デバイスは、例えば、デスクトップコンピュータ、ラップトップコンピュータ、テレビジョン、スマートフォン、タブレット、音楽プレーヤ、オーディオデバイス、キオスク、セットトップボックス（ＳＴＢ）、試合システム、ウェアラブルデバイス、家庭用電子デバイスなどであってもよい。

システムは、特定のタイプの計算デバイスでの実装に関連して本明細書に記載されるが、当業者は、本明細書に記載される技術は、他の文脈で実装することができ、実際には、ユーザ入力を受信および／または処理し、ユーザに出力を提示できる任意の好適なデバイスで実装できることを認識するであろう。したがって、以下の説明は、範囲を限定するのではなく、例として様々な実施形態を示すことを意図している。

ここで図１Ａを参照すると、クライアント／サーバの実施形態による、オーディオデータを自動的に分析してソフトエントリポイントを検出して、ハイライトの境界を指定するためのシステム１００のハードウェアアーキテクチャを示すブロック図が示されている。オーディオコンテンツを含む視聴覚ストリームなどのイベントコンテンツは、ネットワーク接続されたコンテンツプロバイダ１２４を介して提供され得る。そのようなクライアント／サーバの実施形態の例はウェブベースの実装であり、１つ以上のクライアントデバイス１０６の各々は、通信ネットワーク１０４を介して、データプロバイダ（複数可）サーバ１２２および／またはコンテンツプロバイダ（複数可）サーバ１２４を含む様々なサーバ１０２、１１４、１１６からのコンテンツと対話するためのユーザインターフェースを提供する、ブラウザまたはアプリを実行する。クライアントデバイス１０６からの要求に応答するコンテンツおよび／またはデータの送信は、ハイパーテキストマークアップ言語（ＨＴＭＬ）、Ｊａｖａ、ＯｂｊｅｃｔｉｖｅＣ、Ｐｙｔｈｏｎ、ＪａｖａＳｃｒｉｐｔなどの任意の既知のプロトコルおよび言語を使用して行うことができる。

クライアントデバイス１０６は、デスクトップコンピュータ、ラップトップコンピュータ、テレビジョン、スマートフォン、タブレット、音楽プレーヤ、オーディオデバイス、キオスク、セットトップボックス、試合システム、ウェアラブルデバイス、家庭用電子デバイスなどの任意の電子デバイスであり得る。少なくとも１つの実施形態では、クライアントデバイス１０６は、当業者に既知のいくつかのハードウェアコンポーネントを有する。入力デバイス（複数可）１５１は、ユーザ１５０からの入力を受信する任意のコンポーネント（複数可）であり得、例えば、手持ち式リモートコントロール、キーボード、マウス、スタイラス、タッチセンシティブスクリーン（タッチスクリーン）、タッチパッド、ジェスチャレセプタ、トラックボール、加速度計、五方向スイッチ、またはマイクロフォンなどを含む。入力は、例えば、ポイント、タップ、タイプ、ドラッグ、ジェスチャ、チルト、シェイク、および／またはスピーチのうちの１つ以上を含む、任意の好適なモードを介して提供することができる。表示スクリーン１５２は、イベント、ハイライトなどの描写を含む、情報、ビデオ、コンテンツなどをグラフィカルに表示する任意のコンポーネントであり得る。そのような出力はまた、例えば、視聴覚コンテンツ、データビジュアル化、ナビゲーション要素、グラフィック要素、コンテンツ、メタデータなどの選択のための情報および／またはパラメータを要求するクエリを含み得る。一度に所望の出力の一部のみが提示される少なくとも１つの実施形態では、スクロール機構などの動的制御は、入力デバイス（複数可）１５１を介して、どの情報を現在表示するかを選択するために、および／または情報を表示する方法を変更するために利用可能であってもよい。

プロセッサ１５７は、周知の技術に従って、ソフトウェアの指示の下でデータに対する操作を実行するための従来のマイクロプロセッサであり得る。メモリ１５６は、本明細書に記載の動作を実行するためのソフトウェアを実行する過程でプロセッサ１５７による使用のための、当技術分野で既知の構造およびアーキテクチャを有するランダムアクセスメモリであり得る。クライアントデバイス１０６はまた、ハードドライブ、フラッシュドライブ、光もしくは磁気記憶デバイス、ウェブベース（クラウドベース）記憶装置などであり得るローカル記憶装置（図示せず）も含むことができる。

インターネット、テレビジョンネットワーク、ケーブルネットワーク、セルラネットワークなどの任意の好適なタイプの通信ネットワーク１０４は、任意の好適なプロトコルおよび技術に従って、クライアントデバイス１０６と、様々なサーバ（複数可）１０２、１１４、１１６、および／またはコンテンツプロバイダ（複数可）１２４、および／またはデータプロバイダ（複数可）１２２との間でデータを送信するための機構として使用することができる。インターネットに加えて、他の例としては、セルラ電話ネットワーク、ＥＤＧＥ、３Ｇ、４Ｇ、ロングタームエボリューション（ＬＴＥ）、セッション開始プロトコル（ＳＩＰ）、ショートメッセージピアツーピアプロトコル（ＳＭＰＰ）、ＳＳ７、Ｗｉ−Ｆｉ、ブルートゥース、ＺｉｇＢｅｅ、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、セキュアハイパーテキスト転送プロトコル（ＳＨＴＴＰ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）など、および／またはこれらの任意の組み合わせが挙げられる。少なくとも１つの実施形態では、クライアントデバイス１０６は、通信ネットワーク１０４を介してデータおよび／またはコンテンツの要求を送信し、要求されたデータおよび／またはコンテンツを含む応答をサーバ（複数可）１０２、１１４、１１６から受信する。

少なくとも１つの実施形態では、図１Ａのシステムは、スポーツイベントに関連して動作する。しかしながら、本明細書の教示は、スポーツ以外のイベントにも適用され、本明細書に記載の技術は、スポーツイベントへの適用に限定されないことを理解されるべきである。例えば、本明細書に記載の技術は、テレビジョンショー、映画、ニュースイベント、試合ショー、政治活動、ビジネスショー、ドラマ、および／もしくは他のエピソードコンテンツに関連して、またはこのような２つ以上のイベントのために動作させるために利用することができる。

少なくとも１つの実施形態では、システム１００は、イベントを表すオーディオコンテンツを分析することによって、スポーツイベントの放送などのイベントを描写する視聴覚コンテンツのハイライトを識別する。この分析は、リアルタイムで行うことができる。少なくとも１つの実施形態では、システム１００は、通信ネットワーク１０４を介して１つ以上のクライアントデバイス１０６に結合された１つ以上のウェブサーバ（複数可）１０２を含む。通信ネットワーク１０４は、パブリックネットワーク、プライベートネットワーク、またはインターネットなどのパブリックネットワークとプライベートネットワークとの組み合わせであってもよい。通信ネットワーク１０４は、ＬＡＮ、ＷＡＮ、有線、無線、および／または上記の組み合わせであり得る。クライアントデバイス１０６は、少なくとも１つの実施形態では、有線または無線接続のいずれかを介して通信ネットワーク１０４に接続することができる。少なくとも１つの実施形態では、クライアントデバイスはまた、ＤＶＲ、ＰＶＲ、または他のメディア記録デバイスなどの、イベントを受信および記録することができる記録デバイスを含み得る。そのような記録デバイスは、クライアントデバイス１０６の一部であり得るか、または外部であり得る。他の実施形態では、そのような記録デバイスは省略され得る。図１Ａは１つのクライアントデバイス１０６を示しているが、システム１００は、単一のタイプまたは複数のタイプの任意の数のクライアントデバイス（複数可）１０６を実装することができる。

ウェブサーバ（複数可）１０２は、クライアントデバイス（複数可）１０６からの要求を受信し、それらの要求にデータで応答するとともに、未承諾のアラートおよび他のメッセージを送信することができる１つ以上の物理計算デバイスおよび／またはソフトウェアを含み得る。ウェブサーバ（複数可）１０２は、負荷分散、キャッシング、およびクラスタリングなどのフォールトトレランスおよびスケーラビリティのための様々な戦略を採用してもよい。少なくとも１つの実施形態では、ウェブサーバ（複数可）１０２は、クライアント要求およびイベントに関連する情報を記憶するための、当技術分野で知られているようなキャッシング技術を含み得る。

ウェブサーバ（複数可）１０２は、クライアントデバイス（複数可）１０６から受信した要求に応答するために、１つ以上のアプリケーションサーバ（複数可）１１４を管理するか、または他の方法で指定することができる。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、クライアントデバイス（複数可）１０６内のクライアントアプリケーションプログラムによる使用のためのビジネスロジックへのアクセスを提供する。アプリケーションサーバ（複数可）１１４は、ウェブサーバ（複数可）１０２と同じ場所に位置し、共有され、または共同管理されてもよい。アプリケーションサーバ（複数可）１１４はまた、ウェブサーバ（複数可）１０２から離れていてもよい。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、１つ以上の分析サーバ（複数可）１１６および１つ以上のデータサーバ（複数可）１１８と対話して、開示された技術の１つ以上の動作を実行する。

１つ以上の記憶デバイス１５３は、システム１００の動作に関連するデータを記憶することによって「データストア」として機能することができる。このデータは、例えば、限定ではないが、１つ以上のオーディオ信号を表すオーディオデータ１５４を含み得る。オーディオデータ１５４は、例えば、スポーツイベントおよび／または他のイベントを表す視聴覚ストリームまたは記憶された視聴覚コンテンツから抽出され得る。

オーディオデータ１５４は、ビデオ画像に付随するオーディオストリーム、処理されたバージョンの視聴覚ストリーム、ならびに、イベントの時間インデックス、持続時間、振幅、および／または他のパラメータなどのオーディオデータ１５４に関係するメトリックおよび／またはベクトルなど、視聴覚ストリームに埋め込まれたオーディオに関係する任意の情報を含むことができる。ユーザデータ１５５は、例えば、人口統計、購入行動、視聴覚ストリーム閲覧行動、関心、選好などを含む、１人以上のユーザ１５０を記述する任意の情報を含むことができる。ハイライトデータ１６４は、ハイライト、ハイライト識別子、時間インジケータ、カテゴリ、興奮レベル、およびハイライトに関連する他のデータを含み得る。オーディオデータ１５４、ユーザデータ１５５、およびハイライトデータ１６４については、後で詳細に説明する。

特に、システム１００の多くのコンポーネントは、計算デバイスであってもよく、またはそれを含んでもよい。このような計算デバイスは各々、上に示し、説明したように、クライアントデバイス１０６のアーキテクチャと同様のアーキテクチャを有してもよい。したがって、通信ネットワーク１０４、ウェブサーバ１０２、アプリケーションサーバ１１４、分析サーバ１１６、データプロバイダ１２２、コンテンツプロバイダ１２４、データサーバ１１８、および記憶デバイス１５３のいずれかは、クライアントデバイス１０６に関連して上述したように、入力デバイス１５１、表示スクリーン１５２、メモリ１５６、および／またはプロセッサ１５７を任意選択でそれぞれ有し得る、１つ以上の計算デバイスを含んでもよい。

システム１００の例示的な動作では、クライアントデバイス１０６の１人以上のユーザ１５０は、視聴覚ストリームの形態で、コンテンツプロバイダ１２４からのコンテンツを閲覧する。視聴覚ストリームは、スポーツイベントなどのイベントを示し得る。視聴覚ストリームは、既知のコンピュータビジョン技術を用いて容易に処理できるデジタル視聴覚ストリームであってもよい。

視聴覚ストリームが表示されると、クライアントデバイス１０６、ウェブサーバ１０２、アプリケーションサーバ１１４、および／または分析サーバ１１６など、システム１００の１つ以上のコンポーネントは、視聴覚ストリームを分析し、視聴覚ストリーム内のハイライトを識別し、および／または、視聴覚ストリームから、例えば、ストリームのオーディオコンポーネントからメタデータを抽出する。この分析は、視聴覚ストリームのハイライトおよび／またはメタデータを識別するための要求の受信に応答して行われ得る。あるいは、別の実施形態では、ハイライトおよび／またはメタデータは、ユーザ１５０によってなされた特定の要求なしに識別され得る。さらに別の実施形態では、視聴覚ストリームの分析は、視聴覚ストリームが表示されることなく行うことができる。

少なくとも１つの実施形態では、ユーザ１５０は、クライアントデバイス１０６の入力デバイス（複数可）１５１を介して、オーディオデータ１５４の分析のための特定のパラメータ（例えば、どのイベント／試合／チームを含めるか、ユーザ１５０がハイライトを閲覧するためにどのくらいの時間が利用可能か、どのメタデータが所望されるか、および／または任意の他のパラメータなど）を指定することができる。必ずしもユーザ１５０が選好を指定することを必要としないでオーディオデータ１５４の分析をカスタマイズするために、１つ以上の記憶デバイス１５３に記憶されたユーザデータ１５５からなど、ユーザ選好も記憶装置から抽出できる。少なくとも１つの実施形態では、ユーザ選好は、例えば、ウェブサイトの訪問パターン、テレビジョンを見るパターン、音楽を聴くパターン、オンライン購入、事前のハイライト識別パラメータ、ユーザ１５０によって実際に閲覧されたハイライトおよび／またはメタデータなどを観察することによって、ユーザ１５０の観察された行動およびアクションに基づいて判定することができる。

さらに、または代わりに、ユーザ選好は、ユーザ１５０によって明示的に提供された、事前に記憶された選好から取り出すことができる。このようなユーザ選好は、どのチーム、スポーツ、プレーヤ、および／もしくはイベントのタイプがユーザ１５０にとって関心があるかを示すことができ、および／またはそれらは、ハイライトに関係するどんなタイプのメタデータもしくは他の情報がユーザ１５０にとって関心があるであろうかを示すことができる。したがって、そのような選好を使用して、視聴覚ストリームの分析をガイドして、ハイライトを識別し、および／またはハイライトのメタデータを抽出することができる。

上述の１つ以上の計算デバイスを含み得る分析サーバ（複数可）１１６は、データプロバイダ（複数可）１２２からの１つ以上のイベントに関連する実況統計のライブおよび／または記録されたフィードを分析することができる。データプロバイダ（複数可）１２２の例としては、ＳＴＡＴＳ（商標）、Ｐｅｒｆｏｒｍ（英国ロンドンのＯｐｔａＳｐｏｒｔｓから利用可能）、およびスイスのザンクトガレンのＳｐｏｒｔＲａｄａｒなどのリアルタイムスポーツ情報のプロバイダを挙げることができるが、これらに限定されない。少なくとも１つの実施形態では、分析サーバ１１６（複数可）は、イベントに対して異なる興奮レベルのセットを生成する。次に、そのような興奮レベルは、本明細書に記載の技術に従ってシステム１００によって識別または受信されたハイライトと併せて記憶され得る。

アプリケーションサーバ（複数可）１１４は、視聴覚ストリームを分析して、ハイライトを識別し、および／またはメタデータを抽出することができる。さらに、または代わりに、そのような分析は、クライアントデバイス（複数可）１０６によって行われ得る。識別されたハイライトおよび／または抽出されたメタデータは、ユーザ１５０に固有であってもよく、このような場合、特定のユーザ１５０に関連するクライアントデバイス１０６内のハイライトを識別することが有利であり得る。クライアントデバイス１０６は、上述のように、ハイライト識別および／またはメタデータ抽出のための適用可能なユーザ選好を受信、保持、および／または取得してもよい。さらに、または代わりに、ハイライト生成および／またはメタデータ抽出は、グローバルに（すなわち、特定のユーザ１５０の選好に関係なく、ユーザ集団全般に適用可能な客観的基準を使用して）行われてもよい。このような場合、ハイライトを識別し、および／またはアプリケーションサーバ（複数可）１１４内のメタデータを抽出することが有利であり得る。

ハイライト識別、オーディオ分析、および／またはメタデータ抽出を容易にするコンテンツは、ＹｏｕＴｕｂｅ、ＭＬＢ．ｃｏｍなどのウェブサイトを含み得るコンテンツプロバイダ（複数可）１２４、スポーツデータプロバイダ、テレビジョン局、クライアントベースまたはサーバベースのＤＶＲなどからを含む、任意の好適なソースから来てもよい。あるいは、コンテンツは、クライアントデバイス１０６に関連付けられた（または組み込まれた）ＤＶＲまたは他の記録デバイスなどのローカルソースから来てもよい。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、ダウンロード、またはストリーミングコンテンツ、またはオンデマンドコンテンツ、または他の何らかの方法のいずれかとして、ユーザ１５０に利用可能なハイライトおよびメタデータを伴うカスタマイズされたハイライトショーを生成する。

上記のように、ユーザ固有のハイライト識別、オーディオ分析、および／またはメタデータ抽出が、特定のユーザ１５０に関連する特定のクライアントデバイス１０６において行われることが有利であり得る。このような実施形態は、特にそのようなコンテンツがクライアントデバイス１０６においてすでに利用可能である場合、通信ネットワーク１０４を介して不必要に送信されるビデオコンテンツまたは他の高帯域幅コンテンツの必要性を回避することができる。

例えば、ここで図１Ｂを参照すると、クライアントデバイス１０６にとって利用可能なローカル記憶デバイスの任意の形態であり得るクライアントベースの記憶デバイス１５８にオーディオデータ１５４およびハイライトデータ１６４の少なくとも一部が記憶される実施形態によるシステム１６０の例が示されている。一例は、例えば、完全なスポーツイベントのビデオコンテンツなどのイベントが記録され得るＤＶＲである。あるいは、クライアントベースの記憶デバイス１５８は、デジタル形式のデータのための任意の磁気的、光学的、または電子的記憶デバイスであり得る。例としては、フラッシュメモリ、磁気ハードドライブ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、またはクライアントデバイス１０６と統合された、もしくはクライアントデバイス１０６と通信可能に結合された他のデバイスが挙げられる。アプリケーションサーバ（複数可）１１４によって提供される情報に基づいて、クライアントデバイス１０６は、コンテンツプロバイダ１２４または他のリモートソースから他のコンテンツを取り出す必要なしに、クライアントベースの記憶デバイス１５８に記憶された（例えば、オーディオデータ１５４を含む）ビデオコンテンツからハイライトおよび／またはメタデータを抽出し、ハイライトおよび／またはメタデータをハイライトデータ１６４として記憶することができる。このような構成は、帯域幅を節約することができ、クライアントデバイス１０６にすでに利用可能であり得る既存のハードウェアを有効に活用することができる。

図１Ａに戻ると、少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、個々のユーザ選好および／または他のパラメータに応じて、異なるユーザ１５０に対して異なるハイライトを識別し、および／または異なるメタデータを抽出することができる。識別されたハイライトおよび／または抽出されたメタデータは、クライアントデバイス１０６の表示スクリーン１５２などの任意の好適な出力デバイスを介してユーザ１５０に提示されてもよい。必要に応じて、複数のハイライトを識別し、関連するメタデータとともにハイライトショーにまとめることができる。このようなハイライトショーは、メニューを介してアクセスされ、および／または所定のシーケンスに従ってユーザ１５０のために再生される「ハイライトリール」またはハイライトのセットに組み立てられてもよい。ユーザ１５０は、少なくとも１つの実施形態では、例えば、以下の目的で、入力デバイス（複数可）１５１を介して、関連するメタデータのハイライト再生および／または配信を制御することができる。
・表示のための特定のハイライトおよび／もしくはメタデータを選択する、
・一時停止、巻き戻し、早送りを行う、
・次のハイライトにスキップする、
・ハイライトショー内の前のハイライトの開始に戻る、ならびに／または
・他のアクションを実行する。

このような機能に関する追加の詳細は、上記で引用した関連する米国特許出願に提供されている。

少なくとも１つの実施形態では、１つ以上のデータサーバ（複数可）１１８が提供される。データサーバ（複数可）１１８は、例えば、オーディオデータ１５４、ユーザデータ１５５、および／またはハイライトデータ１６４を取得または提供するために、サーバ（複数可）１０２、１１４、１１６のいずれかからのデータについての要求に応答することができる。少なくとも１つの実施形態では、このような情報は、データサーバ１１８によってアクセス可能な任意の好適な記憶デバイス１５３に記憶することができ、クライアントデバイス１０６自体、コンテンツプロバイダ（複数可）１２４、データプロバイダ（複数可）１２２からなど、任意の好適なソースから来ることができる。

ここで図１Ｃを参照すると、システム１８０がスタンドアロン環境で実装される代替の実施形態によるシステム１８０が示されている。図１Ｂに示す実施形態と同様に、オーディオデータ１５４、ユーザデータ１５５、およびハイライトデータ１６４のうちの少なくとも一部は、ＤＶＲなどのクライアントベースの記憶デバイス１５８に記憶され得る。あるいは、クライアントベースの記憶デバイス１５８は、フラッシュメモリもしくはハードドライブ、またはクライアントデバイス１０６と統合された、もしくはクライアントデバイス１０６と通信可能に結合された他のデバイスであり得る。

ユーザデータ１５５は、ユーザ１５０の選好および関心を含んでもよい。そのようなユーザデータ１５５に基づいて、システム１８０は、ハイライトおよび／またはメタデータを抽出して、本明細書に記載の方法でユーザ１５０に提示することができる。さらに、または代わりに、ハイライトおよび／またはメタデータは、ユーザ１５０に固有の情報に基づかない客観的基準に基づいて抽出され得る。

ここで図１Ｄを参照すると、代替の実施形態によるアーキテクチャを有するシステム１９０の概要が示されている。図１Ｄでは、システム１９０は、コンテンツプロバイダ（複数可）１２４などの放送サービス、ＳＴＢを持つテレビジョンセットなどのクライアントデバイス１０６の形態のコンテンツ受信機、テレビジョン番組コンテンツなどの視聴覚コンテンツを取り込んでストリーミングすることができる分析サーバ（複数可）１１６などのビデオサーバ、ならびに／またはテレビジョン番組コンテンツなどの視聴覚コンテンツを受信して処理することができるモバイルデバイスおよびラップトップなどの他のクライアントデバイス１０６を含み、これらはすべて通信ネットワーク１０４などのネットワークを介して接続されている。ＤＶＲなどのクライアントベースの記憶デバイス１５８は、クライアントデバイス１０６および／または他のコンポーネントのいずれかに接続することができ、視聴覚ストリーム、ハイライト、ハイライト識別子、および／またはメタデータを記憶して、クライアントデバイス１０６のいずれかを介してハイライトおよび／または抽出されたメタデータの識別および提示を容易にすることができる。

図１Ａ、図１Ｂ、図１Ｃ、および図１Ｄに示された特定のハードウェアアーキテクチャは、単なる例示である。当業者は、本明細書に記載の技術が他のアーキテクチャを使用して実装できることを認識するであろう。本明細書に示された多くのコンポーネントは任意選択であり、省略され、他のコンポーネントと統合され、および／または他のコンポーネントで置き換えられてもよい。

少なくとも１つの実施形態では、システムは、スタンドアロンまたはクライアント／サーバアーキテクチャのいずれであろうと、任意の好適なコンピュータプログラミング言語で書かれたソフトウェアとして実装することができる。あるいは、それはハードウェアに実装および／または埋め込まれてもよい。

データ構造
図２は、一実施形態による、オーディオデータ１５４、ユーザデータ１５５、およびハイライトデータ１６４に組み込むことができるデータ構造の例を示す概略ブロック図である。

示されるように、オーディオデータ１５４は、複数のオーディオストリーム２００の各々についての記録を含み得る。説明の目的で、オーディオストリーム２００が示されているが、本明細書で説明する技術は、ストリーミングされるか記憶されるかにかかわらず、任意のタイプのオーディオデータ１５４またはコンテンツに適用することができる。オーディオデータ１５４の記録は、オーディオストリーム２００に加えて、オーディオストリーム２００の分析に従って生成されたかまたはその分析に役立つ他のデータを含み得る。例えば、オーディオデータ１５４は、各オーディオストリーム２００について、スペクトログラム２０２、１つ以上の分析ウィンドウ２０４、ベクトル２０６、および時間インデックス２０８を含み得る。

各オーディオストリーム２００は、時間領域内に存在し得る。各スペクトログラム２０２は、時間周波数領域内の対応するオーディオストリーム２００について計算され得る。スペクトログラム２０２を分析して、ソフトエントリポイントをより簡単に見つけることができる。

分析ウィンドウ２０４は、スペクトログラム２０２の所定の時間および／または周波数間隔の指定であり得る。計算上、単一の移動する（すなわち、「スライディング」）分析ウィンドウ２０４を使用して、スペクトログラム２０２を分析することができ、または一連のずらされた（任意選択で重複している）分析ウィンドウ２０４を使用することができる。

ベクトル２０６は、オーディオストリーム２００および／または対応するスペクトログラム２０２の分析からの中間および／または最終結果を含むデータセットであり得る。

時間インデックス２０８は、オーディオストリーム２００（および／またはオーディオストリーム２００が抽出される視聴覚ストリーム）内の、重要なイベントが発生する時間を示すことができる。例えば、時間インデックス２０８は、視聴覚コンテンツ内の、ソフトエントリポイントが開始する、中央に位置する、または終了する時間であり得る。したがって、時間インデックス２０８は、スポーツイベントの文脈では、重要なまたは印象的なプレーなど、視聴覚ストリームの特に関心がある部分の開始または終了を示し得る。

さらに示されるように、ユーザデータ１５５は、ユーザ１５０に関連する記録を含んでもよく、記録の各々は、特定のユーザ１５０の人口統計データ２１２、選好２１４、閲覧履歴２１６、および購入履歴２１８を含んでもよい。

人口統計データ２１２は、年齢、性別、場所、国籍、宗教的所属、教育レベルなどを含むがこれらに限定されない、任意のタイプの人口統計データを含んでもよい。

選好２１４は、ユーザ１５０が自身の選好に関して行った選択を含んでもよい。選好２１４は、ハイライトおよびメタデータの収集および／または閲覧に直接関連する場合もあれば、より一般的な性質の場合もある。いずれの場合も、選好２１４を使用して、ハイライトおよびメタデータの識別および／またはユーザ１５０への提示を容易にすることができる。

閲覧履歴２１６は、テレビジョン番組、視聴覚ストリーム、ハイライト、ウェブページ、検索クエリ、スポーツイベント、ならびに／またはユーザ１５０によって検索および／もしくは閲覧された他のコンテンツを列挙することができる。

購入履歴２１８は、ユーザ１５０によって購入または要求された製品またはサービスを列挙することができる。

さらに示されるように、ハイライトデータ１６４は、ｊ個のハイライト２２０についての記録を含み得、各記録は、特定のハイライト２２０の視聴覚ストリーム２２２および／またはメタデータ２２４を含み得る。

視聴覚ストリーム２２２は、ハイライト２２０を描写するオーディオおよび／またはビデオを含み得、これは、（例えば、ハイライト２２０に関連する視聴覚ストリーム２２２のみを含むように視聴覚ストリームをクロップすることによって）１つ以上のイベントの１つ以上の視聴覚ストリームから取得され得る。メタデータ２２４内で、識別子２２３は、（オーディオデータ１５４の時間インデックス２０８などの）時間インデックス、および／またはハイライト２２０が取得されるイベントの視聴覚ストリーム内のどこにハイライト２２０が存在するかを示す他のしるしを含み得る。

いくつかの実施形態では、ハイライト２２０の各々の記録は、視聴覚ストリーム２２２および識別子２２３のうちの１つのみを含み得る。ハイライト再生は、ユーザ１５０に対して視聴覚ストリーム２２２を再生することによって、または識別子２２３を使用して、ハイライト２２０が取得されるイベントの視聴覚ストリームのハイライトされた部分のみを再生することによって行われ得る。識別子２２３の記憶は任意選択である。いくつかの実施形態では、識別子２２３は、ハイライト２２０について視聴覚ストリーム２２２を抽出するためにのみ使用され得、次いで、このハイライト２２０が識別子２２３の代わりに記憶され得る。いずれの場合も、ハイライト２２０の時間インデックス２０８は、オーディオデータ１５４から抽出され、メタデータ２２４として、少なくとも一時的に記憶され得、メタデータ２２４はハイライト２２０に追加されるか、またはオーディオデータ１５４およびハイライト２２０が取得される視聴覚ストリームに追加される。いくつかの実施形態では、時間インデックス２０８は、識別子２２３の境界２３２として記憶され得る。

識別子２２３に加えて、またはその代替として、メタデータ２２４は、イベントの日付、季節、ならびにハイライト２２０が取得されたイベントもしくは視聴覚ストリームに関与するグループもしくは個人、例えば、チーム、プレーヤ、コーチ、司会者、放送局、およびファンなど、ハイライト２２０に関する情報を含み得る。情報の中でも、各ハイライト２２０のメタデータ２２４は、フェーズ２２６、クロック２２７、スコア２２８、フレーム番号２２９、および／または興奮レベル２３０を含み得る。

フェーズ２２６は、ハイライト２２０に関連するイベントのフェーズであってもよい。より具体的には、フェーズ２２６は、ハイライト２２０の開始、中間、および／または終了がその中に存在するスポーツイベントの段階であり得る。例えば、フェーズ２２６は、「第３のクォーター」、「第２のイニング」、または「裏の回」などであってもよい。

クロック２２７は、ハイライト２２０に関連する試合クロックであってもよい。より具体的には、クロック２２７は、ハイライト２２０の開始、中間、および／または終了時の試合クロックの状態であり得る。例えば、クロック２２７は、スポーツイベントのピリオドを開始するか、終了するか、またはそのピリオドにまたがるハイライト２２０で試合クロック上に１５分４７秒が表示される場合、「１５：４７」であり得る。

スコア２２８は、ハイライト２２０に関連する試合スコアであってもよい。より具体的には、スコア２２８は、ハイライト２２０の開始、終了、および／または中間におけるスコアであり得る。例えば、スコア２２８は、「４５−３８」、「７−０」、または「３０−ラブ」などであってもよい。

フレーム番号２２９は、ハイライト２２０が取得される視聴覚ストリーム内の、またはハイライト２２０の開始、中間、および／もしくは終了に関係するハイライト２２０に関連する視聴覚ストリーム２２２内の、ビデオフレームの番号であり得る。

興奮レベル２３０は、特定のユーザ１５０またはユーザ全般にとって、イベントまたはハイライトがどのくらい興奮するものになるかまたは興味深いものになるかの尺度であり得る。少なくとも１つの実施形態では、興奮レベル２３０は、上で参照した関連出願に示されるように計算され得る。さらに、または代わりに、興奮レベル２３０は、少なくとも部分的に、視聴覚ストリーム２２２および／またはオーディオストリーム２００から抽出されるコンポーネントであり得るオーディオデータ１５４の分析によって判定され得る。例えば、より高いレベルの群集ノイズ、アナウンス、および／またはアップテンポ音楽を含むオーディオデータ１５４は、関連するハイライト２２０の高い興奮レベル２３０を示し得る。興奮レベル２３０は、ハイライト２２０に対して静的である必要はないが、代わりに、ハイライト２２０の過程で変化し得る。したがって、システム１００は、ハイライト２２０をさらに精緻化して、しきい値興奮レベル２３０を超える部分のみをユーザに示すことができる場合がある。

図２に記載されているデータ構造は単なる例示である。当業者は、ハイライト識別および／またはメタデータ抽出の実行において、図２のデータの一部を省略するか、または他のデータで置き換えることができることを認識するであろう。さらに、または代わりに、図２に具体的に示されていないかまたは本出願に記載されていないデータを、ハイライト識別および／またはメタデータ抽出の実行に使用することができる。

オーディオデータの分析
少なくとも１つの実施形態では、システムは、時間周波数領域において、オーディオストリームなどのオーディオデータ１５４の分析のいくつかの段階を実行して、スポーツイベントまたは別のイベントの描写中に、音声、音楽、または他の音の休止または低いポイントなどのソフトエントリポイントを検出する。描写は、テレビジョン放送、視聴覚ストリーム、オーディオストリーム、記憶されたファイルなどであり得る。

最初に、圧縮されたオーディオデータ１５４が読み取られ、デコードされ、そして所望のサンプリングレートにリサンプリングされる。次に、得られたＰＣＭストリームは、いくつかの交換可能なデジタルフィルタリング段階のいずれかを使用して、ノイズ低減、クリック除去、および／または所望の周波数帯域の選択のために事前フィルタリングされる。続いて、オーディオデータ１５４のためにスペクトログラムが構築される。スペクトル振幅の谷が、スライディング２次元時間周波数エリアウィンドウの各位置において識別される。ソフトエントリポイント３２０をより完全におよび／または確実に識別するために、さらなるステップを実施することができる。

ソフトエントリポイントに対応する時間インデックス２０８は、ハイライト２２０の境界２３２（例えば、開始または終了）として使用され得る。いくつかの実施形態では、これらの時間インデックス２０８は、（例えば、ソフトエントリポイントの識別に基づいて後で調整され得る暫定的な開始ポイントおよび終了ポイントであり得る暫定的な境界２３２を伴う）すでに識別されたハイライト２２０の実際の開始ポイントおよび／または終了ポイントを識別するために使用され得る。ハイライト２２０は、ユーザによるその後の閲覧のために、ビデオストリーム内で抽出および／または識別され得る。

図３Ａは、一実施形態による、時間領域においてスポーツイベントテレビジョン番組コンテンツから抽出されたオーディオストリーム３１０内のオーディオ波形グラフ３００の例を示す。ハイライトされたエリアは、オーディオストリーム３１０のより低い強度の部分など、例示的なソフトエントリポイント３２０を示している。キャプチャされたオーディオの振幅は、ソフトエントリポイント３２０において比較的低く、オーディオストリーム３１０の比較的静かな部分を表し得る。

図３Ｂは、一実施形態による、時間周波数領域における、図３Ａのオーディオ波形グラフ３００に対応するスペクトログラム３５０の例を示す。少なくとも１つの実施形態では、関心のあるイベントのオカレンスの検出およびマーキングは、時間周波数領域において実行され、（図３Ａおよび図３Ｂに示されていない）イベントの境界２３２は、ビデオハイライトおよびメタデータ生成アプリケーションにリアルタイムで提示される。これらの境界２３２を使用して、ビデオストリームから１つ以上のハイライト２２０を抽出するか、またはビデオストリーム内の各ハイライト２２０の開始および／もしくは終了をより高い精度で判定し得、それにより、ハイライトの一部ではないビデオストリームの部分を表す他のコンテンツを不注意に再生することなしにハイライト２２０を再生することができる。境界２３２は、文の終了時またはオーディオの休止中など、コンテンツ内の適切な遷移ポイントを判定するのを助けることによって、あるハイライト２２０から別のハイライトへの遷移の突然さを低減するために使用され得る。いくつかの実施形態では、境界２３２は、図２の説明に記載されているように、ハイライト２２０の開始および／または終了を識別する識別子２２３などのメタデータ２２４に組み込まれ得る。

オーディオデータ分析およびメタデータ抽出
図４は、一実施形態による、リサンプリング、フィルタリング、およびスペクトログラム構築によるオーディオ前処理のための方法４００を示すフローチャートである。少なくとも１つの実施形態では、方法４００は、一実施形態によれば、例えば、ハイライト２２０の境界２３２に対応する、ソフトエントリポイント３２０の識別のために、視聴覚ストリームを受信し、オーディオデータ１５４のオンザフライ処理を実行する（例えば、クライアントデバイス１０６および／または分析サーバ１１６のうちの１つの上で実行される）アプリケーションによって行われ得る。方法４００によれば、オーディオストリーム３１０などのオーディオデータ１５４は、オーディオ、ビデオ、および／または視聴覚番組コンテンツのセグメント間の休止、中断、または他の自然な仕切りを検出することによって、オーディオデータ１５４内のソフトエントリポイント３２０を検出するように処理され得る。

少なくとも１つの実施形態では、方法４００（および／または本明細書に記載の他の方法）は、視聴覚ストリームまたは他の視聴覚コンテンツから抽出されたオーディオデータ１５４に対して実行される。あるいは、本明細書に記載の技術は、他のタイプのソースコンテンツに適用することができる。例えば、オーディオデータ１５４は、視聴覚ストリームから抽出する必要はなく、むしろ、スポーツイベントまたは他のイベントのラジオ放送または他のオーディオ描写であってもよい。

少なくとも１つの実施形態では、方法４００（および／または本明細書に記載の他の方法）は、図１Ａのシステム１００などのシステムによって実行され得る。しかしながら、図１Ｂのシステム１６０、図１Ｃのシステム１８０、および図１Ｄのシステム１９０を含むがこれらに限定されない代替のシステムを、図１Ａのシステム１００の代わりに使用することができる。さらに、以下の説明は、より低い強度のオーディオイベントが識別されることを仮定としている。しかしながら、本明細書で明示的に説明される方法と同様の方法に従って、メタデータを抽出し、および／またはハイライト２２０の境界２３２を識別するために、異なるタイプのオーディオイベントが識別および使用され得ることが理解されるであろう。いくつかの実施形態では、特定のオーディオ的および／またはビジュアル的合図（トーン、暗い画面など）が、ソフトエントリポイントとして識別され得る。

図４の方法４００は、オーディオストリーム２００などのオーディオデータ１５４が読み取られるステップ４１０から開始することができる。オーディオデータ１５４が圧縮フォーマットである場合、それは任意選択でデコードされ得る。ステップ４２０において、オーディオデータ１５４は、所望のサンプリングレートにリサンプリングされ得る。ステップ４３０において、オーディオデータ１５４は、いくつかの交換可能なデジタルフィルタリング段階のいずれかを使用してフィルタリングされ得る。次に、ステップ４４０において、例えば、フィルタリングされたオーディオデータ１５４の１秒チャンクに対して短時間フーリエ変換（ＳＴＦＴ）を計算することによって、フィルタリングされたオーディオデータ１５４に対するスペクトログラム２０２が生成され得る。スペクトログラム２０２の時間周波数係数は、さらなる処理のために２次元配列に保存され得る。

いくつかの実施形態では、スペクトル成分に関係なく、オーディオストリーム内の比較的静かなエリアのみに関心がある場合、ステップ４４０を省略でき、時間領域オーディオデータ１５４のみでの実行によってさらなる分析を簡略化することができる。ただし、このような場合、時間領域では低音量であり得るが時間周波数領域では豊富なスペクトル成分を有し得るコメンテーターの声および／または背景の聴衆ノイズなど、関心のある特定の音に関連するスペクトル成分を考慮せずに、オーディオ音量のしきい値のみに基づく本質的に信頼性の低いインジケータが原因で、望ましくないソフトエントリ検出が発生する場合がある。いくつかの実施形態では、オーディオストリームの分析はまた、時間領域と時間周波数領域の両方において行い、その後、検出されたソフトエントリポイントを最終結果に統合することもできる。以下の図５から図１０におけるさらなる説明では、ステップ４４０が行われており、オーディオ分析ステップが、（例えば、上記のようにオーディオデータ１５４をデコード、リサンプリング、および／またはフィルタリングした後に）オーディオデータ１５４に対応するスペクトログラム２０２に対して実行されることが仮定される。オーディオストリーム内のソフトエントリポイントの最終ベクトルは、単語、単語のグループ、および文の終了など、コメンテーターのスピーチ中のギャップに関連するオーディオストリームのセグメントの低音量および低スペクトル成分の検出に焦点を合わせて形成することができるが、これらに限定されない。

図５は、一実施形態による、例えば、スペクトログラム２０２を分析して、選択された修飾子／位置ペアの初期ベクトルを生成することによって、時間周波数領域においてオーディオストリーム２００などのオーディオデータ１５４を分析するための方法５００を示すフローチャートである。最初に、ステップ５１０において、サイズ（Ｆ×Ｔ）の２次元の長方形の時間周波数分析ウィンドウ２０４が選択され、ここで、Ｔは、複数秒の値であり（通常、約１００ｍｓ）、Ｆは、考慮される周波数範囲である（通常、１００Ｈｚ〜３ｋＨｚ）。次に、ステップ５２０において、隣接する分析ウィンドウ２０４間のウィンドウ重複領域Ｎが選択され、ウィンドウスライディングステップＳ＝（Ｔ−Ｎ）が計算される（通常、約２０ミリ秒）。

この方法はステップ５３０に進み、分析ウィンドウ２０４が、連続するステップＳにおいて、スペクトログラム２０２の時間軸に沿ったスペクトル時間軸に沿ってスライディングする。ステップ５４０において、分析ウィンドウ２０４の各位置において、平均スペクトル振幅インジケータ（ＳＭＩ）が計算される。ステップ５５０において、スペクトログラムの最大ＳＭＩ値Ｍも判定され得る。ステップ５６０において、ＳＭＩがしきい値を下回るＳＭＩ／位置ペアベクトルが生成され得る。

ステップ５７０において、各ＳＭＩは、式Ｑ＝（Ｍ−ＳＭＩ）＊ＭＦＡＣＴに従って整数修飾子Ｑにコンバートされ得、ここで、ＭＦＡＣＴは、所望の数の整数桁を抽出するために使用される係数である。ステップ５８０において、Ｑ／位置ペアの初期ベクトルが、潜在的なソフトエントリポイント３２０のスーパーセットとして生成され得る。次に、方法５００は、１秒間隔ごとの修飾子の最大化に進むことができる。

図６は、一実施形態による、各１秒間隔内で最大化された修飾子を持つベクトルを生成するための方法６００を示すフローチャートである。これは、Ｑ／位置要素を持つ初期ベクトルが１秒境界上で分割されるステップ６１０を含み得る。１秒の連続する各間隔内で、修飾子Ｑによるソートを実行することができる。ステップ６２０において、１秒間隔ごとに最大Ｑを持つＱ／位置ペアのみを保持することができる。ステップ６３０において、最大化されたＱ値を持つ第１のソフトエントリベクトルが形成され得る。

図７は、一実施形態による、可変スペーシングおよび最大化された局所近傍修飾子を持つソフトエントリポイント３２０をさらに選択するための方法７００を示すフローチャートである。このような処理により、ソフトエントリの拡張可変サイズ間隔（相互距離）が生成され（通常、平均２〜３秒）、各間隔の局所近傍においてスペクトル修飾子が同時に最大化される場合がある。

示されるように、方法７００は、アンカーポイント（前の位置）がゼロに設定される７１０を開始し得る。次に、ステップ７２０において、方法７００は、第１のソフトエントリベクトルの時間コンポーネントをステップ実行して、次の時間位置を検出し、それを現在の位置にロードし得る。各ステップにおいて、クエリ７３０を行うことができ、ここで、現在の位置から前の位置までの時間距離がしきい値に対してチェックされる。この距離が（例えば、２秒などの）しきい値よりも大きい場合、現在の位置は、ステップ７４０におけるさらなる処理のために取られ得る。この距離がしきい値よりも大きくない場合、ステップ７２０は、新しい時間位置に対して繰り返され得る。

ステップ７４０は、保持されている現在の位置のすぐ近傍をテストすることと、最大のＱを持つ要素を識別することとを含み得る。ステップ７５０において、この要素は、さらなるテストのための新しいアンカーポイントに今度はなる、前の位置にロードされ得る。ステップ７６０において、最終的なソフトエントリベクトルはまた、この局所的に最大化されたＱ／位置ペアを入力され得る。

方法７００は、第１のソフトエントリベクトルのすべての要素が使い果たされるまで、連続するステップを続行し得る。具体的には、クエリ７７０は、ソフトエントリベクトルの終了に到達したかどうかを確認することができる。そうである場合、ステップ７８０において最終的なソフトエントリベクトルが提供され得る。そうでない場合、方法７００は、さらなる反復のためにステップ７２０に戻り得る。

図８は、一実施形態による、スパースセグメンテーションのための、検出されたエントリポイントの任意選択の修正のための方法８００を示すフローチャートである。方法８００は、ハイライトされたイベントの境界に対してそれほど厳しくない要件がある場合に、Ｑ修飾子をさらに最大化するために使用され得る。方法８００は、ステップ８１０から開始し得、方法８００は、ソフトエントリベクトル要素を一度に１つずつステップ実行する。クエリ８２０において、方法８００は、しきい値に対してＱ値をテストし得る。ステップ８４０において、しきい値を下回るＱ／位置ペアを除去し得る。ステップ８３０において、しきい値を上回るＱ／位置ペアを保持し得る。

方法８００は、最終的なソフトエントリベクトルのすべての要素が使い果たされるまで、連続するステップを続行し得る。具体的には、クエリ８５０は、最終的なソフトエントリベクトルの終了に到達したかどうかを確認することができる。そうである場合、方法８００は、ソフトエントリポイント３２０のリストの形成およびハイライト処理に進み得る。そうでない場合、方法８００は、さらなる反復のためにステップ８１０に戻り得る。

図９は、一実施形態による、利用可能なソフトエントリポイントのリストに基づいて調整されたハイライト２２０を組み立てる方法９００を示すフローチャートである。最初に、ステップ９１０において、ハイライト２２０の暫定的な境界２３２を識別し得る。次に、ステップ９２０において、ソフトエントリポイント３２０のリストの検索が実行され得、ハイライト２２０の１つ以上の暫定的な境界２３２の最良の近似が生成され得る。次に、ステップ９３０において、暫定的な境界２３２は、リストから取得された最良の近似に従って調整され得る。ステップ９４０において、修正された境界を用いてハイライト２２０が抽出され得、任意選択で、ミラー化されたリードおよびトレイル曲率を用いたフェージング機能を展開することによって処理され、（ハイライトリールにおけるように、連続的に再生される複数のハイライト２２０などの）互いに素なセグメント間のオーディオ遷移のさらなる平滑化が可能になる。

本システムおよび方法は、想定される実施形態に関して特に詳細に説明されてきた。当業者は、システムおよび方法が他の実施形態で実践され得ることを理解するであろう。まず、コンポーネントの特定の命名、用語の大文字の使用、属性、データ構造、また任意の他のプログラミングもしくは構造の態様は必須でも重要でもなく、機構および／または機能は、名前、フォーマット、またはプロトコルが異なっていてもよい。さらに、システムは、ハードウェアとソフトウェアとの組み合わせを介して、または完全にハードウェア要素内に、または完全にソフトウェア要素内に実装されてもよい。また、本明細書に記載の様々なシステムコンポーネント間の機能の特定の分割は、単なる例示であり、必須ではない。単一のシステムコンポーネントによって実行される機能は、代わりに複数のコンポーネントによって実行されてもよく、複数のコンポーネントによって実行される機能は、代わりに単一のコンポーネントによって実行されてもよい。

本明細書における「一実施形態」または「実施形態」への言及は、実施形態に関連して説明する特定の特徴、構造、または特性が、少なくとも１つの実施形態に含まれることを意味する。本明細書の様々な場所における「一実施形態において」または「少なくとも１つの実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らない。

様々な実施形態は、単独でまたは任意の組み合わせのいずれかで、上述の技術を実行するための任意の数のシステムおよび／または方法を含んでもよい。別の実施形態は、計算デバイスまたは他の電子デバイス内のプロセッサに上述の技術を実行させるための、非一時的なコンピュータ可読記憶媒体、およびその媒体上にエンコードされたコンピュータプログラムコードを含むコンピュータプログラム製品を含む。

上記のいくつかの部分は、計算デバイスのメモリ内のデータビットに対する操作のアルゴリズムおよび記号表現の観点から提示されている。これらのアルゴリズムの記述および表現は、データ処理技術の当業者が、その作業の本質を最も効果的に他の当業者に伝えるために使用する手段である。アルゴリズムはここでは、概して、望ましい結果につながる自己矛盾のない一連のステップ（指示）であると考える。ステップは、物理量の物理的操作を必要とするステップである。通常、必ずしもそうとは限らないが、これらの量は、記憶、転送、結合、比較、および他の方法で操作できる電気信号、磁気信号、または光信号の形をとる。主に一般的な使用法の理由から、これらの信号をビット、値、要素、記号、文字、項、または数値などと呼ぶと便利な場合がある。さらに、一般性を失うことなく、物理量の物理的操作を必要とするステップの特定の構成をモジュールまたはコードデバイスと呼ぶと便利な場合がある。

ただし、これらおよび類似の用語はすべて、適切な物理量に関連付けられており、これらの量に適用される便利なラベルにすぎないことを念頭に置くべきである。特に明記されていない限り、以下の説明から明らかなように、本明細書全体を通して、「処理」または「計算（ｃｏｍｐｕｔｉｎｇ）」または「計算（ｃａｌｃｕｌａｔｉｎｇ）」または「表示」または「判定」などの用語を利用した説明は、コンピュータシステム、または類似の電子計算モジュールおよび／もしくはデバイスの動作およびプロセスを指し、それらが、コンピュータシステムのメモリもしくはレジスタまたは他のそのような情報記憶装置、送信デバイス、もしくは表示デバイス内で物理的（電子的）量として表されるデータを操作および変換することが理解されるであろう。

特定の態様は、アルゴリズムの形態で本明細書に記載されているプロセスステップおよび命令を含む。プロセスステップおよび命令は、ソフトウェア、ファームウェア、および／またはハードウェアで具体化することができ、ソフトウェアで具体化する場合、様々なオペレーティングシステムによって使用される様々なプラットフォーム上に存在するようにダウンロードすることができ、また、様々なプラットフォームから操作できることに留意されたい。

本文書はまた、本明細書の動作を実行するための装置にも関係する。この装置は、必要な目的のために特別に構築され得るか、または計算デバイスに記憶されたコンピュータプログラムによって選択的にアクティブ化もしくは再構成される汎用計算デバイスを備え得る。そのようなコンピュータプログラムは、フロッピーディスク、光ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、磁気光学ディスク、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ソリッドステートドライブ、磁気カードもしくは光学カード、特定用途向け集積回路（ＡＳＩＣ）、または電子命令の記憶に適した任意のタイプの媒体を含むがこれらに限定されない任意のタイプのディスクなどのコンピュータ可読記憶媒体に記憶されてよく、各々はコンピュータシステムバスに結合される。プログラムおよびその関連するデータは、リモートで、例えば、サーバ上で提供して実行させることもできる。さらに、本明細書で言及される計算デバイスは、単一のプロセッサを含み得るか、または計算能力を高めるために複数のプロセッサ設計を採用するアーキテクチャであり得る。

本明細書に提示されるアルゴリズムおよび表示は、任意の特定の計算デバイス、仮想化システム、または他の装置に本質的に関連していない。様々な汎用システムも、本明細書の教示によるプログラムとともに使用され得るか、または必要な方法ステップを実行するための専用装置を構築することがより便利であり得る。これらの様々なシステムに必要な構造は、本明細書で提供する説明から明らかであろう。さらに、システムおよび方法は、任意の特定のプログラミング言語に言及して説明されていない。本明細書に記載の教示を実装するために様々なプログラミング言語を使用することができ、特定の言語への上記のあらゆる言及は、有効化および最良のモードの開示のために提供されることが理解されるであろう。

したがって、様々な実施形態は、コンピュータシステム、計算デバイス、もしくは他の電子デバイスを制御するためのソフトウェア、ハードウェア、および／もしくは他の要素、またはこれらの任意のもしくは複数の組み合わせを含む。このような電子デバイスは、例えば、当技術分野で周知の技術による、プロセッサ、（キーボード、マウス、タッチパッド、トラックパッド、ジョイスティック、トラックボール、マイクロフォン、および／もしくはこれらの任意の組み合わせなどの）入力デバイス、（スクリーン、スピーカなどの）出力デバイス、メモリ、（磁気記憶装置、光記憶装置などの）長期記憶装置、ならびに／またはネットワーク接続性を含んでもよい。このような電子デバイスは、携帯型または非携帯型であってもよい。説明したシステムおよび方法を実装するために使用できる電子デバイスの例としては、デスクトップコンピュータ、ラップトップコンピュータ、テレビジョン、スマートフォン、タブレット、音楽プレーヤ、オーディオデバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、サーバコンピュータなどが挙げられる。電子デバイスは、例えば、Ｌｉｎｕｘ、ワシントン州レドモンド、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能なＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ、カリフォルニア州クパチーノ、ＡｐｐｌｅＩｎｃ．から入手可能なＭａｃＯＳＸ、カリフォルニア州クパチーノのＡｐｐｌｅＩｎｃ．から入手可能なｉＯＳ、カリフォルニア州マウンテンビュー、ＧｏｏｇｌｅＩｎｃ．から入手可能なＡｎｄｒｏｉｄ、および／またはデバイス上での使用に適応された任意の他のオペレーティングシステムなどの任意のオペレーティングシステムを使用することができるが、これらに限定されない。

限られた数の実施形態が本明細書で説明されてきたが、上記の説明の利点を有する当業者は、他の実施形態が考案され得ることを理解するであろう。さらに、本明細書で使用される言語は、主に読みやすさおよび指導目的のために選択されており、主題を描写または制限するために選択されていない場合があることに留意されたい。したがって、本開示は、範囲を例示することを意図しているが、限定することを意図していない。

Claims

イベントを描写する視聴覚コンテンツのハイライトの境界を識別するための方法であって、
データストアに、前記イベントの少なくとも一部を描写するオーディオデータを記憶することと、
プロセッサにおいて、前記オーディオデータを自動的に分析して、前記オーディオデータのソフトエントリポイントを検出することと、
前記プロセッサにおいて、前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定することであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの１つを含む、指定することと、を含む、方法。
前記視聴覚コンテンツがテレビジョン放送を含む、請求項１に記載の方法。
前記視聴覚コンテンツが視聴覚ストリームを含み、前記方法が、前記イベントの少なくとも一部を描写するオーディオデータを記憶する前に、前記視聴覚ストリームから前記オーディオデータを抽出することをさらに含む、請求項１に記載の方法。
前記視聴覚コンテンツが、記憶された視聴覚コンテンツを含み、前記方法が、前記イベントの少なくとも一部を描写するオーディオデータを記憶する前に、前記記憶された視聴覚コンテンツから前記オーディオデータを抽出することをさらに含む、請求項１に記載の方法。
前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも１人のユーザにとって特に関心があると思われる前記スポーツイベントの一部を描写する、請求項１に記載の方法。
出力デバイスにおいて、前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも１つを再生することをさらに含む、請求項５に記載の方法。
前記ソフトエントリポイントを検出する前に、前記オーディオデータを所望のサンプリングレートにリサンプリングすることによって前記オーディオデータを前処理することをさらに含む、請求項１に記載の方法。
前記ソフトエントリポイントを検出する前に、前記オーディオデータをフィルタリングすることによって前記オーディオデータを前処理して、
ノイズを低減することと、
関心があるスペクトルバンドを選択することと、のうちの少なくとも１つを実行することをさらに含む、請求項１に記載の方法。
前記ソフトエントリポイントを検出する前に、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成することをさらに含む、請求項１に記載の方法。
前記ソフトエントリポイントを検出することが、前記スペクトログラムに対して１秒未満の時間範囲のスライディング２次元時間周波数分析ウィンドウを適用することを含む、請求項９に記載の方法。
前記ソフトエントリポイントを検出することが、
前記スライディング２次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ／位置ペアのベクトルを形成することと、を含む、請求項１０に記載の方法。
前記ソフトエントリポイントを検出することが、
スペクトル振幅インジケータ／位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Ｑにコンバートすることと、
前記スペクトログラムのＱ／位置ペアを持つ初期ベクトルを生成することと、をさらに含む、請求項１１に記載の方法。
前記ソフトエントリポイントを検出することが、
Ｑ／位置ペアを持つ前記初期ベクトルを連続する１秒間隔に分割することと、
１秒間隔あたりのＱを最大化することと、をさらに含む、請求項１２に記載の方法。
１秒間隔あたりのＱを最大化することは、
１秒間隔ごとに修飾子Ｑをソートすることと、
１秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのＱ／位置ペアの第１のベクトルを形成することと、を含む、請求項１３に記載の方法。
前記ソフトエントリポイントを検出することが、
Ｑ／位置ペアの前記第１のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいＱ／位置ペアの前記第１のベクトルの各要素について、前記現在の位置のすぐ近傍において最大のＱを見つけることと、
前記最大のＱを持つ前記Ｑ／位置ペアを新しいソフトエントリベクトルに入力することと、をさらに含む、請求項１４に記載の方法。
前記すぐ近傍において前記最大のＱを見つけることが、
前記第１のベクトルの第１の要素をアンカー要素として指定することと、
前記第１の要素から約２秒ずれた次の要素を選択することと、をさらに含む、請求項１５に記載の方法。
前記すぐ近傍において前記最大のＱを見つけることが、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Ｑを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、をさらに含む、請求項１６に記載の方法。
前記すぐ近傍において前記最大のＱを見つけることが、連続するステップにおいてＱ／位置ペアの前記第１のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Ｑを持つソフトエントリポイントのセットを生成することをさらに含む、請求項１７に記載の方法。
ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換することと、
最良のエントリポイントの前記リストから前記時間インデックスを選択することと、をさらに含む、請求項１８に記載の方法。
前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別することをさらに含み、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項１に記載の方法。
イベントを描写する視聴覚コンテンツのハイライトの境界を識別するための非一時的なコンピュータ可読媒体であって、前記非一時的なコンピュータ可読媒体に記憶された命令を備え、前記命令が、プロセッサによって実行されたとき、
前記イベントの少なくとも一部を描写するオーディオデータをデータストアに記憶させるステップと、
前記オーディオデータを自動的に分析して、前記オーディオデータのソフトエントリポイントを検出するステップと、
前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定するステップであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの１つを含む、指定するステップと、を実行する、非一時的なコンピュータ可読媒体。
前記視聴覚コンテンツがテレビジョン放送を含む、請求項２１に記載の非一時的なコンピュータ可読媒体。
前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも１人のユーザにとって特に関心があると思われる前記スポーツイベントの一部を描写する、請求項２１に記載の非一時的なコンピュータ可読媒体。
前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、出力デバイスに、前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも１つを再生させる、請求項２３に記載の非一時的なコンピュータ可読媒体。
前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記ソフトエントリポイントを検出する前に、
前記オーディオデータを所望のサンプリングレートにリサンプリングすることと、
前記オーディオデータをフィルタリングして、ノイズを低減することと、
前記オーディオデータをフィルタリングして、関心があるスペクトルバンドを選択することと、のうちの少なくとも１つを実行することによって前記オーディオデータを前処理する、請求項２１に記載の非一時的なコンピュータ可読媒体。
前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記ソフトエントリポイントを検出する前に前記オーディオデータを前処理し、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成する、請求項２１に記載の非一時的なコンピュータ可読媒体。
前記ソフトエントリポイントを検出することが、前記スペクトログラムに対して１秒未満の時間範囲のスライディング２次元時間周波数分析ウィンドウを適用することを含む、請求項２６に記載の非一時的なコンピュータ可読媒体。
前記ソフトエントリポイントを検出することが、
前記スライディング２次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ／位置ペアのベクトルを形成することと、
スペクトル振幅インジケータ／位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Ｑにコンバートすることと、
前記スペクトログラムのＱ／位置ペアを持つ初期ベクトルを生成することと、
Ｑ／位置ペアを持つ前記初期ベクトルを連続する１秒間隔に分割することと、
１秒間隔あたりのＱを最大化することと、を含み、
１秒間隔あたりのＱを最大化することが、
１秒間隔ごとに修飾子Ｑをソートすることと、
１秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのＱ／位置ペアの第１のベクトルを形成することと、を含む、請求項２７に記載の非一時的なコンピュータ可読媒体。
前記ソフトエントリポイントを検出することが、
Ｑ／位置ペアの前記第１のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいＱ／位置ペアの前記第１のベクトルの各要素について、前記現在の位置のすぐ近傍において最大のＱを見つけることと、
前記最大のＱを持つ前記Ｑ／位置ペアを新しいソフトエントリベクトルに入力することと、をさらに含み、
前記すぐ近傍において前記最大のＱを見つけることが、
前記第１のベクトルの第１の要素をアンカー要素として指定することと、
前記第１の要素から約２秒ずれた次の要素を選択することと、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Ｑを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、
連続するステップにおいてＱ／位置ペアの前記第１のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Ｑを持つソフトエントリポイントのセットを生成することと、をさらに含み、
前記非一時的なコンピュータ可読媒体が、前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、
ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換し、
最良のエントリポイントの前記リストから前記時間インデックスを選択する、請求項２８に記載の非一時的なコンピュータ可読媒体。
前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別し、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項２１に記載の非一時的なコンピュータ可読媒体。
イベントを描写する視聴覚コンテンツのハイライトの境界を識別するためのシステムであって、
前記イベントの少なくとも一部を描写するオーディオデータを記憶するように構成されているデータストアと、
プロセッサであって、
前記オーディオデータを自動的に分析して、前記オーディオデータのソフトエントリポイントを検出し、
前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定することであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの１つを含む、指定するように構成されている、プロセッサと、を備える、システム。
前記視聴覚コンテンツがテレビジョン放送を含む、請求項３１に記載のシステム。
前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも１人のユーザにとって特に関心があると思われる前記スポーツイベントの一部を描写する、請求項３１に記載のシステム。
前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも１つを再生するように構成されている出力デバイスをさらに備える、請求項３３に記載のシステム。
前記プロセッサが、前記ソフトエントリポイントを検出する前に、前記オーディオデータを前処理して、
前記オーディオデータを所望のサンプリングレートにリサンプリングすることと、
前記オーディオデータをフィルタリングして、ノイズを低減することと、
前記オーディオデータをフィルタリングして、関心があるスペクトルバンドを選択することと、のうちの少なくとも１つを実行するようにさらに構成されている、請求項３１に記載のシステム。
前記プロセッサが、前記ソフトエントリポイントを検出する前に、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成するようにさらに構成されている、請求項３１に記載のシステム。
前記プロセッサが、前記スペクトログラムに対して１秒未満の時間範囲のスライディング２次元時間周波数分析ウィンドウを適用することによって、前記ソフトエントリポイントを検出するようにさらに構成されている、請求項３６に記載のシステム。
前記プロセッサが、
前記スライディング２次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ／位置ペアのベクトルを形成することと、
スペクトル振幅インジケータ／位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Ｑにコンバートすることと、
前記スペクトログラムのＱ／位置ペアを持つ初期ベクトルを生成することと、
Ｑ／位置ペアを持つ前記初期ベクトルを連続する１秒間隔に分割することと、
１秒間隔あたりのＱを最大化することと、によって前記ソフトエントリポイントを検出するようにさらに構成されており、
前記プロセッサが、
１秒間隔ごとに修飾子Ｑをソートすることと、
１秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのＱ／位置ペアの第１のベクトルを形成することと、によって１秒間隔あたりのＱを最大化するようにさらに構成されている、請求項３７に記載のシステム。
前記プロセッサが、
Ｑ／位置ペアの前記第１のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいＱ／位置ペアの前記第１のベクトルの各要素について、前記現在の位置のすぐ近傍において最大のＱを見つけることと、
前記最大のＱを持つ前記Ｑ／位置ペアを新しいソフトエントリベクトルに入力することと、にさらによって前記ソフトエントリポイントを検出するようにさらに構成されており、
前記プロセッサが、
前記第１のベクトルの第１の要素をアンカー要素として指定することと、
前記第１の要素から約２秒ずれた次の要素を選択することと、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Ｑを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、
連続するステップにおいてＱ／位置ペアの前記第１のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Ｑを持つソフトエントリポイントのセットを生成することと、によって前記すぐ近傍において前記最大のＱを見つけるようにさらに構成されており、
前記プロセッサが、
ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換し、
最良のエントリポイントの前記リストから前記時間インデックスを選択するようにさらに構成されている、請求項３８に記載のシステム。
前記プロセッサが、前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別するようにさらに構成されており、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項３１に記載のシステム。