JP2021533405A - 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 - Google Patents
視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 Download PDFInfo
- Publication number
- JP2021533405A JP2021533405A JP2021505405A JP2021505405A JP2021533405A JP 2021533405 A JP2021533405 A JP 2021533405A JP 2021505405 A JP2021505405 A JP 2021505405A JP 2021505405 A JP2021505405 A JP 2021505405A JP 2021533405 A JP2021533405 A JP 2021533405A
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- vector
- time
- entry point
- soft entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims description 26
- 230000003595 spectral effect Effects 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims description 115
- 239000013598 vector Substances 0.000 claims description 73
- 238000004458 analytical method Methods 0.000 claims description 55
- 239000003607 modifier Substances 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000012952 Resampling Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- 230000001052 transient effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 8
- 230000002452 interceptive effect Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本出願は、2018年7月30日に出願された「Audio Processing for Extraction of Variable Length Disjoint Segments from Television Signal」の米国仮出願第62/712,041号(代理人整理番号THU006−PROV)の利益を主張し、その全体が参照により本明細書に組み込まれる。
以下の定義は説明のみを目的として提示されており、範囲を制限することを意図するものではない。
・イベント:本明細書の説明の目的上、「イベント」という用語は、試合、セッション、対戦、シリーズ、パフォーマンス、番組、コンサートなど、またはその部分(行為、ピリオド、クォーター、ハーフ、イニング、シーン、チャプターなど)を指す。イベントは、スポーツイベント、娯楽イベント、イベントの参加者のより大きい集団内の一個人または部分集団の特定のパフォーマンスなどであってもよい。スポーツ以外のイベントの例としては、テレビジョンショー、ニュース速報、社会政治的出来事、自然災害、映画、演劇、ラジオショー、ポッドキャスト、オーディオブック、オンラインコンテンツ、演奏などが挙げられる。イベントは、任意の長さを有することができる。例示目的のために、本明細書ではスポーツイベントの観点から本技術を説明することが多いが、当業者は、この技術が、任意の視聴覚、オーディオ、ビジュアル、グラフィックスベース、対話型、非対話型、またはテキストベースのコンテンツのハイライトショーを含む、他の文脈でも使用できることを認識するであろう。したがって、本説明における「スポーツイベント」という用語および任意の他のスポーツ固有の用語の使用は、1つの想定される実施形態を例示することを意図しているが、記載される技術の範囲をその1つの実施形態に限定することを意図しているわけではない。むしろ、そのような用語は、この技術に適切な、任意の好適なスポーツ以外の文脈にまで及ぶと考えられるべきである。説明を容易にするために、「イベント」という用語はまた、イベントの視聴覚記録などのイベントの報告もしくは表現、またはイベントの報告、説明、もしくは描写を含む任意の他のコンテンツ項目を指すためにも使用される。
・ハイライト:イベントの抜粋もしく一部、または1人以上のユーザにとって特に関心があると思われるイベントに関連するコンテンツの抜粋もしくは一部。ハイライトは、任意の長さを有することができる。概して、本明細書に記載の技術は、任意の好適なイベントについて、カスタマイズされたハイライトのセット(特定の特性および/またはユーザ選好に基づいて選択され得る)を識別および提示するための機構を提供する。「ハイライト」という用語はまた、ハイライトの視聴覚記録などのハイライトの報告もしくは表現、またはハイライトの報告、説明、もしくは描写を含む任意の他のコンテンツ項目を指すためにも使用され得る。ハイライトは、イベント自体の描写に限定される必要はないが、イベントに関連付けられた他のコンテンツを含むことができる。例えば、スポーツイベントの場合、ハイライトは、試合中のオーディオ/ビデオ、ならびに試合前、試合中、および試合後のインタビュー、分析、解説などの他のコンテンツを含むことができる。このようなコンテンツは、(例えば、イベント自体を描写する視聴覚ストリームの一部として)リニアテレビジョンから記録するか、または他の任意の数のソースから取得することができる。例えば、オカレンス(プレー)、ストリング、ポゼッション、およびシーケンスを含む、様々なタイプのハイライトを提供でき、これらはすべて以下で定義される。ハイライトは、固定された持続時間である必要はないが、以下で説明するように、開始オフセットおよび/または終了オフセットを組み込むことができる。
・クリップ:イベントのオーディオ、ビジュアル、または視聴覚表現の一部。クリップは、ハイライトに対応するか、またはハイライトを表す場合がある。本明細書の多くの文脈では、「セグメント」という用語が「クリップ」と交換可能に使用される。クリップは、オーディオストリーム、ビデオストリーム、もしくは視聴覚ストリームの部分である場合もあれば、または記憶されたオーディオ、ビデオ、もしくは視聴覚コンテンツの部分である場合もある。
・コンテンツデリニエータ:ハイライトの開始または終了を示す1つ以上のビデオフレーム。
・オカレンス:イベント中に発生するもの。例としては、ゴール、プレー、ダウン、ヒット、セーブ、ゴールへのシュート、バスケットの得点、盗塁、スナップもしくはスナップの試み、ニアミス、喧嘩、試合、クォーター、ハーフ、ピリオド、もしくはイニングの開始もしくは終了、投球、ペナルティ、負傷、娯楽イベントでのドラマチックな出来事、歌、ソロなどが挙げられる。停電、手に負えないファンの出来事など、オカレンスは異例のことである場合もある。このようなオカレンスの検出は、視聴覚ストリームの特定の部分をハイライトとして指定するか否かを判定するための基礎として使用できる。オカレンスは、学術用語を容易にするために、本明細書では「プレー」とも呼ばれるが、そのような使用法は、範囲を限定するものと解釈されるべきではない。オカレンスは、任意の長さを有してもよく、オカレンスの表現は、様々な長さを有してもよい。例えば、上記のように、オカレンスの拡張表現は、オカレンスの直前および直後の時間期間を描写する映像を含み得るが、簡単な表現は、オカレンス自体のみを含み得る。任意の中間表現も提供することができる。少なくとも1つの実施形態では、オカレンスを表現するための持続時間の選択は、ユーザ選好、利用可能な時間、オカレンスに対する判定された興奮レベル、オカレンスの重要度、および/または任意の他の要因に依存することができる。
・オフセット:ハイライトの長さが調整される量。少なくとも1つの実施形態では、ハイライトの開始時間および/または終了時間をそれぞれ調整するために、開始オフセットおよび/または終了オフセットを提供することができる。例えば、ハイライトがゴールを描写する場合、ハイライトは、ゴールに続く賞揚および/またはファンの反応を含むように、(終了オフセットを介して)数秒間延長され得る。オフセットは、例えば、ハイライトに利用可能な時間量、ハイライトの重要度および/もしくは興奮レベル、ならびに/または任意の他の好適な要因に基づいて、自動または手動で変更するように構成することができる。
・ストリング:何らかの形で互いとリンクまたは関連している一連のオカレンス。オカレンスは、ポゼッション(以下に定義する)内で発生してもよく、複数のポゼッションにまたがってもよい。オカレンスは、シーケンス(以下に定義する)内で発生してもよく、複数のシーケンスにまたがってもよい。オカレンスは、互いに何らかの主題的もしくは物語的なつながりがあるため、またはあるものが別のものにつながるため、または任意の他の理由で、リンクまたは関連していてもよい。ストリングの一例は、ゴールまたはバスケットの得点につながるパスのセットである。これは、コンピュータプログラミング分野におけるストリングに通常割り当てられている意味を有する「テキストストリング」と混同してはならない。
・ポゼッション:イベントの任意の時間で区切られた部分。ポゼッションの開始/終了時間の分界は、イベントのタイプによって決まり得る。一方のチームが攻撃的であり得るが、他方のチームが防御的である特定のスポーツイベント(例えば、バスケットボールまたはサッカーなど)の場合、ポゼッションは、チームの一方がボールを有している時間期間として定義することができる。ホッケーまたはサッカーなど、パックまたはボールのポゼッションがより流動的であるスポーツでは、ポゼッションは、チームのうちの一方が他方のチームによる瞬間的な接触(ブロックされたシュートまたはセーブなど)を無視して、パックまたはボールの実質的な制御を有する時間期間にまで及ぶと考えられ得る。野球の場合、ポゼッションはハーフイニングとして定義される。フットボールの場合、ポゼッションは、同じチームがボールを有しているいくつかのシーケンスを含むことができる。他のタイプのスポーツイベントならびにスポーツ以外のイベントの場合、「ポゼッション」という用語は、いくぶん誤称であり得るが、本明細書では、それでも説明のために使用する。スポーツ以外の文脈における例としては、チャプター、シーン、アクトなどを挙げることができる。例えば、音楽コンサートの文脈では、ポゼッションは、単一の歌のパフォーマンスに相当し得る。ポゼッションは、任意の数のオカレンスを含むことができる。
・シーケンス:1つの連続したアクションの時間期間を含むイベントの時間で区切られた部分。例えば、スポーツイベントでは、シーケンスはアクションの開始時(フェイスオフ、またはジャンプボールなど)に開始し得、笛が吹かれてアクションの中断を示すときに終了し得る。野球またはフットボールなどのスポーツでは、シーケンスはプレーと同等である場合があり、これはオカレンスの一形態である。シーケンスは、任意の数のポゼッションを含むことができるか、またはポゼッションの一部分であってもよい。
・ハイライトショー:ユーザへの提示のために構成されたハイライトのセット。ハイライトショーは、(視聴覚ストリームなど)直線的に提示されるか、またはユーザが(例えば、リンクもしくはサムネイルをクリックすることによって)閲覧するハイライトおよび順序を選択できるように提示され得る。ハイライトショーの提示は、非対話型または対話型であり得、例えば、ユーザが一時停止、巻き戻し、スキップ、早送り、賛成または反対の選好を伝達することなどを可能にする。ハイライトショーは、例えば、凝縮された試合であり得る。ハイライトショーは、単一のイベントから、または複数のイベントから、連続または非連続のハイライトを任意の数だけ含むことができ、さらには異なるタイプのイベント(例えば、異なるスポーツ、ならびに/またはスポーツおよびスポーツ以外のイベントのハイライトの組み合わせ)からのハイライトを含むこともできる。
・ユーザ/閲覧者:「ユーザ」または「閲覧者」という用語は、イベント、イベントの1つ以上のハイライト、またはハイライトショーを見たり、聞いたり、または他の方法で体験したりする個人、グループ、または他のエンティティを交換可能に指す。「ユーザ」または「閲覧者」という用語はまた、ある将来の時点で、イベント、イベントの1つ以上のハイライト、またはハイライトショーのいずれかを見たり、聞いたり、または他の方法で体験したりし得る個人、グループ、または他のエンティティを指すこともできる。「閲覧者」という用語は説明の目的で使用される場合があるが、イベントにビジュアルコンポーネントが含まれている必要はないため、「閲覧者」は代わりにリスナーまたはコンテンツの任意の他の消費者であってもよい。
・興奮レベル:特定のユーザまたは一般のユーザにとって、イベントまたはハイライトがどれほど興奮するものになるかまたは興味深いものになるかを示す尺度。興奮レベルは、特定のオカレンスまたはプレーヤに関して判定することもできる。興奮レベルを測定または評価するための様々な技術は、上記で参照した関連出願において説明されている。説明したように、興奮レベルは、イベント内のオカレンス、およびイベントの全体的な文脈または重要度(プレーオフ試合、ペナントの影響、および/またはライバル関係など)などの他の要因によって決まる場合がある。少なくとも1つの実施形態では、興奮レベルは、イベント内の各オカレンス、ストリング、ポゼッション、またはシーケンスに関連付けることができる。例えば、ポゼッションの興奮レベルは、そのポゼッション内で発生するオカレンスに基づいて判定することができる。興奮レベルは、異なるユーザ(例えば、あるチームのファンと中立のファン)によって異なる方法で測定されてもよく、各ユーザの個人的な特性によって決まる場合がある。
・メタデータ:他のデータに関連し、他のデータに関連付けられて記憶されるデータ。一次データは、スポーツ番組またはハイライトなどのメディアであってもよい。
・ビデオデータ。デジタル形式またはアナログ形式であり得る、ある長さのビデオ。ビデオデータは、ローカル記憶デバイスに記憶することができるか、またはTV放送アンテナ、ケーブルネットワーク、もしくはコンピュータサーバなどのソースからリアルタイムで受信することができ、この場合、それは「ビデオストリーム」と呼ばれることもある。ビデオデータは、オーディオコンポーネントを含む場合と含まない場合があり、オーディオコンポーネントを含む場合は、「視聴覚データ」または「視聴覚ストリーム」と呼ばれることがある。
・オーディオデータ。デジタル形式またはアナログ形式であり得る、ある長さのオーディオ。オーディオデータは、視聴覚データまたは視聴覚ストリームのオーディオコンポーネントであり得、視聴覚データからオーディオデータを抽出することによって分離され得る。オーディオデータは、ローカル記憶装置に記憶することができるか、またはTV放送アンテナ、ケーブルネットワーク、もしくはコンピュータサーバなどのソースからリアルタイムで受信することができ、この場合、それは「オーディオストリーム」と呼ばれることもある。
・ストリーム。オーディオストリーム、ビデオストリーム、または視聴覚ストリーム。
・時間インデックス。イベントが発生するか、または別様にハイライトなどの指定されたセグメントに関連する、オーディオデータ、ビデオデータ、または視聴覚データ内の時間のインジケータ。
・スペクトログラム。時間とともに変化する、オーディオストリームなどの信号の周波数スペクトルのビジュアル表現。スペクトログラムは、オーディオ信号に短時間フーリエ変換(STFT)を適用することによって導出されるオーディオ信号の2次元時間周波数表現であり得る。
・分析ウィンドウ。ビデオデータ、オーディオデータ、視聴覚データ、スペクトログラム、ストリーム、または他の方法で処理されたバージョンのストリームもしくはデータの、指定されたサブセットであって、そこにおいて分析の1つのステップに焦点が当てられる。オーディオデータ、ビデオデータ、視聴覚データ、またはスペクトログラムは、例えば、データまたはスペクトログラムの様々なセグメントをカバーする移動する分析ウィンドウおよび/または一連の分析ウィンドウを使用してセグメント内で分析することができる。
・境界。あるオーディオ、ビデオ、および/または視聴覚セグメントを別のセグメントから分離する分界。境界は、テレビジョン放送などの視聴覚コンテンツのハイライトなどのセグメントの開始または終了であり得る。境界は、暫定的(つまり、仮のおよび/もしくはその後の置換を目的としたもの)または最終的であり得る。いくつかの実施形態では、ハイライトは、最初に暫定的な境界で識別され得る。オーディオ分析を実行して、次いでハイライトの最終的な境界を(時間的に)特定するために使用されるソフトエントリポイントを識別することができる。
・ソフトエントリポイント。異なるシーン、コンテンツのタイプ、再生などの間の有望なまたは好ましい遷移ポイントを表すオーディオ、ビデオ、または視聴覚ストリームの一部。ソフトエントリポイントは、スポーツイベントの文脈では、試合中の解説またはプレー間の休止を表すオーディオ信号のより静かな部分である場合がある。
少なくとも1つの実施形態では、本明細書に記載のシステムおよび方法は、音節、文、および/または単語のグループの終了などの低活動エントリポイント(「ソフトエントリポイント」)を検出するためのオーディオ処理に基づいて、テレビジョン番組などの視聴覚番組の自動リアルタイム可変長セグメンテーションを実行する。これらのエントリポイントは、視聴覚番組のセグメントを抽出する際のガイドとして使用でき、これにより、あるハイライトから次のハイライトへの遷移が改善されてハイライト生成が容易になり、会話または他の音が途切れることを回避し、突然の遷移を回避することができる。
様々な実施形態によれば、システムは、情報を受信、記憶、および提示するように装備された任意の電子デバイスまたは電子デバイスのセットに実装することができる。このような電子デバイスは、例えば、デスクトップコンピュータ、ラップトップコンピュータ、テレビジョン、スマートフォン、タブレット、音楽プレーヤ、オーディオデバイス、キオスク、セットトップボックス(STB)、試合システム、ウェアラブルデバイス、家庭用電子デバイスなどであってもよい。
・表示のための特定のハイライトおよび/もしくはメタデータを選択する、
・一時停止、巻き戻し、早送りを行う、
・次のハイライトにスキップする、
・ハイライトショー内の前のハイライトの開始に戻る、ならびに/または
・他のアクションを実行する。
図2は、一実施形態による、オーディオデータ154、ユーザデータ155、およびハイライトデータ164に組み込むことができるデータ構造の例を示す概略ブロック図である。
少なくとも1つの実施形態では、システムは、時間周波数領域において、オーディオストリームなどのオーディオデータ154の分析のいくつかの段階を実行して、スポーツイベントまたは別のイベントの描写中に、音声、音楽、または他の音の休止または低いポイントなどのソフトエントリポイントを検出する。描写は、テレビジョン放送、視聴覚ストリーム、オーディオストリーム、記憶されたファイルなどであり得る。
図4は、一実施形態による、リサンプリング、フィルタリング、およびスペクトログラム構築によるオーディオ前処理のための方法400を示すフローチャートである。少なくとも1つの実施形態では、方法400は、一実施形態によれば、例えば、ハイライト220の境界232に対応する、ソフトエントリポイント320の識別のために、視聴覚ストリームを受信し、オーディオデータ154のオンザフライ処理を実行する(例えば、クライアントデバイス106および/または分析サーバ116のうちの1つの上で実行される)アプリケーションによって行われ得る。方法400によれば、オーディオストリーム310などのオーディオデータ154は、オーディオ、ビデオ、および/または視聴覚番組コンテンツのセグメント間の休止、中断、または他の自然な仕切りを検出することによって、オーディオデータ154内のソフトエントリポイント320を検出するように処理され得る。
Claims (40)
- イベントを描写する視聴覚コンテンツのハイライトの境界を識別するための方法であって、
データストアに、前記イベントの少なくとも一部を描写するオーディオデータを記憶することと、
プロセッサにおいて、前記オーディオデータを自動的に分析して、前記オーディオデータのソフトエントリポイントを検出することと、
前記プロセッサにおいて、前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定することであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの1つを含む、指定することと、を含む、方法。 - 前記視聴覚コンテンツがテレビジョン放送を含む、請求項1に記載の方法。
- 前記視聴覚コンテンツが視聴覚ストリームを含み、前記方法が、前記イベントの少なくとも一部を描写するオーディオデータを記憶する前に、前記視聴覚ストリームから前記オーディオデータを抽出することをさらに含む、請求項1に記載の方法。
- 前記視聴覚コンテンツが、記憶された視聴覚コンテンツを含み、前記方法が、前記イベントの少なくとも一部を描写するオーディオデータを記憶する前に、前記記憶された視聴覚コンテンツから前記オーディオデータを抽出することをさらに含む、請求項1に記載の方法。
- 前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも1人のユーザにとって特に関心があると思われる前記スポーツイベントの一部を描写する、請求項1に記載の方法。 - 出力デバイスにおいて、前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも1つを再生することをさらに含む、請求項5に記載の方法。
- 前記ソフトエントリポイントを検出する前に、前記オーディオデータを所望のサンプリングレートにリサンプリングすることによって前記オーディオデータを前処理することをさらに含む、請求項1に記載の方法。
- 前記ソフトエントリポイントを検出する前に、前記オーディオデータをフィルタリングすることによって前記オーディオデータを前処理して、
ノイズを低減することと、
関心があるスペクトルバンドを選択することと、のうちの少なくとも1つを実行することをさらに含む、請求項1に記載の方法。 - 前記ソフトエントリポイントを検出する前に、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成することをさらに含む、請求項1に記載の方法。
- 前記ソフトエントリポイントを検出することが、前記スペクトログラムに対して1秒未満の時間範囲のスライディング2次元時間周波数分析ウィンドウを適用することを含む、請求項9に記載の方法。
- 前記ソフトエントリポイントを検出することが、
前記スライディング2次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ/位置ペアのベクトルを形成することと、を含む、請求項10に記載の方法。 - 前記ソフトエントリポイントを検出することが、
スペクトル振幅インジケータ/位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Qにコンバートすることと、
前記スペクトログラムのQ/位置ペアを持つ初期ベクトルを生成することと、をさらに含む、請求項11に記載の方法。 - 前記ソフトエントリポイントを検出することが、
Q/位置ペアを持つ前記初期ベクトルを連続する1秒間隔に分割することと、
1秒間隔あたりのQを最大化することと、をさらに含む、請求項12に記載の方法。 - 1秒間隔あたりのQを最大化することは、
1秒間隔ごとに修飾子Qをソートすることと、
1秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのQ/位置ペアの第1のベクトルを形成することと、を含む、請求項13に記載の方法。 - 前記ソフトエントリポイントを検出することが、
Q/位置ペアの前記第1のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいQ/位置ペアの前記第1のベクトルの各要素について、前記現在の位置のすぐ近傍において最大のQを見つけることと、
前記最大のQを持つ前記Q/位置ペアを新しいソフトエントリベクトルに入力することと、をさらに含む、請求項14に記載の方法。 - 前記すぐ近傍において前記最大のQを見つけることが、
前記第1のベクトルの第1の要素をアンカー要素として指定することと、
前記第1の要素から約2秒ずれた次の要素を選択することと、をさらに含む、請求項15に記載の方法。 - 前記すぐ近傍において前記最大のQを見つけることが、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Qを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、をさらに含む、請求項16に記載の方法。 - 前記すぐ近傍において前記最大のQを見つけることが、連続するステップにおいてQ/位置ペアの前記第1のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Qを持つソフトエントリポイントのセットを生成することをさらに含む、請求項17に記載の方法。
- ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換することと、
最良のエントリポイントの前記リストから前記時間インデックスを選択することと、をさらに含む、請求項18に記載の方法。 - 前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別することをさらに含み、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項1に記載の方法。 - イベントを描写する視聴覚コンテンツのハイライトの境界を識別するための非一時的なコンピュータ可読媒体であって、前記非一時的なコンピュータ可読媒体に記憶された命令を備え、前記命令が、プロセッサによって実行されたとき、
前記イベントの少なくとも一部を描写するオーディオデータをデータストアに記憶させるステップと、
前記オーディオデータを自動的に分析して、前記オーディオデータのソフトエントリポイントを検出するステップと、
前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定するステップであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの1つを含む、指定するステップと、を実行する、非一時的なコンピュータ可読媒体。 - 前記視聴覚コンテンツがテレビジョン放送を含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも1人のユーザにとって特に関心があると思われる前記スポーツイベントの一部を描写する、請求項21に記載の非一時的なコンピュータ可読媒体。 - 前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、出力デバイスに、前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも1つを再生させる、請求項23に記載の非一時的なコンピュータ可読媒体。
- 前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記ソフトエントリポイントを検出する前に、
前記オーディオデータを所望のサンプリングレートにリサンプリングすることと、
前記オーディオデータをフィルタリングして、ノイズを低減することと、
前記オーディオデータをフィルタリングして、関心があるスペクトルバンドを選択することと、のうちの少なくとも1つを実行することによって前記オーディオデータを前処理する、請求項21に記載の非一時的なコンピュータ可読媒体。 - 前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記ソフトエントリポイントを検出する前に前記オーディオデータを前処理し、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成する、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記ソフトエントリポイントを検出することが、前記スペクトログラムに対して1秒未満の時間範囲のスライディング2次元時間周波数分析ウィンドウを適用することを含む、請求項26に記載の非一時的なコンピュータ可読媒体。
- 前記ソフトエントリポイントを検出することが、
前記スライディング2次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ/位置ペアのベクトルを形成することと、
スペクトル振幅インジケータ/位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Qにコンバートすることと、
前記スペクトログラムのQ/位置ペアを持つ初期ベクトルを生成することと、
Q/位置ペアを持つ前記初期ベクトルを連続する1秒間隔に分割することと、
1秒間隔あたりのQを最大化することと、を含み、
1秒間隔あたりのQを最大化することが、
1秒間隔ごとに修飾子Qをソートすることと、
1秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのQ/位置ペアの第1のベクトルを形成することと、を含む、請求項27に記載の非一時的なコンピュータ可読媒体。 - 前記ソフトエントリポイントを検出することが、
Q/位置ペアの前記第1のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいQ/位置ペアの前記第1のベクトルの各要素について、前記現在の位置のすぐ近傍において最大のQを見つけることと、
前記最大のQを持つ前記Q/位置ペアを新しいソフトエントリベクトルに入力することと、をさらに含み、
前記すぐ近傍において前記最大のQを見つけることが、
前記第1のベクトルの第1の要素をアンカー要素として指定することと、
前記第1の要素から約2秒ずれた次の要素を選択することと、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Qを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、
連続するステップにおいてQ/位置ペアの前記第1のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Qを持つソフトエントリポイントのセットを生成することと、をさらに含み、
前記非一時的なコンピュータ可読媒体が、前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、
ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換し、
最良のエントリポイントの前記リストから前記時間インデックスを選択する、請求項28に記載の非一時的なコンピュータ可読媒体。 - 前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別し、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項21に記載の非一時的なコンピュータ可読媒体。 - イベントを描写する視聴覚コンテンツのハイライトの境界を識別するためのシステムであって、
前記イベントの少なくとも一部を描写するオーディオデータを記憶するように構成されているデータストアと、
プロセッサであって、
前記オーディオデータを自動的に分析して、前記オーディオデータのソフトエントリポイントを検出し、
前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定することであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの1つを含む、指定するように構成されている、プロセッサと、を備える、システム。 - 前記視聴覚コンテンツがテレビジョン放送を含む、請求項31に記載のシステム。
-
前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも1人のユーザにとって特に関心があると思われる前記スポーツイベントの一部を描写する、請求項31に記載のシステム。 - 前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも1つを再生するように構成されている出力デバイスをさらに備える、請求項33に記載のシステム。
- 前記プロセッサが、前記ソフトエントリポイントを検出する前に、前記オーディオデータを前処理して、
前記オーディオデータを所望のサンプリングレートにリサンプリングすることと、
前記オーディオデータをフィルタリングして、ノイズを低減することと、
前記オーディオデータをフィルタリングして、関心があるスペクトルバンドを選択することと、のうちの少なくとも1つを実行するようにさらに構成されている、請求項31に記載のシステム。 - 前記プロセッサが、前記ソフトエントリポイントを検出する前に、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成するようにさらに構成されている、請求項31に記載のシステム。
- 前記プロセッサが、前記スペクトログラムに対して1秒未満の時間範囲のスライディング2次元時間周波数分析ウィンドウを適用することによって、前記ソフトエントリポイントを検出するようにさらに構成されている、請求項36に記載のシステム。
- 前記プロセッサが、
前記スライディング2次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ/位置ペアのベクトルを形成することと、
スペクトル振幅インジケータ/位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Qにコンバートすることと、
前記スペクトログラムのQ/位置ペアを持つ初期ベクトルを生成することと、
Q/位置ペアを持つ前記初期ベクトルを連続する1秒間隔に分割することと、
1秒間隔あたりのQを最大化することと、によって前記ソフトエントリポイントを検出するようにさらに構成されており、
前記プロセッサが、
1秒間隔ごとに修飾子Qをソートすることと、
1秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのQ/位置ペアの第1のベクトルを形成することと、によって1秒間隔あたりのQを最大化するようにさらに構成されている、請求項37に記載のシステム。 - 前記プロセッサが、
Q/位置ペアの前記第1のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいQ/位置ペアの前記第1のベクトルの各要素について、前記現在の位置のすぐ近傍において最大のQを見つけることと、
前記最大のQを持つ前記Q/位置ペアを新しいソフトエントリベクトルに入力することと、にさらによって前記ソフトエントリポイントを検出するようにさらに構成されており、
前記プロセッサが、
前記第1のベクトルの第1の要素をアンカー要素として指定することと、
前記第1の要素から約2秒ずれた次の要素を選択することと、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Qを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、
連続するステップにおいてQ/位置ペアの前記第1のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Qを持つソフトエントリポイントのセットを生成することと、によって前記すぐ近傍において前記最大のQを見つけるようにさらに構成されており、
前記プロセッサが、
ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換し、
最良のエントリポイントの前記リストから前記時間インデックスを選択するようにさらに構成されている、請求項38に記載のシステム。 - 前記プロセッサが、前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別するようにさらに構成されており、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項31に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024092728A JP2024133486A (ja) | 2018-07-30 | 2024-06-07 | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862712041P | 2018-07-30 | 2018-07-30 | |
US62/712,041 | 2018-07-30 | ||
US201862746454P | 2018-10-16 | 2018-10-16 | |
US62/746,454 | 2018-10-16 | ||
US16/440,229 | 2019-06-13 | ||
US16/440,229 US20200037022A1 (en) | 2018-07-30 | 2019-06-13 | Audio processing for extraction of variable length disjoint segments from audiovisual content |
PCT/US2019/042391 WO2020028057A1 (en) | 2018-07-30 | 2019-07-18 | Audio processing for extraction of variable length disjoint segments from audiovisual content |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024092728A Division JP2024133486A (ja) | 2018-07-30 | 2024-06-07 | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021533405A true JP2021533405A (ja) | 2021-12-02 |
JP7541972B2 JP7541972B2 (ja) | 2024-08-29 |
Family
ID=69178979
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021505405A Active JP7541972B2 (ja) | 2018-07-30 | 2019-07-18 | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
JP2024092728A Pending JP2024133486A (ja) | 2018-07-30 | 2024-06-07 | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024092728A Pending JP2024133486A (ja) | 2018-07-30 | 2024-06-07 | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20200037022A1 (ja) |
EP (1) | EP3831083A4 (ja) |
JP (2) | JP7541972B2 (ja) |
CN (2) | CN117041659A (ja) |
AU (2) | AU2019314223B2 (ja) |
CA (1) | CA3108129A1 (ja) |
WO (1) | WO2020028057A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808615B (zh) * | 2021-08-31 | 2023-08-11 | 北京字跳网络技术有限公司 | 音频类别定位方法、装置、电子设备和存储介质 |
US11934439B1 (en) * | 2023-02-27 | 2024-03-19 | Intuit Inc. | Similar cases retrieval in real time for call center agents |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003101939A (ja) * | 2001-07-17 | 2003-04-04 | Pioneer Electronic Corp | 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム |
JP2004258659A (ja) * | 2003-02-25 | 2004-09-16 | Mitsubishi Electric Research Laboratories Inc | スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム |
JP2008185626A (ja) * | 2007-01-26 | 2008-08-14 | Toshiba Corp | ハイライトシーン検出装置 |
JP2011075935A (ja) * | 2009-09-30 | 2011-04-14 | Toshiba Corp | 音声処理装置、プログラム、音声処理方法および録画装置 |
JP2012037910A (ja) * | 2011-11-07 | 2012-02-23 | Toshiba Corp | 音楽検出装置 |
JP2015505992A (ja) * | 2011-12-12 | 2015-02-26 | ドルビー ラボラトリーズ ライセンシング コーポレイション | メディアデータにおける低計算量反復検出 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6163510A (en) * | 1998-06-30 | 2000-12-19 | International Business Machines Corporation | Multimedia search and indexing system and method of operation using audio cues with signal thresholds |
KR100863122B1 (ko) * | 2002-06-27 | 2008-10-15 | 주식회사 케이티 | 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법 |
US7558809B2 (en) * | 2006-01-06 | 2009-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Task specific audio classification for identifying video highlights |
US7584428B2 (en) * | 2006-02-09 | 2009-09-01 | Mavs Lab. Inc. | Apparatus and method for detecting highlights of media stream |
US9299364B1 (en) * | 2008-06-18 | 2016-03-29 | Gracenote, Inc. | Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications |
CN101650722B (zh) * | 2009-06-01 | 2011-10-26 | 南京理工大学 | 基于音视频融合的足球视频精彩事件检测方法 |
US10014008B2 (en) * | 2014-03-03 | 2018-07-03 | Samsung Electronics Co., Ltd. | Contents analysis method and device |
US20170228600A1 (en) * | 2014-11-14 | 2017-08-10 | Clipmine, Inc. | Analysis of video game videos for information extraction, content labeling, smart video editing/creation and highlights generation |
US10129608B2 (en) * | 2015-02-24 | 2018-11-13 | Zepp Labs, Inc. | Detect sports video highlights based on voice recognition |
EP3286757B1 (en) * | 2015-04-24 | 2019-10-23 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
US10602235B2 (en) * | 2016-12-29 | 2020-03-24 | Arris Enterprises Llc | Video segment detection and replacement |
-
2019
- 2019-06-13 US US16/440,229 patent/US20200037022A1/en not_active Abandoned
- 2019-07-18 CA CA3108129A patent/CA3108129A1/en active Pending
- 2019-07-18 CN CN202310741442.0A patent/CN117041659A/zh active Pending
- 2019-07-18 CN CN201980058718.7A patent/CN113170228B/zh active Active
- 2019-07-18 AU AU2019314223A patent/AU2019314223B2/en active Active
- 2019-07-18 WO PCT/US2019/042391 patent/WO2020028057A1/en unknown
- 2019-07-18 EP EP19844647.8A patent/EP3831083A4/en active Pending
- 2019-07-18 JP JP2021505405A patent/JP7541972B2/ja active Active
-
2024
- 2024-05-22 AU AU2024203420A patent/AU2024203420A1/en active Pending
- 2024-06-07 JP JP2024092728A patent/JP2024133486A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003101939A (ja) * | 2001-07-17 | 2003-04-04 | Pioneer Electronic Corp | 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム |
JP2004258659A (ja) * | 2003-02-25 | 2004-09-16 | Mitsubishi Electric Research Laboratories Inc | スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム |
JP2008185626A (ja) * | 2007-01-26 | 2008-08-14 | Toshiba Corp | ハイライトシーン検出装置 |
JP2011075935A (ja) * | 2009-09-30 | 2011-04-14 | Toshiba Corp | 音声処理装置、プログラム、音声処理方法および録画装置 |
JP2012037910A (ja) * | 2011-11-07 | 2012-02-23 | Toshiba Corp | 音楽検出装置 |
JP2015505992A (ja) * | 2011-12-12 | 2015-02-26 | ドルビー ラボラトリーズ ライセンシング コーポレイション | メディアデータにおける低計算量反復検出 |
Non-Patent Citations (1)
Title |
---|
小泉 悠馬ほか: "音量軌跡の遷移型状態空間表現に基づくダイナミックスとアーティキュレーションへの分解", 電子情報通信学会論文誌D, vol. 98, no. 3, JPN6023028431, March 2015 (2015-03-01), pages 492 - 500, ISSN: 0005102231 * |
Also Published As
Publication number | Publication date |
---|---|
EP3831083A4 (en) | 2022-06-08 |
CA3108129A1 (en) | 2020-02-06 |
AU2024203420A1 (en) | 2024-06-13 |
EP3831083A1 (en) | 2021-06-09 |
WO2020028057A1 (en) | 2020-02-06 |
CN117041659A (zh) | 2023-11-10 |
CN113170228B (zh) | 2023-07-14 |
JP7541972B2 (ja) | 2024-08-29 |
AU2019314223A1 (en) | 2021-02-25 |
CN113170228A (zh) | 2021-07-23 |
US20200037022A1 (en) | 2020-01-30 |
JP2024133486A (ja) | 2024-10-02 |
AU2019314223B2 (en) | 2024-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7485864B2 (ja) | スポーツイベントテレビジョン番組において群衆ノイズの発生を検出するためのオーディオ処理 | |
JP7511482B2 (ja) | 埋め込まれた情報カード位置特定およびコンテンツ抽出のためのビデオ処理 | |
US11922968B2 (en) | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts | |
US20220182722A1 (en) | System and method for automatic detection of periods of heightened audience interest in broadcast electronic media | |
US11677711B2 (en) | Metrics-based timeline of previews | |
JP2024133486A (ja) | 視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220628 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230707 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231205 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240209 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20240216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240607 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240819 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7541972 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |