JP2004517518A - オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法 - Google Patents
オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法 Download PDFInfo
- Publication number
- JP2004517518A JP2004517518A JP2002553671A JP2002553671A JP2004517518A JP 2004517518 A JP2004517518 A JP 2004517518A JP 2002553671 A JP2002553671 A JP 2002553671A JP 2002553671 A JP2002553671 A JP 2002553671A JP 2004517518 A JP2004517518 A JP 2004517518A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- category
- change
- rate
- detector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000008859 change Effects 0.000 claims abstract description 110
- 230000005236 sound signal Effects 0.000 claims abstract description 79
- 238000007635 classification algorithm Methods 0.000 claims description 23
- 239000000872 buffer Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/22—Means responsive to presence or absence of recorded information signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/21—Disc-shaped record carriers characterised in that the disc is of read-only, rewritable, or recordable type
- G11B2220/215—Recordable discs
- G11B2220/216—Rewritable discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2508—Magnetic discs
- G11B2220/2516—Hard disks
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2537—Optical discs
- G11B2220/2545—CDs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2537—Optical discs
- G11B2220/2562—DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/40—Combinations of multiple record carriers
- G11B2220/45—Hierarchical combination of record carriers, e.g. HDD for fast access, optical discs for long term storage or tapes for backup
- G11B2220/455—Hierarchical combination of record carriers, e.g. HDD for fast access, optical discs for long term storage or tapes for backup said record carriers being in one device and being used as primary and secondary/backup media, e.g. HDD-DVD combo device, or as source and target media, e.g. PC and portable player
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/90—Tape-like record carriers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S358/00—Facsimile and static presentation processing
- Y10S358/908—Pause control, i.e. "commercial killers"
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
ビデオ信号プロセッサにおいて使用される、オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法が開示される。システムは、オーディオ信号のセグメントのオーディオカテゴリに関連する情報を取得するオーディオ分類器コントローラを含む。オーディオカテゴリは、無音、音楽、雑音、及び音声といったカテゴリを含む。オーディオ分類器コントローラは、オーディオカテゴリの変化率を決定する。オーディオ分類器コントローラは、番組及びコマーシャルの境界の位置を見つけるために、オーディオカテゴリの各変化の率を閾値と比較する。
Description
【0001】
本発明は、2000年8月8日に発行された「APPARATUS AND METHOD FOR LOCATING A COMMERCIAL DISPOSED WITHIN A VIDEO DATA STREAM」なる名称の米国特許第6,100,941号及び1998年1月13日出願の「MULTIMEDIA COMPUTER SYSTEM WITH STORY SEGMENTATION CAPABILITY AND OPERATING PROGRAM THEREFOR INCLUDING FINITE AUTOMATON VIDEO PARSER」なる名称の米国特許出願第09/006,657号に開示された発明に関連する。この上記特許及び特許出願は、本発明の譲受人に共通に譲渡されている。上記特許及び特許出願の開示は、本願に完全に記載されているかのように全体としてここに参照として組み入れられる。
【0002】
本発明は、概して、ビデオデータストリーム中のビデオ番組のセグメントの境界の位置を見つけるシステム及び方法に係り、特に音声、音楽、無音、及び雑音といったオーディオカテゴリを用いてビデオ番組の境界及びコマーシャルメッセージの境界の位置を見つけるシステム及び方法に関連する。
【0003】
様々な種類のビデオレコーダが市販されている。殆どの人が、ビデオカセットレコーダ(VCR)、ビデオテープレコーダ(VTR)とも称される、を所有するか、使い慣れている。ビデオカセットレコーダは、磁気カセットテープ上にビデオ番組を記録する。最近では、ビデオ番組を記憶するために磁気カセットテープではなくコンピュータ磁気ハードディスクを使用するビデオレコーダが市販されるようになっている。例えば、ReplayTV(登録商標)レコーダ及びTiVO(登録商標)レコーダは、例えばMPEGビデオ圧縮標準を用いてハードディスクドライブ上にテレビジョン番組をディジタル式に記録する。更に、幾つかのビデオレコーダは、磁気ディスクではなく、読み取り可能/書き込み可能なディジタル・バーサタイル・ディスク(DVD)上に記録しうる。
【0004】
ビデオレコーダは、一般的にはテレビ受像機といったビデオ表示装置と共に使用される。ビデオレコーダは、ビデオ番組がビデオ表示装置上に表示されているのと同時にビデオ番組を記録するために使用されうる。一般的な例は、テレビ番組がテレビ画面上に同時に表示されている間にテレビ番組を記録するためにビデオカセットレコーダ(VCR)を使用するものである。
【0005】
ビデオレコーダは、記録のためにテレビジョン番組の開始時間及び終了時間を決定するために高レベル電子番組ガイド(EPG)情報に依存する。残念なことに、EPG情報は、不正確であることが多く、特にテレビジョンの生放送の場合に不正確となることが多い。ビデオ番組の境界、並びに、ビデオ番組中のコマーシャルメッセージ(「コマーシャル」)の境界の位置を見つける改善されたシステム及び方法が必要である。
【0006】
ビデオ番組のセグメントの開始時間及び終了時間を検出するために種々の方法がある。これらの方法は、一般的には、ビデオレコーダでビデオ番組が録音されているときにコマーシャルが自動的にとばされうるようコマーシャルを検出するために使用される。幾つかの周知の方法は、「ブラックフレーム」の検出を含む。ブラックフレームは、コマーシャルの直前及び直後に通常は見つけられる黒いビデオフレームである。コマーシャルの境界を検出する他の方法は、カット率変更、スーパーヒストグラム、時間情報を伴うディジタル化されたコード等の使用を含む。
【0007】
番組又はコマーシャルの境界を検出する他の従来技術の方法は、番組又はコマーシャルの始まり及び終わりを割り当てるためにビデオ信号中に特殊なコード又は信号を挿入することを含む。特殊なコード又は信号を検出し識別するために特殊な回路が必要とされる。
【0008】
更に、ビデオ信号に番組識別情報を挿入するテレビジョン規格が既に存在する。番組識別情報は、番組の始まりと終わりを一意に識別する。この情報は、番組の境界を検出するためにも使用されうる。
【0009】
これらの従来技術の方法はすべて、ビデオデータストリーム中の特別なコード、特別な信号、又は特別な番組識別情報の挿入及び検出を含む。特別なコード、特別な信号、又は特別な番組識別情報を使用することなく、ビデオデータストリーム中でビデオ番組及びコマーシャルの境界の位置を見つける改善されたシステム及び方法が必要とされる。
【0010】
また、コンピュータ化された個人情報検索システムにおいてビデオ番組の境界とコマーシャルの境界の位置を見つける改善されたシステム及び方法が必要とされる。ユーザが記録することを望む幾つかの話題を含む(通常はテレビジョン放送からの)ビデオ番組のセグメントを識別し記録するコンピュータ化された個人情報検索システムが存在する。所望のセグメントは、通常はユーザによって入力されるキーワードに基づいて識別される。一般的な適用では、コンピュータシステムは、インターネットといった源からの情報の内容を監視するためバックグラウンドで動作する。内容選択は、ユーザによって与えられるキーワードによって案内される。キーワードと監視されている情報の内容が一致すると、情報は、ユーザによる後の再生及び視聴のために記憶される。ダウンロードされた情報は、やはりユーザによってダウンロードされうるオーディオ信号及びビデオクリップへのリンクを含みうる。
【0011】
ユーザが後の再生のためにテレビジョン番組の部分を選択し検索することを可能とするコンピュータ化された個人情報検索システムは、通常は3つの基礎的な要件を満たす。1つめは、システム及び方法が、通常は入来するビデオ信号をそのビジュアル成分、オーディオ成分、及びテキスト成分へ解析するために利用可能であることである。2つめは、システム及び方法が、放送信号のオーディオ及び/又はテキスト成分の内容をユーザ入力規準に対して分析し、内容に基づいて成分をセグメント化するために利用可能であることである。3つめは、システム及び方法が、ユーザによる後の再生のためにユーザの要件に一致する番組セグメントを統合し記憶するために利用可能なことである。
【0012】
上述の要件を満たすシステムは、Dimitrova(本願発明の共同発明者)によって1998年1月13日に出願された「MULTIMEDIA COMPUTER SYSTEM WITH STORY SEGMENTATION CAPABILITY AND OPERATING PROGRAM THEREFOR INCLUDING FINITE AUTOMATON VIDEO PARSER」なる名称の米国特許出願第09/006,657号に記載されている。米国特許出願第09/006,657号は本願に完全に記載されているかのようにここに参照として組み入れられる。
【0013】
米国特許出願第09/006,657号は、シンボルのシーケンスを認識する一組のモデル、所望の選択規準を同定するマッチングモデル、及び、選択規準に基づいて1以上のビデオストーリーセグメント又はシーケンスを選択し検索する方法論を提供するシステム及び方法について記載する。
【0014】
ビデオレコーダとコンピュータ化された個人情報検索システムといったビデオ信号プロセッサの動作は、ビデオ番組及びコマーシャルの境界の位置が知られていれば、かなりの改善が得られる。従って、ビデオデータストリーム中のビデオ番組の境界及びコマーシャルの境界の位置を見つける改善されたシステム及び方法が必要とされる。
【0015】
上述の従来技術の欠点に対処するため、本発明は、番組のオーディオ内容を用いることによってビデオデータストリーム中のビデオ番組の境界及びコマーシャルの境界の位置を見つける改善されたシステム及び方法を提供することを主な目的とする。特に、本発明は、音声、音楽、無音、及び雑音といったオーディオカテゴリを使用することによってビデオデータストリーム中のビデオ番組の境界及びコマーシャルの境界の位置を見つける改善されたシステム及び方法を提供することを主な目的とする。
【0016】
また、本発明は、ビデオデータストリームの中に挿入される特別なコード、特別な信号、又は特別な番組識別情報を必要とすることなくビデオデータストリーム中のビデオ番組の境界及びコマーシャルの境界の位置を自動的に見つける改善されたシステム及び方法を提供することを主な目的とする。
【0017】
本発明のシステムは、オーディオ信号の続く部分を音声、音楽、無音、及び雑音といたオーディオカテゴリへ分類するオーディオ分類器コントローラを含む。オーディオ分類器コントローラは、また、オーディオ信号の続く部分をバックグラウンドに音楽のある音声、バックグラウンドに雑音のある音声、バックグラウンドに音声のある音声等へ分類する。オーディオ分類器コントローラは、話者の識別情報が決定されると、話者カテゴリ中のオーディオ音声信号の続く部分を分類する。各話者カテゴリは、個々の話者のオーディオ音声信号を含む、識別されることができない話者は、「不明の話者」カテゴリへ分類される。
【0018】
本発明のオーディオ分類器コントローラはまた、第1のカテゴリへ分類されるオーディオ信号の第1の部分がいつ終了するのか、また、第2のカテゴリへ分類されるオーディオ信号の第2の部分がいつ終了するのかを検出するカテゴリ変化検出器を含む。即ち、カテゴリ変化検出器は、オーディオ信号のカテゴリがいつ変化するのかを決定する。このようにして、本発明のオーディオ分類器コントローラは各オーディオカテゴリの種類を連続的に決定する。
【0019】
カテゴリ変化検出器はまた、第1の話者カテゴリに分類されたオーディオ信号の第1の部分がいつ終わり、第2の話者カテゴリに分類されたオーディオ信号の第2の部分がいつ始まるのかを決定する。即ち、カテゴリ変化検出器は、オーディオ信号の話者カテゴリがいつ変化するのかを決定する。
【0020】
本発明のオーディオ分類器コントローラは、また、オーディオカテゴリが変化する率(「カテゴリ変化率」)を決定するカテゴリ変化率検出器を含む。カテゴリ変化率検出器は、カテゴリ変化率を閾値と比較する。閾値は、予め選択された値であるか、又は、変化操作の条件に応じて動的に決定されうる。カテゴリ変化率が閾値よりも高ければ、コマーシャルセグメントが存在すること、従って境界が存在することが推測される。
【0021】
本発明は、オーディオ信号の各セグメントに対して少なくとも1つのオーディオカテゴリを取得するためにオーディオ信号を分類する改善されたシステム及び方法を提供することを目的とする。
【0022】
本発明は、オーディオ信号を、無音、音楽、雑音、及び音声といったオーディオカテゴリへ分類する改善されたシステム及び方法を提供することを目的とする。
【0023】
本発明は、オーディオ信号を、バックグラウンドに音楽のある音声、バックグラウンドに雑音のある音声、バックグラウンドに雑音のある音楽等といったサブカテゴリへ分類する改善されたシステム及び方法を提供することを目的とする。
【0024】
本発明は、オーディオ信号の音声セグメント中に話している人物の音声オーディオ信号を分類するために音声データベースにアクセスする改善されたシステム及び方法を提供することを目的とする。
【0025】
本発明は、オーディオカテゴリがいつ変化するのかを決定する改善されたシステム及び方法を提供することを更なる目的とする。
【0026】
本発明は、オーディオ信号中でオーディオカテゴリが変化する率を決定する改善されたシステム及び方法を提供することを更なる目的とする。
【0027】
本発明は、オーディオ信号を含むビデオ番組セグメント中のビデオ番組セグメント及びコマーシャルの境界の位置を見つけるため、オーディオ信号中のオーディオカテゴリが変化する率を閾値と比較することを他の目的とする。
【0028】
上述においては、当業者が以下の本発明の詳細な説明をよりよく理解しうるよう、本発明の特徴及び技術的な利点について広く説明した。本発明の請求の範囲の対象である本発明の更なる特徴及び利点については以下説明する。当業者は、本発明と同じ目的を行うために他の構造を変更又は設計するための基礎として開示される概念及び特定の実施例を容易に使用しうることを認識するはずである。また当業者はこのような同等の構成が本発明の最も広い範囲の精神及び範囲から逸脱しないことを認識すべきである。
【0029】
詳細な説明の前に、本願を通じて使用される幾つかの単語及び句についての定義を記す:「含む」という用語とその活用形は、制限なしで包含することを意味し、「又は」という用語は包括的であり、及び/又はを意味し、「に関連付けられる」又は「に関連する」という句とその活用形は、含む、中に含む、相互接続される、入る、中に入っている、に接続される、と接続される、に結合される、と結合される、と伝達可能である、と協働する、間に挟まれる、並置される、近傍にある、に囲まれる、で囲まれる、有する、性質を有する等を意味するものであり、「コントローラ」という用語は、少なくとも1つの動作を制御する任意の装置、システム、又はその一部であり、そのような装置はハードウエア、ファームウエア、ソフトウエア、又はこれらのうちの少なくとも2つの組み合わせとして実施されうるものであると理解されるべきである。尚、任意の特定のコントローラに関連付けられる機能は、ローカルに又はリモートに集中化又は分散されうる。本願を通じていくつかの単語及び句についての定義が与えられ、当業者は多くの場合、さもなければ殆どの場合に、このような定義がこのような定義された単語及び句の以前の及び未来の使用に適用されることを理解すべきである。
【0030】
本発明とその利点のより完全な理解のために、同様の番号が同様の要素を指す添付の図面を参照して添付の図面を参照して説明する。
【0031】
図1乃至図4と、本願において本発明の原理を説明するために使用される種々の実施例は、例示のためのものであり、本発明の範囲を制限するものと理解されるべきではない。当業者は、本発明の原理は任意の適当に配置されるビデオレコーダで実施されうることを理解するであろう。
【0032】
図1は、本発明の1つの実施例による典型的なビデオレコーダ150及びテレビ受像機105を示す図である。ビデオレコーダ150は、外部源、例えば、ケーブルテレビジョン・サービス・プロバイダ(ケーブル社)、ローカルのアンテナ、衛星、インターネット、又はディジタル・バーサタイル・ディスク(DVD)又はビデオ・ホーム・システム(VHS)テーププレーヤ等からの入来テレビジョン信号を受信する。ビデオレコーダ150は、選択されたチャンネルからのテレビジョン信号をテレビ受像機105へ送信する。チャンネルは、視聴者によって手動で選択されるか、又は、予め視聴者によってプログラムされた記録装置によって自動的に選択される。或いは、チャンネルとビデオ番組は、視聴者の個人的な視聴履歴中の番組プロファイルからの情報に基づいて記録装置によって自動的に選択されうる。
【0033】
記録モードでは、ビデオレコーダ150は、入来無線周波数(RF)テレビジョン信号を復調し、ビデオレコーダ150の中にある又はビデオレコーダ150に接続された記憶媒体上に記録され記憶されるベースバンドビデオ信号を生成する。再生モードでは、ビデオレコーダ150は、記憶媒体から視聴者によって選択された記憶されたベースバンドビデオ信号(即ち番組)を読み出し、これをテレビ受像機105へ送信する。
【0034】
ビデオレコーダ150は、記録用テープを使用するタイプ、又はハードディスクを使用するタイプ、又は、半導体メモリを使用するタイプ、又は任意の他のタイプの記録装置を使用するタイプのビデオレコーダを含みうる。ビデオレコーダ150がビデオカセットレコーダ(VCR)である場合、ビデオレコーダ150は、磁気カセットテープへ入来テレビジョン信号を格納し、磁気カセットテープから入来テレビジョン信号を取り出す。ビデオレコーダ150がReplayTV(登録商標)レコーダ及びTiVO(登録商標)レコーダといったディスクドライブを基礎とする装置であるとき、ビデオレコーダ150は磁気カセットテープではなく、磁気へ入来テレビジョン信号を格納し、コンピュータ磁気ハードディスクから入来テレビジョン信号を取り出す。更なる他の実施例では、ビデオレコーダ150は、ローカル読み書き(R/W)ディジタル・バーサタイル・ディスク(DVD)又は読み書き(R/W)コンパクトディスク(CD−RW)に対して格納と取り出しを行う。ローカル記憶媒体は固定であるか(例えばハードディスクドライブ)、着脱可能である(例えばDVD,CD−RW)。
【0035】
ビデオレコーダ150は、視聴者によって操作される遠隔制御装置125からのコマンド(例えばチャンネル・アップ、チャンネル・ダウン、音量アップ、音量ダウン、記録、再生、早送り(FF)、逆送り等)を受信する赤外線(IR)センサ160を含む。テレビ受像機105は、画面110、赤外線(IR)センサ115、及び1つ以上の手動制御部120(点線で示す)を含む従来通りのテレビ受像機である。IRセンサ115は、やはり、視聴者によって操作される遠隔制御装置125からのコマンド(例えば音量アップ、音量ダウン、電源オン、電源オフ等)を受信する。
【0036】
尚、ビデオレコーダ150は、特定の種類の源からの特定の種類の入来テレビジョン信号を受信するのに限られない。上述のように、外部源は、ケーブルサービスプロバイダ、従来のRF放送アンテナ、衛星アンテナ、インターネット接続、又は他のローカル記憶装置、例えばDVDプレーヤ又はVHSテーププレーヤでありうる。入来信号は、ディジタル信号、アナログ信号、インターネットプロトコル(IP)パケット、又は他の種類の形式の信号でありうる。
【0037】
本発明の原理を説明するための簡単さと明瞭性のため、以下の説明は概してビデオレコーダ150が(ケーブルサービスプロバイダから)アナログテレビジョン信号を受信する実施例に関連するものとする。それでも、当業者は、本発明の原理はディジタルテレビジョン信号、ワイヤレス放送テレビジョン信号、ローカル記憶システム、MPEGデータを含むIPパケットの入来ストリーム等に対する使用に容易に適応されうることを理解するであろう。
【0038】
図2は、本発明の一つの実施例による典型的なビデオレコーダ150をより詳細に示す図である。ビデオレコーダ150は、IRセンサ160、ビデオプロセッサ210,MPEG2符号化器220、ハードディスクドライブ230、MPEG2復号化器/NTSC符号化器240、及びコントローラ250を含む。ビデオレコーダ150は更に、オーディオ分類器コントローラ270及びメモリ280を含む。コントローラ250は、ビューモード、記録モード、再生モード、早送り(FF)モード、逆送りモードを含むビデオレコーダ150の全体的な動作を指示する。
【0039】
ビューモードでは、コントローラ250は、ケーブルサービスプロバイダからの入来テレビジョン信号を、ビデオプロセッサ210によって復調及び処理させ、ビデオ信号をハードディスクドライブ230に格納することなく(又はハードディスクドライブ230からビデオ信号を取り出すことなく)テレビ受像機105へ送信させる。例えばTriMedia 1100(TM1100)であるビデオプロセッサ210は無線周波数(RF)フロントエンド回路を含み、無線周波数(RF)フロントエンド回路は、ケーブルサービスプロバイダからの入来テレビジョン信号を受信し、ユーザにより選択されたチャンネルへ同調し、選択されたRF信号をテレビ受像機105上での表示に適したベースバンドテレビ信号(例えばスーパービデオ信号)へ変換する。ビデオプロセッサ210は、MPEG2復号化器/NTSC符号化器240から従来のNTSC信号を受信し、メモリ280からビデオフレームを受信し、テレビ受像機105へベースバンドテレビジョン信号(例えばスーパービデオ信号)を送信することも可能である。
【0040】
記録モードでは、コントローラ250は、入来テレビジョン信号をハードディスクドライブ230上に格納させる。コントローラ250の制御下で、MPEG2符号化器220は、ケーブルサービスプロバイダから入来テレビジョン信号を受信し、受信したRF信号をハードディスクドライブ230へ格納するためのMEPGフォーマットへ変換する。尚、ディジタルテレビジョン信号の場合、信号はMPEG2符号化器220において符号化されることなくハードディスクドライブ230上に直接格納されうる。
【0041】
再生モードでは、コントローラ250は、ハードディスクドライブ230に対して、格納されたテレビジョン信号(即ち番組)を、ハードディスクドライブ230からのMPEG2データを例えばビデオプロセッサ210がテレビ受像機105へ送信するスーパービデオ(S−Video)へ変換するMPEG2復号化器/NTSC符号化器240へストリーミングするよう命令する。
【0042】
尚、MPEG2符号化器220とMPEG2復号化器/NTSC符号化器240のためのMPEG2標準の選択は例示のためだけのものである。本発明の他の実施例では、MPEG2符号化器及びMPEG2復号化器は、MPEG−1、MPEG−2、及びMPEG−4標準又は1以上の他の種類の標準に準拠しうる。
【0043】
この適用及び請求の範囲のため、ハードディスクドライブ230は、読み書きディジタル・バーサタイルディスク(DVD−RW規格及びDVD+RW規格)、書換可能CD−ROM、VCRテープ等のための従来の磁気ディスクドライブ及び光ディスクドライブを含むがこれらに限られない読み出し可能及び書き込み可能な任意の大容量記憶装置を含む。実際、ハードディスクドライブ230はビデオレコーダ150に恒久的に埋め込まれている従来の方法で固定される必要はない。そうではなく、ハードディスクドライブ230は記録されたビデオ番組を格納するためのビデオレコーダ150に専用の任意の大容量記憶装置を含む。従って、ハードディスクドライブ230は、例えば幾つかの読み書きDVD又は書換可能なCD−ROMを保持するジュークボックス装置(図示せず)といった取り付けられた周辺機器ドライブ又は取り外し可能なディスクドライブ(埋め込まれているか取り付けられている)を含みうる。図2に概略的に示すように、この種類の取り外し可能なディスクドライブは、書換可能なCD−ROMディスク235を受容し読み出すことが可能である。
【0044】
更に、本発明の有利な実施例によれば、ハードディスクドライブ230は、例えば視聴者の家庭のパーソナルコンピュータ(PC)中のディスクドライブ又は視聴者のインターネットサービスプロバイダ(ISP)のサーバ上のディスクドライブを含むネットワーク接続(例えばインターネットプロトコル(IP)接続)を介してビデオレコーダ150がアクセス及び制御しうる外部大容量記憶装置を含みうる。
【0045】
コントローラ250は、ビデオプロセッサ210によって受信されたビデオ信号に関連するビデオプロセッサ210からの情報を取得する。コントローラ250が、ビデオレコーダ150がビデオ番組を受信していると判定すると、コントローラ250はそのビデオ番組が記録されるべきものであるとして既に選択されているものであるか否かを判定する。ビデオ番組が記録されるべきものである場合、コントローラ250は、上述の方法でビデオ番組をハードディスクドライブ230上に記録させる。ビデオ番組が記録されるべきものでない場合、コントローラ250は、上述の方法で、ビデオ番組をビデオプロセッサ210によって処理させテレビ受像機105へ送信させる。
【0046】
メモリ280は、ランダムアクセスメモリ(RAM)、又は、ランダムアクセスメモリ(RAM)と読み出し専用メモリ(ROM)の組み合わせを含みうる。メモリ280は、フラッシュメモリカードといった不揮発性ランダムアクセスメモリ(RAM)を含みうる。ビデオレコーダ150の他の有利な実施例では、メモリ280はハードディスクドライブ(図示せず)といった大容量記憶データ装置を含みうる。メモリ280は、読み書きDVD又は書換可能なCD−ROMを読み出す取り付けられた周辺機器ドライブ又は取り外し可能なディスクドライブ(埋め込まれているか取り付けられている)を含みうる。図2に概略的に示すように、この種類の取り外し可能なディスクドライブは、書換可能なCD−ROMディスク285を受容し読み出すことが可能である。
【0047】
ビデオ番組がハードディスクドライブ230上に記録されると同時に(或いはビデオ番組がハードディスクドライブ230上に記録された後に)、オーディオ分類器コントローラ270はオーディオ信号を抽出し、抽出されたオーディオ信号を、音声、音楽、雑音、及び無音を含む、別々のオーディオカテゴリへ分ける。オーディオ分類器コントローラ270は、抽出された声信号を話者識別器330(図3に図示)へ送信する。話者識別器330は、話している人物を識別するために声信号を解析する。オーディオ分類器コントローラ270は、抽出されカテゴリに分類されたオーディオデータへタイムスタンプを挿入する。
【0048】
図3は、オーディオ分類器コントローラ270を詳細に示すブロック図である。オーディオ分類器コントローラ270は、オーディオカテゴリを用いてビデオ番組のセグメントのオーディオ部分を識別し分類するためにソフトウエア命令を実行する。オーディオ分類は、従来技術で周知の多次元特徴に基づく方法によって達成されうる。これらの方法は、典型的には、線形予測符号化(LPC)で導出されるケプストラム係数とそれらの回帰係数、エネルギーレベル、平均エネルギー、ゼロ交差率(ZCR)等を使用する。更なる情報については、2000年のオークランド大学のテクニカルレポートTR−CSE−IIE−00−11のDonggee Li, Ishwar K. Sethi, Nevenka Dimitrova及び及びTom McGeeによる「Classification of General Audio Data for Content−Based Retrieval」と題された論文を参照のこと。
【0049】
オーディオ分類器コントローラ270のためのオーディオ信号の源は、図3中に参照番号300で示されている。オーディオ分類器コントローラ270は、オーディオ信号源300からのオーディオ信号を分類する分類アルゴリズム305、4つの異なる種類のオーディオカテゴリからの情報を記録するための4つのデータバッファ310乃至325、話者識別データの音声データベースを含む話者識別器330、カテゴリ変化検出器335、カテゴリ変化率検出器340、及び境界検出器345を含む。
【0050】
オーディオ分類器コントローラ270は、オーディオ信号源300から直接オーディオ信号セグメントを受信し、オーディオ信号セグメントを分類アルゴリズム305で分類する。分類アルゴリズム305は、オーディオ信号をオーディオカテゴリの個々の種類、即ち無音、音楽、雑音、及び音声に分類する。これらの4つの種類のオーディオカテゴリは、図3に示されている。使用されうるオーディオカテゴリの種類は、これらの種類のみではない。他の種類のオーディオカテゴリ(例えば笑い)もまた識別され分類されうることが明らかである。
【0051】
分類アルゴリズム305は、データバッファ310中のオーディオカテゴリが「無音」であるものの情報を記録し、データバッファ315中のオーディオカテゴリが「音楽」であるものの情報を記録し、データバッファ325中のオーディオカテゴリが「音声」であるものの情報を記録する。分類アルゴリズム305はまた、分類されたオーディオ信号へタイムスタンプを挿入する。
【0052】
話者識別器330は、以前にその人の声が識別され、分類され、記録された人物についての声識別情報の音声データベースを含む。分類アルゴリズム305は、話者識別器330中の音声データベースにアクセスすることが可能である。分類アルゴリズム305が、オーディオ信号を「音声」オーディオ信号であると分類すると、分類アルゴリズム305は話者を識別するために話者識別器330にアクセスする。話者が識別されうる場合、「音声」オーディオカテゴリに関するデータに話者の識別情報が加えられる。分類アルゴリズム305は、1以上の話者から「音声」オーディオ信号を分類することが可能である。第1の「音声」オーディオ信号は第1の話者から発せられるものとして識別され、第2の「音声」オーディオ信号は第2の話者から発せられるものとして識別されうる。
【0053】
識別されていない話者からの「音声」オーディオ信号は、「不明の話者」カテゴリに分類される。不明の話者からの「音声」オーディオ信号が識別されると、その不明の話者は、音声データベースに加えられ、「不明話者番号1」として識別される。第2の不明の話者からの「音声」オーディオ信号が識別されると、その第2の不明の話者は、音声データベースに加えられ、「不明話者番号1」として識別される。不明の話者が検出されるたびに、その不明の話者が既に音声データベースに加えられているものであるかを確かめるため、不明の話者の「音声」オーディオ信号は、音声データベース中の各不明の話者の「音声」オーディオを信号と比較される。
【0054】
分類アルゴリズム305は、一定の時間内に話す不明の話者の数を決定するためのこの情報を使用しうる。短い時間内に比較的多数の不明の話者がいるということは、ビデオデータストリーム中のコマーシャルの存在を示すものでありうる。
【0055】
分類アルゴリズム305は、また、ビデオデータストリームの番組部分に現れる新しい人物についての声識別情報を追加するために話者識別器330中の音声データベースを更新する。これらの人物は、新しい俳優及び女優、新しいミュージシャン、新しく選出された政治家等でありうる。コマーシャルに現れる新しい人物についての声識別情報で音声データベースを更新することは必要でない。従って、分類アルゴリズム305は、新しい不明の人物が現れる回数と、それらがビデオデータストリームのコマーシャルに現れるのか番組部分に現れるのかを記録する。次に、分類アルゴリズム305は、(新しい不明の人物がビデオデータストリーム中の番組部分にも現れるものでないかぎり)コマーシャル中に現れる新しい不明な人物に関する全ての情報を削除する。
【0056】
個々のオーディオ信号セグメントが正しいオーディオカテゴリに分類された後、分類アルゴリズム305は分類情報をカテゴリ変化検出器335へ送る。カテゴリ変化検出器335は、第1のカテゴリに分類されたオーディオ信号の第1の部分がいつ終わり、第2のカテゴリに分類されたオーディオ信号の第2の部分がいつ始まるのかを検出するためにタイムスタンプ情報を使用する。カテゴリ変化検出器335は、オーディオ信号のカテゴリがいつ変化するのかを決定し、関連する2つのカテゴリの識別情報を決定する。特に、カテゴリ変化検出器335は、オーディオ信号が音声信号から音楽信号へ変化したこと、又は、オーディオ信号が無音信号から音声信号へ変化したこと等を決定することが可能である。
【0057】
カテゴリ変化検出器335は、また、第1のサブカテゴリに分類されたオーディオ信号の第1の部分がいつ終わり、第2のサブカテゴリに分類されたオーディオ信号の第2の部分がいつ始まるのかを検出する。例えば、カテゴリ変化検出器335は、オーディオ信号が、バックグラウンドに音楽のある音声の第1のサブカテゴリから、バックグラウンドに雑音のある音声の第2のサブカテゴリへ変化したことを決定することが可能である。
【0058】
カテゴリ変化検出器335は、また、第1の話者カテゴリに分類されたオーディオ信号の第1の部分がいつ終わり、第2の話者カテゴリに分類されたオーディオ信号の第2の部分がいつ始まるのかを決定する。カテゴリ変化検出器335は、オーディオ信号の話者カテゴリがいつ変化するのかを決定する。カテゴリ変化検出器335は、オーディオ信号が第1の話者から第2の話者へ変化したこと、又は第2の話者から第3の話者へ変化したこと等を決定することが可能である。
【0059】
カテゴリ変化検出器335は、この情報をカテゴリ変化率検出器340へ送信する。カテゴリ変化率検出器340は、種々のカテゴリが変化する率を検出する。
【0060】
カテゴリ変化率検出器340は、単位時間(例えば1分間)に各特定のカテゴリが何回変化するかを計算するためにタイムスタンプ情報を使用する。
【0061】
カテゴリ変化率検出器340は、各カテゴリについての変化率を決定する。カテゴリ変化率検出器340は、全体の変化率を決定するために各カテゴリについての変化率を使用する。全体の変化率は、(1)各カテゴリの変化率、及び、(2)オーディオカット率(即ち、全てのカテゴリが変化している率)、及び、(3)各カテゴリの全体の時間の長さ、及び、(4)一定の時間内のカテゴリの全体の時間の長さに対する各カテゴリの変化率の比率を考慮に入れる。次に、カテゴリ変化率検出器340は、上述の情報を境界検出器345へ送る。
【0062】
境界検出器345は、ビデオ番組及びコマーシャルの境界の位置を見つけるために(全体の変化率を含む)情報を使用する。コマーシャルは、多種多様な速く変化するオーディオカテゴリを含む場合が多いことが知られている。コマーシャルは、(一定の時間に)通常は他の種類のビデオセグメントよりも話者変化の数が多い。境界検出器345が、予め選択された閾値を上回る話者の変化の率を示す場合、境界検出器345はコマーシャルが続行中であることを示しうる。適合な閾値は、多数のコマーシャルについて話者の変化率を測定することによって経験的に取得されうる。
【0063】
境界検出器345は、オーディオカテゴリ(例えば、音声、無音、音楽、及び雑音)と、オーディオサブカテゴリ(例えばバックグラウンドに雑音がある音声、バックグラウンドに雑音がある音楽)と、話者カテゴリ(例えば識別された話者及び不明の話者)と使用する。コマーシャルセグメントの境界を決定するために、境界検出器345は時間ウィンドウのサイズを選択する。例えば、コマーシャルについて、時間ウィンドウのサイズは、20秒間に選択されうる。境界検出器345は、スライディング・ウィンドウ高レベル特徴抽出及び分類処理を行って、以下の高レベル特徴、即ち(1)各カテゴリの変化率(即ち、時間ウィンドウ中に何回各カテゴリが出現するか)、(2)時間ウィンドウ中の各カテゴリの長さ(nのカテゴリについてnの値)、(3)オーディオカットの変化率(全てのカテゴリ変化)、(4)平均オーディオカット距離を抽出する。これらの4つの特徴は、時間ウィンドウ内のオーディオセグメントがコマーシャルセグメントであるかないかを決定する境界検出器345内の分類器(例えば最も近い近傍の分類器)(図示せず)へ送られる。分類器が確率分類器(例えばベイズ分類器)である場合、分類器は時間ウィンドウ内のオーディオセグメントがコマーシャルセグメントであるかないかの確率を決定する。
【0064】
番組セグメントの境界を決定するために、境界検出器345は時間ウィンドウのサイズを選択する。例えば、番組セグメントについて、時間ウィンドウのサイズは5分間に選択されうる。境界検出器345は、各カテゴリにおける各変化に対して「重み係数」を割り当てうる。重み係数は、カテゴリの特定の変化が生じた点における境界の位置を見つける尤度を評価するためにカテゴリ変化に対して割り当てられる相対的な重要性を表わす数でありうる。例えば、「無音」から「音楽」への変化が最初の境界に関連付けられる尤度が高いときは、特定のカテゴリ変化を表わす数値係数は、最初の境界の存在の尤度を決定するときのその特定のカテゴリ変化の相対的な影響を増加させるために「重み係数」で乗算されうる。
【0065】
上述の方法に加え、「重み係数」は、カテゴリ変化特徴から直接自動的に計算されうる。オーディオ分類器コントローラ270を表わすために使用される多次元特徴空間では、各カテゴリ(例えば、音声、音楽)は、そのカテゴリの重心を表わす平均ベクトルを有する。これらの平均ベクトルの夫々の間の距離もまた、カテゴリ変化の重要性の尺度である。従って、平均ベクトル間の距離は、カテゴリ変化の重要性を定量化するために使用されうる。
【0066】
次に、境界検出器345は、スライディング・ウィンドウ高レベル特徴抽出及び分類処理を行って、以下の高レベル特徴、即ち(1)各カテゴリの変化率(即ち、時間ウィンドウ中に何回各カテゴリが出現するか)、(2)時間ウィンドウ中の各カテゴリの長さ(重み係数によって調整)、(3)オーディオカットの変化率(全てのカテゴリ変化)、(4)平均オーディオカット距離を抽出する。これらの4つの特徴は、時間ウィンドウ内のオーディオセグメントが特定のクラスに属するか確率を決定する境界検出器345(例えばベイズ分類器)内の確率分類器(図示せず)へ送られる。例えば、オーディオセグメントは、対話、ニュースの話題、音楽のビデオ、又は叫び声のある群衆のシーン等に属しうる。スライディング・ウィンドウからの出力値は、異なるセグメントのうちのグローバルな最小についての分析及び全体の分析(例えば過去1時間)を受けうる。
【0067】
次に結果は、番組境界に関するヒューリスティックを用いて分析される。番組境界に関するヒューリスティックの例は、(1)音楽的な可聴ロゴがニュース番組の始まりに存在すること、(2)通常は各番組の終わり近くにコマーシャルがあること、及び(3)映画の終わりのクレジットが通常はバックグラウンドの音楽とともに示されることである。
【0068】
図4は、本発明の有利な実施例によるオーディオ分類器コントローラ270の動作を示すフローチャート400である。フローチャート400は、ビデオレコーダ150中のオーディオ分類器コントローラ270中の本発明の1つの有利な動作方法を示す図である。オーディオ分類器コントローラ280は、オーディオ信号の源300からオーディオ信号を受信する(ステップ410)。オーディオ分類器コントローラ270は、分類アルゴリズム305を用いてオーディオ信号をオーディオカテゴリ(及びサブカテゴリ)へ分類する(ステップ420)。分類アルゴリズム305は、話者識別器330からの情報を用いて「音声」オーディオカテゴリ中の各セグメントの個々の話者を識別する(ステップ430)。カテゴリ変化検出器335は、各オーディオカテゴリ(又はサブカテゴリ)がいつ変化するかを決定する(ステップ440)。カテゴリ変化率検出器340は、オーディオカテゴリ(又はサブカテゴリ)の変化率を決定する(ステップ450)。境界検出器345は、オーディオカテゴリ(又はサブカテゴリ)の変化率情報をビデオ番組及びコマーシャルの境界の位置を見つけるための閾値と比較する(ステップ460)。
【0069】
本発明について、ビデオ信号プロセッサ中でビデオ番組とコマーシャルの境界の位置を見つけるためのシステム及び方法として説明した。また、本発明のシステム及び方法は、オーディオプロセッサ中で使用されてもよい。オーディオプロセッサは、オーディオ信号のみを受信し処理する。オーディオプロセッサは、例えば、無線受信器、オーディオレコーダ、(例えばインターネットといった源からの)ストリーミングオーディオデータ信号を受信する装置、又はコンピュータ化されたパーソナルオーディオ情報検索システムを含みうる。
【0070】
本発明について詳述したが、当業者は、本発明の最も広い精神及び範囲を逸脱することなく、本発明に対して種々の変更、大体、及び修正がなされうることが理解されるべきである。
【図面の簡単な説明】
【図1】
本発明の有利な実施例による典型的なビデオレコーダ及びテレビ受像機を示す図である。
【図2】
本発明の有利な実施例による典型的なビデオレコーダを示すブロック図である。
【図3】
本発明の有利な実施例による典型的なオーディオ分類器コントローラを示すブロック図である。
【図4】
本発明の有利な実施例による典型的なオーディオ分類器コントローラの動作を示すフローチャートである。
本発明は、2000年8月8日に発行された「APPARATUS AND METHOD FOR LOCATING A COMMERCIAL DISPOSED WITHIN A VIDEO DATA STREAM」なる名称の米国特許第6,100,941号及び1998年1月13日出願の「MULTIMEDIA COMPUTER SYSTEM WITH STORY SEGMENTATION CAPABILITY AND OPERATING PROGRAM THEREFOR INCLUDING FINITE AUTOMATON VIDEO PARSER」なる名称の米国特許出願第09/006,657号に開示された発明に関連する。この上記特許及び特許出願は、本発明の譲受人に共通に譲渡されている。上記特許及び特許出願の開示は、本願に完全に記載されているかのように全体としてここに参照として組み入れられる。
【0002】
本発明は、概して、ビデオデータストリーム中のビデオ番組のセグメントの境界の位置を見つけるシステム及び方法に係り、特に音声、音楽、無音、及び雑音といったオーディオカテゴリを用いてビデオ番組の境界及びコマーシャルメッセージの境界の位置を見つけるシステム及び方法に関連する。
【0003】
様々な種類のビデオレコーダが市販されている。殆どの人が、ビデオカセットレコーダ(VCR)、ビデオテープレコーダ(VTR)とも称される、を所有するか、使い慣れている。ビデオカセットレコーダは、磁気カセットテープ上にビデオ番組を記録する。最近では、ビデオ番組を記憶するために磁気カセットテープではなくコンピュータ磁気ハードディスクを使用するビデオレコーダが市販されるようになっている。例えば、ReplayTV(登録商標)レコーダ及びTiVO(登録商標)レコーダは、例えばMPEGビデオ圧縮標準を用いてハードディスクドライブ上にテレビジョン番組をディジタル式に記録する。更に、幾つかのビデオレコーダは、磁気ディスクではなく、読み取り可能/書き込み可能なディジタル・バーサタイル・ディスク(DVD)上に記録しうる。
【0004】
ビデオレコーダは、一般的にはテレビ受像機といったビデオ表示装置と共に使用される。ビデオレコーダは、ビデオ番組がビデオ表示装置上に表示されているのと同時にビデオ番組を記録するために使用されうる。一般的な例は、テレビ番組がテレビ画面上に同時に表示されている間にテレビ番組を記録するためにビデオカセットレコーダ(VCR)を使用するものである。
【0005】
ビデオレコーダは、記録のためにテレビジョン番組の開始時間及び終了時間を決定するために高レベル電子番組ガイド(EPG)情報に依存する。残念なことに、EPG情報は、不正確であることが多く、特にテレビジョンの生放送の場合に不正確となることが多い。ビデオ番組の境界、並びに、ビデオ番組中のコマーシャルメッセージ(「コマーシャル」)の境界の位置を見つける改善されたシステム及び方法が必要である。
【0006】
ビデオ番組のセグメントの開始時間及び終了時間を検出するために種々の方法がある。これらの方法は、一般的には、ビデオレコーダでビデオ番組が録音されているときにコマーシャルが自動的にとばされうるようコマーシャルを検出するために使用される。幾つかの周知の方法は、「ブラックフレーム」の検出を含む。ブラックフレームは、コマーシャルの直前及び直後に通常は見つけられる黒いビデオフレームである。コマーシャルの境界を検出する他の方法は、カット率変更、スーパーヒストグラム、時間情報を伴うディジタル化されたコード等の使用を含む。
【0007】
番組又はコマーシャルの境界を検出する他の従来技術の方法は、番組又はコマーシャルの始まり及び終わりを割り当てるためにビデオ信号中に特殊なコード又は信号を挿入することを含む。特殊なコード又は信号を検出し識別するために特殊な回路が必要とされる。
【0008】
更に、ビデオ信号に番組識別情報を挿入するテレビジョン規格が既に存在する。番組識別情報は、番組の始まりと終わりを一意に識別する。この情報は、番組の境界を検出するためにも使用されうる。
【0009】
これらの従来技術の方法はすべて、ビデオデータストリーム中の特別なコード、特別な信号、又は特別な番組識別情報の挿入及び検出を含む。特別なコード、特別な信号、又は特別な番組識別情報を使用することなく、ビデオデータストリーム中でビデオ番組及びコマーシャルの境界の位置を見つける改善されたシステム及び方法が必要とされる。
【0010】
また、コンピュータ化された個人情報検索システムにおいてビデオ番組の境界とコマーシャルの境界の位置を見つける改善されたシステム及び方法が必要とされる。ユーザが記録することを望む幾つかの話題を含む(通常はテレビジョン放送からの)ビデオ番組のセグメントを識別し記録するコンピュータ化された個人情報検索システムが存在する。所望のセグメントは、通常はユーザによって入力されるキーワードに基づいて識別される。一般的な適用では、コンピュータシステムは、インターネットといった源からの情報の内容を監視するためバックグラウンドで動作する。内容選択は、ユーザによって与えられるキーワードによって案内される。キーワードと監視されている情報の内容が一致すると、情報は、ユーザによる後の再生及び視聴のために記憶される。ダウンロードされた情報は、やはりユーザによってダウンロードされうるオーディオ信号及びビデオクリップへのリンクを含みうる。
【0011】
ユーザが後の再生のためにテレビジョン番組の部分を選択し検索することを可能とするコンピュータ化された個人情報検索システムは、通常は3つの基礎的な要件を満たす。1つめは、システム及び方法が、通常は入来するビデオ信号をそのビジュアル成分、オーディオ成分、及びテキスト成分へ解析するために利用可能であることである。2つめは、システム及び方法が、放送信号のオーディオ及び/又はテキスト成分の内容をユーザ入力規準に対して分析し、内容に基づいて成分をセグメント化するために利用可能であることである。3つめは、システム及び方法が、ユーザによる後の再生のためにユーザの要件に一致する番組セグメントを統合し記憶するために利用可能なことである。
【0012】
上述の要件を満たすシステムは、Dimitrova(本願発明の共同発明者)によって1998年1月13日に出願された「MULTIMEDIA COMPUTER SYSTEM WITH STORY SEGMENTATION CAPABILITY AND OPERATING PROGRAM THEREFOR INCLUDING FINITE AUTOMATON VIDEO PARSER」なる名称の米国特許出願第09/006,657号に記載されている。米国特許出願第09/006,657号は本願に完全に記載されているかのようにここに参照として組み入れられる。
【0013】
米国特許出願第09/006,657号は、シンボルのシーケンスを認識する一組のモデル、所望の選択規準を同定するマッチングモデル、及び、選択規準に基づいて1以上のビデオストーリーセグメント又はシーケンスを選択し検索する方法論を提供するシステム及び方法について記載する。
【0014】
ビデオレコーダとコンピュータ化された個人情報検索システムといったビデオ信号プロセッサの動作は、ビデオ番組及びコマーシャルの境界の位置が知られていれば、かなりの改善が得られる。従って、ビデオデータストリーム中のビデオ番組の境界及びコマーシャルの境界の位置を見つける改善されたシステム及び方法が必要とされる。
【0015】
上述の従来技術の欠点に対処するため、本発明は、番組のオーディオ内容を用いることによってビデオデータストリーム中のビデオ番組の境界及びコマーシャルの境界の位置を見つける改善されたシステム及び方法を提供することを主な目的とする。特に、本発明は、音声、音楽、無音、及び雑音といったオーディオカテゴリを使用することによってビデオデータストリーム中のビデオ番組の境界及びコマーシャルの境界の位置を見つける改善されたシステム及び方法を提供することを主な目的とする。
【0016】
また、本発明は、ビデオデータストリームの中に挿入される特別なコード、特別な信号、又は特別な番組識別情報を必要とすることなくビデオデータストリーム中のビデオ番組の境界及びコマーシャルの境界の位置を自動的に見つける改善されたシステム及び方法を提供することを主な目的とする。
【0017】
本発明のシステムは、オーディオ信号の続く部分を音声、音楽、無音、及び雑音といたオーディオカテゴリへ分類するオーディオ分類器コントローラを含む。オーディオ分類器コントローラは、また、オーディオ信号の続く部分をバックグラウンドに音楽のある音声、バックグラウンドに雑音のある音声、バックグラウンドに音声のある音声等へ分類する。オーディオ分類器コントローラは、話者の識別情報が決定されると、話者カテゴリ中のオーディオ音声信号の続く部分を分類する。各話者カテゴリは、個々の話者のオーディオ音声信号を含む、識別されることができない話者は、「不明の話者」カテゴリへ分類される。
【0018】
本発明のオーディオ分類器コントローラはまた、第1のカテゴリへ分類されるオーディオ信号の第1の部分がいつ終了するのか、また、第2のカテゴリへ分類されるオーディオ信号の第2の部分がいつ終了するのかを検出するカテゴリ変化検出器を含む。即ち、カテゴリ変化検出器は、オーディオ信号のカテゴリがいつ変化するのかを決定する。このようにして、本発明のオーディオ分類器コントローラは各オーディオカテゴリの種類を連続的に決定する。
【0019】
カテゴリ変化検出器はまた、第1の話者カテゴリに分類されたオーディオ信号の第1の部分がいつ終わり、第2の話者カテゴリに分類されたオーディオ信号の第2の部分がいつ始まるのかを決定する。即ち、カテゴリ変化検出器は、オーディオ信号の話者カテゴリがいつ変化するのかを決定する。
【0020】
本発明のオーディオ分類器コントローラは、また、オーディオカテゴリが変化する率(「カテゴリ変化率」)を決定するカテゴリ変化率検出器を含む。カテゴリ変化率検出器は、カテゴリ変化率を閾値と比較する。閾値は、予め選択された値であるか、又は、変化操作の条件に応じて動的に決定されうる。カテゴリ変化率が閾値よりも高ければ、コマーシャルセグメントが存在すること、従って境界が存在することが推測される。
【0021】
本発明は、オーディオ信号の各セグメントに対して少なくとも1つのオーディオカテゴリを取得するためにオーディオ信号を分類する改善されたシステム及び方法を提供することを目的とする。
【0022】
本発明は、オーディオ信号を、無音、音楽、雑音、及び音声といったオーディオカテゴリへ分類する改善されたシステム及び方法を提供することを目的とする。
【0023】
本発明は、オーディオ信号を、バックグラウンドに音楽のある音声、バックグラウンドに雑音のある音声、バックグラウンドに雑音のある音楽等といったサブカテゴリへ分類する改善されたシステム及び方法を提供することを目的とする。
【0024】
本発明は、オーディオ信号の音声セグメント中に話している人物の音声オーディオ信号を分類するために音声データベースにアクセスする改善されたシステム及び方法を提供することを目的とする。
【0025】
本発明は、オーディオカテゴリがいつ変化するのかを決定する改善されたシステム及び方法を提供することを更なる目的とする。
【0026】
本発明は、オーディオ信号中でオーディオカテゴリが変化する率を決定する改善されたシステム及び方法を提供することを更なる目的とする。
【0027】
本発明は、オーディオ信号を含むビデオ番組セグメント中のビデオ番組セグメント及びコマーシャルの境界の位置を見つけるため、オーディオ信号中のオーディオカテゴリが変化する率を閾値と比較することを他の目的とする。
【0028】
上述においては、当業者が以下の本発明の詳細な説明をよりよく理解しうるよう、本発明の特徴及び技術的な利点について広く説明した。本発明の請求の範囲の対象である本発明の更なる特徴及び利点については以下説明する。当業者は、本発明と同じ目的を行うために他の構造を変更又は設計するための基礎として開示される概念及び特定の実施例を容易に使用しうることを認識するはずである。また当業者はこのような同等の構成が本発明の最も広い範囲の精神及び範囲から逸脱しないことを認識すべきである。
【0029】
詳細な説明の前に、本願を通じて使用される幾つかの単語及び句についての定義を記す:「含む」という用語とその活用形は、制限なしで包含することを意味し、「又は」という用語は包括的であり、及び/又はを意味し、「に関連付けられる」又は「に関連する」という句とその活用形は、含む、中に含む、相互接続される、入る、中に入っている、に接続される、と接続される、に結合される、と結合される、と伝達可能である、と協働する、間に挟まれる、並置される、近傍にある、に囲まれる、で囲まれる、有する、性質を有する等を意味するものであり、「コントローラ」という用語は、少なくとも1つの動作を制御する任意の装置、システム、又はその一部であり、そのような装置はハードウエア、ファームウエア、ソフトウエア、又はこれらのうちの少なくとも2つの組み合わせとして実施されうるものであると理解されるべきである。尚、任意の特定のコントローラに関連付けられる機能は、ローカルに又はリモートに集中化又は分散されうる。本願を通じていくつかの単語及び句についての定義が与えられ、当業者は多くの場合、さもなければ殆どの場合に、このような定義がこのような定義された単語及び句の以前の及び未来の使用に適用されることを理解すべきである。
【0030】
本発明とその利点のより完全な理解のために、同様の番号が同様の要素を指す添付の図面を参照して添付の図面を参照して説明する。
【0031】
図1乃至図4と、本願において本発明の原理を説明するために使用される種々の実施例は、例示のためのものであり、本発明の範囲を制限するものと理解されるべきではない。当業者は、本発明の原理は任意の適当に配置されるビデオレコーダで実施されうることを理解するであろう。
【0032】
図1は、本発明の1つの実施例による典型的なビデオレコーダ150及びテレビ受像機105を示す図である。ビデオレコーダ150は、外部源、例えば、ケーブルテレビジョン・サービス・プロバイダ(ケーブル社)、ローカルのアンテナ、衛星、インターネット、又はディジタル・バーサタイル・ディスク(DVD)又はビデオ・ホーム・システム(VHS)テーププレーヤ等からの入来テレビジョン信号を受信する。ビデオレコーダ150は、選択されたチャンネルからのテレビジョン信号をテレビ受像機105へ送信する。チャンネルは、視聴者によって手動で選択されるか、又は、予め視聴者によってプログラムされた記録装置によって自動的に選択される。或いは、チャンネルとビデオ番組は、視聴者の個人的な視聴履歴中の番組プロファイルからの情報に基づいて記録装置によって自動的に選択されうる。
【0033】
記録モードでは、ビデオレコーダ150は、入来無線周波数(RF)テレビジョン信号を復調し、ビデオレコーダ150の中にある又はビデオレコーダ150に接続された記憶媒体上に記録され記憶されるベースバンドビデオ信号を生成する。再生モードでは、ビデオレコーダ150は、記憶媒体から視聴者によって選択された記憶されたベースバンドビデオ信号(即ち番組)を読み出し、これをテレビ受像機105へ送信する。
【0034】
ビデオレコーダ150は、記録用テープを使用するタイプ、又はハードディスクを使用するタイプ、又は、半導体メモリを使用するタイプ、又は任意の他のタイプの記録装置を使用するタイプのビデオレコーダを含みうる。ビデオレコーダ150がビデオカセットレコーダ(VCR)である場合、ビデオレコーダ150は、磁気カセットテープへ入来テレビジョン信号を格納し、磁気カセットテープから入来テレビジョン信号を取り出す。ビデオレコーダ150がReplayTV(登録商標)レコーダ及びTiVO(登録商標)レコーダといったディスクドライブを基礎とする装置であるとき、ビデオレコーダ150は磁気カセットテープではなく、磁気へ入来テレビジョン信号を格納し、コンピュータ磁気ハードディスクから入来テレビジョン信号を取り出す。更なる他の実施例では、ビデオレコーダ150は、ローカル読み書き(R/W)ディジタル・バーサタイル・ディスク(DVD)又は読み書き(R/W)コンパクトディスク(CD−RW)に対して格納と取り出しを行う。ローカル記憶媒体は固定であるか(例えばハードディスクドライブ)、着脱可能である(例えばDVD,CD−RW)。
【0035】
ビデオレコーダ150は、視聴者によって操作される遠隔制御装置125からのコマンド(例えばチャンネル・アップ、チャンネル・ダウン、音量アップ、音量ダウン、記録、再生、早送り(FF)、逆送り等)を受信する赤外線(IR)センサ160を含む。テレビ受像機105は、画面110、赤外線(IR)センサ115、及び1つ以上の手動制御部120(点線で示す)を含む従来通りのテレビ受像機である。IRセンサ115は、やはり、視聴者によって操作される遠隔制御装置125からのコマンド(例えば音量アップ、音量ダウン、電源オン、電源オフ等)を受信する。
【0036】
尚、ビデオレコーダ150は、特定の種類の源からの特定の種類の入来テレビジョン信号を受信するのに限られない。上述のように、外部源は、ケーブルサービスプロバイダ、従来のRF放送アンテナ、衛星アンテナ、インターネット接続、又は他のローカル記憶装置、例えばDVDプレーヤ又はVHSテーププレーヤでありうる。入来信号は、ディジタル信号、アナログ信号、インターネットプロトコル(IP)パケット、又は他の種類の形式の信号でありうる。
【0037】
本発明の原理を説明するための簡単さと明瞭性のため、以下の説明は概してビデオレコーダ150が(ケーブルサービスプロバイダから)アナログテレビジョン信号を受信する実施例に関連するものとする。それでも、当業者は、本発明の原理はディジタルテレビジョン信号、ワイヤレス放送テレビジョン信号、ローカル記憶システム、MPEGデータを含むIPパケットの入来ストリーム等に対する使用に容易に適応されうることを理解するであろう。
【0038】
図2は、本発明の一つの実施例による典型的なビデオレコーダ150をより詳細に示す図である。ビデオレコーダ150は、IRセンサ160、ビデオプロセッサ210,MPEG2符号化器220、ハードディスクドライブ230、MPEG2復号化器/NTSC符号化器240、及びコントローラ250を含む。ビデオレコーダ150は更に、オーディオ分類器コントローラ270及びメモリ280を含む。コントローラ250は、ビューモード、記録モード、再生モード、早送り(FF)モード、逆送りモードを含むビデオレコーダ150の全体的な動作を指示する。
【0039】
ビューモードでは、コントローラ250は、ケーブルサービスプロバイダからの入来テレビジョン信号を、ビデオプロセッサ210によって復調及び処理させ、ビデオ信号をハードディスクドライブ230に格納することなく(又はハードディスクドライブ230からビデオ信号を取り出すことなく)テレビ受像機105へ送信させる。例えばTriMedia 1100(TM1100)であるビデオプロセッサ210は無線周波数(RF)フロントエンド回路を含み、無線周波数(RF)フロントエンド回路は、ケーブルサービスプロバイダからの入来テレビジョン信号を受信し、ユーザにより選択されたチャンネルへ同調し、選択されたRF信号をテレビ受像機105上での表示に適したベースバンドテレビ信号(例えばスーパービデオ信号)へ変換する。ビデオプロセッサ210は、MPEG2復号化器/NTSC符号化器240から従来のNTSC信号を受信し、メモリ280からビデオフレームを受信し、テレビ受像機105へベースバンドテレビジョン信号(例えばスーパービデオ信号)を送信することも可能である。
【0040】
記録モードでは、コントローラ250は、入来テレビジョン信号をハードディスクドライブ230上に格納させる。コントローラ250の制御下で、MPEG2符号化器220は、ケーブルサービスプロバイダから入来テレビジョン信号を受信し、受信したRF信号をハードディスクドライブ230へ格納するためのMEPGフォーマットへ変換する。尚、ディジタルテレビジョン信号の場合、信号はMPEG2符号化器220において符号化されることなくハードディスクドライブ230上に直接格納されうる。
【0041】
再生モードでは、コントローラ250は、ハードディスクドライブ230に対して、格納されたテレビジョン信号(即ち番組)を、ハードディスクドライブ230からのMPEG2データを例えばビデオプロセッサ210がテレビ受像機105へ送信するスーパービデオ(S−Video)へ変換するMPEG2復号化器/NTSC符号化器240へストリーミングするよう命令する。
【0042】
尚、MPEG2符号化器220とMPEG2復号化器/NTSC符号化器240のためのMPEG2標準の選択は例示のためだけのものである。本発明の他の実施例では、MPEG2符号化器及びMPEG2復号化器は、MPEG−1、MPEG−2、及びMPEG−4標準又は1以上の他の種類の標準に準拠しうる。
【0043】
この適用及び請求の範囲のため、ハードディスクドライブ230は、読み書きディジタル・バーサタイルディスク(DVD−RW規格及びDVD+RW規格)、書換可能CD−ROM、VCRテープ等のための従来の磁気ディスクドライブ及び光ディスクドライブを含むがこれらに限られない読み出し可能及び書き込み可能な任意の大容量記憶装置を含む。実際、ハードディスクドライブ230はビデオレコーダ150に恒久的に埋め込まれている従来の方法で固定される必要はない。そうではなく、ハードディスクドライブ230は記録されたビデオ番組を格納するためのビデオレコーダ150に専用の任意の大容量記憶装置を含む。従って、ハードディスクドライブ230は、例えば幾つかの読み書きDVD又は書換可能なCD−ROMを保持するジュークボックス装置(図示せず)といった取り付けられた周辺機器ドライブ又は取り外し可能なディスクドライブ(埋め込まれているか取り付けられている)を含みうる。図2に概略的に示すように、この種類の取り外し可能なディスクドライブは、書換可能なCD−ROMディスク235を受容し読み出すことが可能である。
【0044】
更に、本発明の有利な実施例によれば、ハードディスクドライブ230は、例えば視聴者の家庭のパーソナルコンピュータ(PC)中のディスクドライブ又は視聴者のインターネットサービスプロバイダ(ISP)のサーバ上のディスクドライブを含むネットワーク接続(例えばインターネットプロトコル(IP)接続)を介してビデオレコーダ150がアクセス及び制御しうる外部大容量記憶装置を含みうる。
【0045】
コントローラ250は、ビデオプロセッサ210によって受信されたビデオ信号に関連するビデオプロセッサ210からの情報を取得する。コントローラ250が、ビデオレコーダ150がビデオ番組を受信していると判定すると、コントローラ250はそのビデオ番組が記録されるべきものであるとして既に選択されているものであるか否かを判定する。ビデオ番組が記録されるべきものである場合、コントローラ250は、上述の方法でビデオ番組をハードディスクドライブ230上に記録させる。ビデオ番組が記録されるべきものでない場合、コントローラ250は、上述の方法で、ビデオ番組をビデオプロセッサ210によって処理させテレビ受像機105へ送信させる。
【0046】
メモリ280は、ランダムアクセスメモリ(RAM)、又は、ランダムアクセスメモリ(RAM)と読み出し専用メモリ(ROM)の組み合わせを含みうる。メモリ280は、フラッシュメモリカードといった不揮発性ランダムアクセスメモリ(RAM)を含みうる。ビデオレコーダ150の他の有利な実施例では、メモリ280はハードディスクドライブ(図示せず)といった大容量記憶データ装置を含みうる。メモリ280は、読み書きDVD又は書換可能なCD−ROMを読み出す取り付けられた周辺機器ドライブ又は取り外し可能なディスクドライブ(埋め込まれているか取り付けられている)を含みうる。図2に概略的に示すように、この種類の取り外し可能なディスクドライブは、書換可能なCD−ROMディスク285を受容し読み出すことが可能である。
【0047】
ビデオ番組がハードディスクドライブ230上に記録されると同時に(或いはビデオ番組がハードディスクドライブ230上に記録された後に)、オーディオ分類器コントローラ270はオーディオ信号を抽出し、抽出されたオーディオ信号を、音声、音楽、雑音、及び無音を含む、別々のオーディオカテゴリへ分ける。オーディオ分類器コントローラ270は、抽出された声信号を話者識別器330(図3に図示)へ送信する。話者識別器330は、話している人物を識別するために声信号を解析する。オーディオ分類器コントローラ270は、抽出されカテゴリに分類されたオーディオデータへタイムスタンプを挿入する。
【0048】
図3は、オーディオ分類器コントローラ270を詳細に示すブロック図である。オーディオ分類器コントローラ270は、オーディオカテゴリを用いてビデオ番組のセグメントのオーディオ部分を識別し分類するためにソフトウエア命令を実行する。オーディオ分類は、従来技術で周知の多次元特徴に基づく方法によって達成されうる。これらの方法は、典型的には、線形予測符号化(LPC)で導出されるケプストラム係数とそれらの回帰係数、エネルギーレベル、平均エネルギー、ゼロ交差率(ZCR)等を使用する。更なる情報については、2000年のオークランド大学のテクニカルレポートTR−CSE−IIE−00−11のDonggee Li, Ishwar K. Sethi, Nevenka Dimitrova及び及びTom McGeeによる「Classification of General Audio Data for Content−Based Retrieval」と題された論文を参照のこと。
【0049】
オーディオ分類器コントローラ270のためのオーディオ信号の源は、図3中に参照番号300で示されている。オーディオ分類器コントローラ270は、オーディオ信号源300からのオーディオ信号を分類する分類アルゴリズム305、4つの異なる種類のオーディオカテゴリからの情報を記録するための4つのデータバッファ310乃至325、話者識別データの音声データベースを含む話者識別器330、カテゴリ変化検出器335、カテゴリ変化率検出器340、及び境界検出器345を含む。
【0050】
オーディオ分類器コントローラ270は、オーディオ信号源300から直接オーディオ信号セグメントを受信し、オーディオ信号セグメントを分類アルゴリズム305で分類する。分類アルゴリズム305は、オーディオ信号をオーディオカテゴリの個々の種類、即ち無音、音楽、雑音、及び音声に分類する。これらの4つの種類のオーディオカテゴリは、図3に示されている。使用されうるオーディオカテゴリの種類は、これらの種類のみではない。他の種類のオーディオカテゴリ(例えば笑い)もまた識別され分類されうることが明らかである。
【0051】
分類アルゴリズム305は、データバッファ310中のオーディオカテゴリが「無音」であるものの情報を記録し、データバッファ315中のオーディオカテゴリが「音楽」であるものの情報を記録し、データバッファ325中のオーディオカテゴリが「音声」であるものの情報を記録する。分類アルゴリズム305はまた、分類されたオーディオ信号へタイムスタンプを挿入する。
【0052】
話者識別器330は、以前にその人の声が識別され、分類され、記録された人物についての声識別情報の音声データベースを含む。分類アルゴリズム305は、話者識別器330中の音声データベースにアクセスすることが可能である。分類アルゴリズム305が、オーディオ信号を「音声」オーディオ信号であると分類すると、分類アルゴリズム305は話者を識別するために話者識別器330にアクセスする。話者が識別されうる場合、「音声」オーディオカテゴリに関するデータに話者の識別情報が加えられる。分類アルゴリズム305は、1以上の話者から「音声」オーディオ信号を分類することが可能である。第1の「音声」オーディオ信号は第1の話者から発せられるものとして識別され、第2の「音声」オーディオ信号は第2の話者から発せられるものとして識別されうる。
【0053】
識別されていない話者からの「音声」オーディオ信号は、「不明の話者」カテゴリに分類される。不明の話者からの「音声」オーディオ信号が識別されると、その不明の話者は、音声データベースに加えられ、「不明話者番号1」として識別される。第2の不明の話者からの「音声」オーディオ信号が識別されると、その第2の不明の話者は、音声データベースに加えられ、「不明話者番号1」として識別される。不明の話者が検出されるたびに、その不明の話者が既に音声データベースに加えられているものであるかを確かめるため、不明の話者の「音声」オーディオ信号は、音声データベース中の各不明の話者の「音声」オーディオを信号と比較される。
【0054】
分類アルゴリズム305は、一定の時間内に話す不明の話者の数を決定するためのこの情報を使用しうる。短い時間内に比較的多数の不明の話者がいるということは、ビデオデータストリーム中のコマーシャルの存在を示すものでありうる。
【0055】
分類アルゴリズム305は、また、ビデオデータストリームの番組部分に現れる新しい人物についての声識別情報を追加するために話者識別器330中の音声データベースを更新する。これらの人物は、新しい俳優及び女優、新しいミュージシャン、新しく選出された政治家等でありうる。コマーシャルに現れる新しい人物についての声識別情報で音声データベースを更新することは必要でない。従って、分類アルゴリズム305は、新しい不明の人物が現れる回数と、それらがビデオデータストリームのコマーシャルに現れるのか番組部分に現れるのかを記録する。次に、分類アルゴリズム305は、(新しい不明の人物がビデオデータストリーム中の番組部分にも現れるものでないかぎり)コマーシャル中に現れる新しい不明な人物に関する全ての情報を削除する。
【0056】
個々のオーディオ信号セグメントが正しいオーディオカテゴリに分類された後、分類アルゴリズム305は分類情報をカテゴリ変化検出器335へ送る。カテゴリ変化検出器335は、第1のカテゴリに分類されたオーディオ信号の第1の部分がいつ終わり、第2のカテゴリに分類されたオーディオ信号の第2の部分がいつ始まるのかを検出するためにタイムスタンプ情報を使用する。カテゴリ変化検出器335は、オーディオ信号のカテゴリがいつ変化するのかを決定し、関連する2つのカテゴリの識別情報を決定する。特に、カテゴリ変化検出器335は、オーディオ信号が音声信号から音楽信号へ変化したこと、又は、オーディオ信号が無音信号から音声信号へ変化したこと等を決定することが可能である。
【0057】
カテゴリ変化検出器335は、また、第1のサブカテゴリに分類されたオーディオ信号の第1の部分がいつ終わり、第2のサブカテゴリに分類されたオーディオ信号の第2の部分がいつ始まるのかを検出する。例えば、カテゴリ変化検出器335は、オーディオ信号が、バックグラウンドに音楽のある音声の第1のサブカテゴリから、バックグラウンドに雑音のある音声の第2のサブカテゴリへ変化したことを決定することが可能である。
【0058】
カテゴリ変化検出器335は、また、第1の話者カテゴリに分類されたオーディオ信号の第1の部分がいつ終わり、第2の話者カテゴリに分類されたオーディオ信号の第2の部分がいつ始まるのかを決定する。カテゴリ変化検出器335は、オーディオ信号の話者カテゴリがいつ変化するのかを決定する。カテゴリ変化検出器335は、オーディオ信号が第1の話者から第2の話者へ変化したこと、又は第2の話者から第3の話者へ変化したこと等を決定することが可能である。
【0059】
カテゴリ変化検出器335は、この情報をカテゴリ変化率検出器340へ送信する。カテゴリ変化率検出器340は、種々のカテゴリが変化する率を検出する。
【0060】
カテゴリ変化率検出器340は、単位時間(例えば1分間)に各特定のカテゴリが何回変化するかを計算するためにタイムスタンプ情報を使用する。
【0061】
カテゴリ変化率検出器340は、各カテゴリについての変化率を決定する。カテゴリ変化率検出器340は、全体の変化率を決定するために各カテゴリについての変化率を使用する。全体の変化率は、(1)各カテゴリの変化率、及び、(2)オーディオカット率(即ち、全てのカテゴリが変化している率)、及び、(3)各カテゴリの全体の時間の長さ、及び、(4)一定の時間内のカテゴリの全体の時間の長さに対する各カテゴリの変化率の比率を考慮に入れる。次に、カテゴリ変化率検出器340は、上述の情報を境界検出器345へ送る。
【0062】
境界検出器345は、ビデオ番組及びコマーシャルの境界の位置を見つけるために(全体の変化率を含む)情報を使用する。コマーシャルは、多種多様な速く変化するオーディオカテゴリを含む場合が多いことが知られている。コマーシャルは、(一定の時間に)通常は他の種類のビデオセグメントよりも話者変化の数が多い。境界検出器345が、予め選択された閾値を上回る話者の変化の率を示す場合、境界検出器345はコマーシャルが続行中であることを示しうる。適合な閾値は、多数のコマーシャルについて話者の変化率を測定することによって経験的に取得されうる。
【0063】
境界検出器345は、オーディオカテゴリ(例えば、音声、無音、音楽、及び雑音)と、オーディオサブカテゴリ(例えばバックグラウンドに雑音がある音声、バックグラウンドに雑音がある音楽)と、話者カテゴリ(例えば識別された話者及び不明の話者)と使用する。コマーシャルセグメントの境界を決定するために、境界検出器345は時間ウィンドウのサイズを選択する。例えば、コマーシャルについて、時間ウィンドウのサイズは、20秒間に選択されうる。境界検出器345は、スライディング・ウィンドウ高レベル特徴抽出及び分類処理を行って、以下の高レベル特徴、即ち(1)各カテゴリの変化率(即ち、時間ウィンドウ中に何回各カテゴリが出現するか)、(2)時間ウィンドウ中の各カテゴリの長さ(nのカテゴリについてnの値)、(3)オーディオカットの変化率(全てのカテゴリ変化)、(4)平均オーディオカット距離を抽出する。これらの4つの特徴は、時間ウィンドウ内のオーディオセグメントがコマーシャルセグメントであるかないかを決定する境界検出器345内の分類器(例えば最も近い近傍の分類器)(図示せず)へ送られる。分類器が確率分類器(例えばベイズ分類器)である場合、分類器は時間ウィンドウ内のオーディオセグメントがコマーシャルセグメントであるかないかの確率を決定する。
【0064】
番組セグメントの境界を決定するために、境界検出器345は時間ウィンドウのサイズを選択する。例えば、番組セグメントについて、時間ウィンドウのサイズは5分間に選択されうる。境界検出器345は、各カテゴリにおける各変化に対して「重み係数」を割り当てうる。重み係数は、カテゴリの特定の変化が生じた点における境界の位置を見つける尤度を評価するためにカテゴリ変化に対して割り当てられる相対的な重要性を表わす数でありうる。例えば、「無音」から「音楽」への変化が最初の境界に関連付けられる尤度が高いときは、特定のカテゴリ変化を表わす数値係数は、最初の境界の存在の尤度を決定するときのその特定のカテゴリ変化の相対的な影響を増加させるために「重み係数」で乗算されうる。
【0065】
上述の方法に加え、「重み係数」は、カテゴリ変化特徴から直接自動的に計算されうる。オーディオ分類器コントローラ270を表わすために使用される多次元特徴空間では、各カテゴリ(例えば、音声、音楽)は、そのカテゴリの重心を表わす平均ベクトルを有する。これらの平均ベクトルの夫々の間の距離もまた、カテゴリ変化の重要性の尺度である。従って、平均ベクトル間の距離は、カテゴリ変化の重要性を定量化するために使用されうる。
【0066】
次に、境界検出器345は、スライディング・ウィンドウ高レベル特徴抽出及び分類処理を行って、以下の高レベル特徴、即ち(1)各カテゴリの変化率(即ち、時間ウィンドウ中に何回各カテゴリが出現するか)、(2)時間ウィンドウ中の各カテゴリの長さ(重み係数によって調整)、(3)オーディオカットの変化率(全てのカテゴリ変化)、(4)平均オーディオカット距離を抽出する。これらの4つの特徴は、時間ウィンドウ内のオーディオセグメントが特定のクラスに属するか確率を決定する境界検出器345(例えばベイズ分類器)内の確率分類器(図示せず)へ送られる。例えば、オーディオセグメントは、対話、ニュースの話題、音楽のビデオ、又は叫び声のある群衆のシーン等に属しうる。スライディング・ウィンドウからの出力値は、異なるセグメントのうちのグローバルな最小についての分析及び全体の分析(例えば過去1時間)を受けうる。
【0067】
次に結果は、番組境界に関するヒューリスティックを用いて分析される。番組境界に関するヒューリスティックの例は、(1)音楽的な可聴ロゴがニュース番組の始まりに存在すること、(2)通常は各番組の終わり近くにコマーシャルがあること、及び(3)映画の終わりのクレジットが通常はバックグラウンドの音楽とともに示されることである。
【0068】
図4は、本発明の有利な実施例によるオーディオ分類器コントローラ270の動作を示すフローチャート400である。フローチャート400は、ビデオレコーダ150中のオーディオ分類器コントローラ270中の本発明の1つの有利な動作方法を示す図である。オーディオ分類器コントローラ280は、オーディオ信号の源300からオーディオ信号を受信する(ステップ410)。オーディオ分類器コントローラ270は、分類アルゴリズム305を用いてオーディオ信号をオーディオカテゴリ(及びサブカテゴリ)へ分類する(ステップ420)。分類アルゴリズム305は、話者識別器330からの情報を用いて「音声」オーディオカテゴリ中の各セグメントの個々の話者を識別する(ステップ430)。カテゴリ変化検出器335は、各オーディオカテゴリ(又はサブカテゴリ)がいつ変化するかを決定する(ステップ440)。カテゴリ変化率検出器340は、オーディオカテゴリ(又はサブカテゴリ)の変化率を決定する(ステップ450)。境界検出器345は、オーディオカテゴリ(又はサブカテゴリ)の変化率情報をビデオ番組及びコマーシャルの境界の位置を見つけるための閾値と比較する(ステップ460)。
【0069】
本発明について、ビデオ信号プロセッサ中でビデオ番組とコマーシャルの境界の位置を見つけるためのシステム及び方法として説明した。また、本発明のシステム及び方法は、オーディオプロセッサ中で使用されてもよい。オーディオプロセッサは、オーディオ信号のみを受信し処理する。オーディオプロセッサは、例えば、無線受信器、オーディオレコーダ、(例えばインターネットといった源からの)ストリーミングオーディオデータ信号を受信する装置、又はコンピュータ化されたパーソナルオーディオ情報検索システムを含みうる。
【0070】
本発明について詳述したが、当業者は、本発明の最も広い精神及び範囲を逸脱することなく、本発明に対して種々の変更、大体、及び修正がなされうることが理解されるべきである。
【図面の簡単な説明】
【図1】
本発明の有利な実施例による典型的なビデオレコーダ及びテレビ受像機を示す図である。
【図2】
本発明の有利な実施例による典型的なビデオレコーダを示すブロック図である。
【図3】
本発明の有利な実施例による典型的なオーディオ分類器コントローラを示すブロック図である。
【図4】
本発明の有利な実施例による典型的なオーディオ分類器コントローラの動作を示すフローチャートである。
Claims (27)
- ビデオ信号プロセッサでの使用のための、ビデオ番組とコマーシャルの境界の位置を見つけるシステムであって、
オーディオ信号の少なくとも1つのセグメントの少なくとも1つのオーディオカテゴリを受信することが可能であり、上記少なくとも1つのオーディオカテゴリの少なくとも1つの変化率を決定することが可能であり、上記少なくとも1つのオーディオカテゴリの上記少なくとも1つの変化率を閾値と比較することにより上記少なくとも1つの境界の位置を見つけることが可能なオーディオ分類器コントローラを含むシステム。 - 上記オーディオ分類器コントローラは、オーディオ信号の各セグメントに対する少なくとも1つのオーディオカテゴリを取得するようオーディオ信号を分類することが可能な分類アルゴリズムを含む、請求項1記載のシステム。
- 上記分類アルゴリズムは、オーディオ信号を、無音、音楽、雑音、及び音声のオーディオカテゴリへ分類することが可能である、請求項2記載のシステム。
- 上記オーディオ分類器コントローラは、その人の声が既に識別されている人物の音声識別情報を含む音声データベースを含む話者識別器を含み、上記分類アルゴリズムは、上記話者識別器の上記音声データベースにアクセスし、声が上記話者識別器の上記音声データベースに入っている人物の音声オーディオ信号をオーディオカテゴリとして分類することが可能である、請求項3記載のシステム。
- 上記話者識別器は、その人の声がまだ識別されていない人物の声情報を含む不明話者データベースを含み、上記分類アルゴリズムは上記不明話者データベースにアクセスし所与の時間内に話す不明話者の数を決定し、上記分類アルゴリズムは新しく識別される話者についての声識別情報を追加するよう上記話者識別器中の上記音声データベースを更新することが可能である、請求項4記載のシステム。
- 上記オーディオ分類器コントローラはカテゴリ変化検出器を含み、上記カテゴリ変化検出器は、上記オーディオ信号のセグメントのオーディオカテゴリを受信することが可能であり、上記オーディオ信号のオーディオカテゴリがいつ変化するかを決定することが可能であり、上記オーディオカテゴリの変化の前後に上記オーディオカテゴリの識別情報を決定することが可能である、請求項1記載のシステム。
- 上記カテゴリ変化検出器は、上記オーディオ信号のセグメントのオーディオサブカテゴリを検出することが可能であり、上記オーディオ信号のオーディオサブカテゴリはいつ変化するかを決定することが可能であり、上記オーディオサブカテゴリの上記変化の前後に上記オーディオサブカテゴリの識別を決定することが可能である、請求項6記載のシステム。
- 上記オーディオ分類器コントローラは、カテゴリ変化率検出器を含み、上記カテゴリ変化率検出器は、オーディオカテゴリの変化に関する情報を上記カテゴリ変化検出器から受信することが可能であり、上記オーディオカテゴリの変化が生じたときの率を計算することが可能である、請求項6記載のシステム。
- 上記カテゴリ変化率検出器は、各カテゴリの変化率、オーディオカット率、各カテゴリの全体の時間、所与の期間内のカテゴリの全体の時間に対する各カテゴリの変化率の比率からの情報を用いて全体の変化率を決定することが可能である、請求項8記載のシステム。
- 上記オーディオ分類器コントローラは、境界検出器を含み、上記境界検出器は、上記カテゴリ変化率検出器からの情報を受信することが可能であり、ビデオ番組セグメントの少なくとも1つの境界の位置を見つけるために少なくとも1つのオーディオカテゴリ変化率の値を閾値の値と比較することが可能である、請求項8記載のシステム。
- 上記境界検出器は各カテゴリ中の各変化に対して重み係数を割り当てることが可能であり、上記重み係数は、カテゴリの特定の変化が生じたときの境界の位置を見つける尤度を評価するときにカテゴリの変化に対して割り当てられる相対的な重要度を表わす数を含む、請求項10記載のシステム。
- 上記境界検出器は、各カテゴリの変化率、オーディオカット率、各カテゴリの全体の時間、所与の期間内のカテゴリの全体の時間に対する各カテゴリの変化率の比率からの情報を用いて決定される全体の変化率に関連する情報を上記カテゴリ変化率検出器から受信することが可能であり、上記境界検出器は、ビデオ番組セグメントの少なくとも1つの境界の位置を見つけるために少なくとも1つのオーディオカテゴリ変化率の値を閾値の値と比較することが可能である、請求項10記載のシステム。
- オーディオ信号の少なくとも1つのセグメントの少なくとも1つのオーディオカテゴリを受信することが可能であり、上記少なくとも1つのオーディオカテゴリの少なくとも1つの変化率を決定することが可能であり、上記少なくとも1つのオーディオカテゴリの上記少なくとも1つの変化率を閾値を比較することにより上記少なくとも1つの境界の位置を見つけることが可能なオーディオ分類器コントローラを含む、ビデオ番組及びコマーシャルの境界の位置を見つけることが可能なビデオ信号プロセッサ。
- 上記ビデオ信号プロセッサは、テレビジョン受像機、ビデオレコーダ、ストリーミングビデオデータ信号を受信する装置、及び、コンピュータ化された個人情報検索システムのうちの1つを含む、請求項13記載のビデオ信号プロセッサ。
- オーディオ信号の少なくとも1つのセグメントの少なくとも1つのオーディオカテゴリを受信することが可能であり、上記少なくとも1つのオーディオカテゴリの少なくとも1つの変化率を決定することが可能であり、上記少なくとも1つのオーディオカテゴリの上記少なくとも1つの変化率を閾値を比較することにより上記少なくとも1つの境界の位置を見つけることが可能なオーディオ分類器コントローラを含むオーディオ信号プロセッサ。
- 上記オーディオ信号プロセッサは、テレビジョン受像機、ビデオレコーダ、ストリーミングビデオデータ信号を受信する装置、及び、コンピュータ化された個人情報検索システムのうちの1つを含む、請求項13記載のオーディオ信号プロセッサ。
- ビデオ信号プロセッサでの使用のための、ビデオ番組及びコマーシャルの境界の位置を見つける方法であって、
オーディオ分類器コントローラ中でオーディオ信号の少なくとも1つのセグメントの少なくとも1つのオーディオカテゴリを受信する段階と、
上記少なくとも1つのオーディオカテゴリの少なくとも1つの変化率を決定する段階と、
上記少なくとも1つのオーディオカテゴリの少なくとも1つの変化率を閾値と比較することにより上記境界の少なくとも1つの位置を見つける段階とを含む方法。 - 上記オーディオ信号の各セグメントに対する少なくとも1つのオーディオカテゴリを取得するよう上記オーディオ分類器コントローラの分類アルゴリズムを用いてオーディオ信号を分類する段階を更に含む、請求項17記載の方法。
- 上記分類アルゴリズムを用いて、オーディオ信号を、無音、音楽、雑音、及び音声のオーディオカテゴリへ分類する段階を更に含む、請求項18記載の方法。
- その人の声が既に識別されている人物の音声識別情報を含む上記オーディオ分類器コントローラ中の話者識別器中の音声データベースにアクセスする段階と、
その人の声が上記話者識別器の上記音声データベースに入っている人物の音声オーディオ信号をオーディオカテゴリとして分類する段階を更に含む、請求項19記載の方法。 - その人の声がまだ識別されていない人物の声情報を含む不明話者データベースにアクセスする段階と、
所与の時間内に話す不明話者の数を決定する段階と、
新しく識別される話者についての声識別情報を追加するよう上記話者識別器中の上記音声データベースを更新する段階とを更に含む、請求項20記載の方法。 - 上記オーディオ分類器コントローラのカテゴリ変化検出器中に上記オーディオ信号のセグメントのオーディオカテゴリを受信する段階と、
上記カテゴリ変化検出器において、上記オーディオ信号のオーディオカテゴリがいつ変化するかを決定する段階と、
上記カテゴリ変化検出器において、上記オーディオカテゴリの変化の前後に上記オーディオカテゴリの識別情報を決定する、請求項17記載の方法。 - 上記オーディオ信号のオーディオサブカテゴリを上記オーディオ分類器コントローラの上記カテゴリ変化検出器で受信する段階と、
上記カテゴリ変化検出器において、上記オーディオ信号のオーディオサブカテゴリはいつ変化するかを決定する段階と、
上記カテゴリ変化検出器において、上記オーディオサブカテゴリの上記変化の前後に上記オーディオサブカテゴリの識別を決定する段階とを更に含む、請求項22記載の方法。 - カテゴリ変化率検出器に、オーディオカテゴリの変化に関する情報を上記カテゴリ変化検出器から受信する段階と、
上記オーディオカテゴリ変化が生ずる率を計算する段階とを更に含む、請求項22記載の方法。 - 上記カテゴリ変化率検出器において、各カテゴリの変化率、オーディオカット率、各カテゴリの全体の時間、所与の期間内のカテゴリの全体の時間に対する各カテゴリの変化率の比率からの情報を用いて全体の変化率を決定する段階と、
ビデオセグメントの少なくとも1つの境界の位置を見つけるために少なくとも1つの全体変化率の値を閾値と比較する段階とを更に含む、請求項24記載の方法。 - オーディオカテゴリ率の変化に関する上記カテゴリ変化率検出器から上記オーディオ分類器コントローラの境界検出器中に情報を受信する段階と、
上記オーディオ信号を含むビデオ番組セグメントの少なくとも1つの境界の位置を見つけるために少なくとも1つのオーディオカテゴリ変化率を閾値と比較する段階とを含む、請求項24記載の方法。 - 各カテゴリ中の各変化に対して重み係数を割り当てる段階を含み、上記重み係数は、カテゴリの特定の変化が生じたときの境界の位置を見つける尤度を評価するときにカテゴリの変化に対して割り当てられる相対的な重要度を表わす数を含む、請求項26記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/746,077 US6819863B2 (en) | 1998-01-13 | 2000-12-22 | System and method for locating program boundaries and commercial boundaries using audio categories |
PCT/IB2001/002432 WO2002052440A1 (en) | 2000-12-22 | 2001-12-10 | System and method for locating boundaries between video programs and commercial using audio categories |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004517518A true JP2004517518A (ja) | 2004-06-10 |
Family
ID=24999385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002553671A Withdrawn JP2004517518A (ja) | 2000-12-22 | 2001-12-10 | オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6819863B2 (ja) |
EP (1) | EP1417593A1 (ja) |
JP (1) | JP2004517518A (ja) |
CN (1) | CN1426563A (ja) |
WO (1) | WO2002052440A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005331940A (ja) * | 2004-05-07 | 2005-12-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2006058874A (ja) * | 2004-08-20 | 2006-03-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2006525537A (ja) * | 2003-04-14 | 2006-11-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテンツ解析を用いて音楽ビデオを要約する方法及び装置 |
JP2008005167A (ja) * | 2006-06-21 | 2008-01-10 | Hokkaido Univ | 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 |
US11763242B2 (en) * | 2021-12-09 | 2023-09-19 | Z21 Labs, Inc. | Automatic evaluation of recorded interactions |
Families Citing this family (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020120925A1 (en) * | 2000-03-28 | 2002-08-29 | Logan James D. | Audio and video program recording, editing and playback systems using metadata |
US9171545B2 (en) * | 1999-04-19 | 2015-10-27 | At&T Intellectual Property Ii, L.P. | Browsing and retrieval of full broadcast-quality video |
US7877774B1 (en) * | 1999-04-19 | 2011-01-25 | At&T Intellectual Property Ii, L.P. | Browsing and retrieval of full broadcast-quality video |
DE19929166A1 (de) * | 1999-06-25 | 2001-03-22 | Tektronix Inc | Verfahren zum Erlernen von Protokollregeln aus beobachteten Kommunikationsabläufen |
NZ517056A (en) * | 1999-08-09 | 2004-01-30 | British Sky Broadcasting Ltd | Improvements in receivers for television signals |
US6993245B1 (en) * | 1999-11-18 | 2006-01-31 | Vulcan Patents Llc | Iterative, maximally probable, batch-mode commercial detection for audiovisual content |
US6834308B1 (en) | 2000-02-17 | 2004-12-21 | Audible Magic Corporation | Method and apparatus for identifying media content presented on a media playing device |
US7562012B1 (en) | 2000-11-03 | 2009-07-14 | Audible Magic Corporation | Method and apparatus for creating a unique audio signature |
JP2002230945A (ja) * | 2001-01-30 | 2002-08-16 | Pioneer Electronic Corp | 情報記録再生装置及びタイトル情報付与方法、タイトル情報付与手順プログラムを記録したプログラム記録媒体 |
US20020141730A1 (en) * | 2001-03-27 | 2002-10-03 | Koninklijke Philips Electronics N.V. | TV recorder with inoperative settop box functions |
EP1490767B1 (en) | 2001-04-05 | 2014-06-11 | Audible Magic Corporation | Copyright detection and protection system and method |
JP4546682B2 (ja) * | 2001-06-26 | 2010-09-15 | パイオニア株式会社 | 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム |
US7529659B2 (en) | 2005-09-28 | 2009-05-05 | Audible Magic Corporation | Method and apparatus for identifying an unknown work |
JP4615166B2 (ja) * | 2001-07-17 | 2011-01-19 | パイオニア株式会社 | 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム |
US7877438B2 (en) * | 2001-07-20 | 2011-01-25 | Audible Magic Corporation | Method and apparatus for identifying new media content |
US8972481B2 (en) | 2001-07-20 | 2015-03-03 | Audible Magic, Inc. | Playlist generation method and apparatus |
DE10148351B4 (de) * | 2001-09-29 | 2007-06-21 | Grundig Multimedia B.V. | Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus |
US20030108334A1 (en) * | 2001-12-06 | 2003-06-12 | Koninklijke Philips Elecronics N.V. | Adaptive environment system and method of providing an adaptive environment |
US7006976B2 (en) * | 2002-01-29 | 2006-02-28 | Pace Micro Technology, Llp | Apparatus and method for inserting data effects into a digital data stream |
US8332326B2 (en) * | 2003-02-01 | 2012-12-11 | Audible Magic Corporation | Method and apparatus to identify a work received by a processing system |
US7336890B2 (en) * | 2003-02-19 | 2008-02-26 | Microsoft Corporation | Automatic detection and segmentation of music videos in an audio/video stream |
US7738704B2 (en) * | 2003-03-07 | 2010-06-15 | Technology, Patents And Licensing, Inc. | Detecting known video entities utilizing fingerprints |
US7694318B2 (en) * | 2003-03-07 | 2010-04-06 | Technology, Patents & Licensing, Inc. | Video detection and insertion |
US7809154B2 (en) | 2003-03-07 | 2010-10-05 | Technology, Patents & Licensing, Inc. | Video entity recognition in compressed digital video streams |
US7130623B2 (en) * | 2003-04-17 | 2006-10-31 | Nokia Corporation | Remote broadcast recording |
KR101058054B1 (ko) * | 2003-08-18 | 2011-08-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 비디오 추출 |
US7786987B2 (en) * | 2003-09-25 | 2010-08-31 | The Nielsen Company (Us), Llc | Methods and apparatus to detect an operating state of a display based on visible light |
US9027043B2 (en) * | 2003-09-25 | 2015-05-05 | The Nielsen Company (Us), Llc | Methods and apparatus to detect an operating state of a display |
JP4143017B2 (ja) * | 2003-10-30 | 2008-09-03 | 株式会社東芝 | 記録装置及び記録方法 |
EP1531458B1 (en) * | 2003-11-12 | 2008-04-16 | Sony Deutschland GmbH | Apparatus and method for automatic extraction of important events in audio signals |
US7179980B2 (en) * | 2003-12-12 | 2007-02-20 | Nokia Corporation | Automatic extraction of musical portions of an audio stream |
US20050138655A1 (en) * | 2003-12-22 | 2005-06-23 | Randy Zimler | Methods, systems and storage medium for managing digital rights of segmented content |
US20050177618A1 (en) * | 2003-12-22 | 2005-08-11 | Randy Zimler | Methods, systems and storage medium for managing bandwidth of segmented content |
US7643090B2 (en) * | 2003-12-30 | 2010-01-05 | The Nielsen Company (Us), Llc. | Methods and apparatus to distinguish a signal originating from a local device from a broadcast signal |
TW200537941A (en) * | 2004-01-26 | 2005-11-16 | Koninkl Philips Electronics Nv | Replay of media stream from a prior change location |
US7280737B2 (en) * | 2004-02-23 | 2007-10-09 | Warner Bros. Entertainment Inc. | Method and apparatus for discouraging commercial skipping |
WO2005086940A2 (en) * | 2004-03-11 | 2005-09-22 | Interdigital Technology Corporation | Control of device operation within an area |
US7818444B2 (en) | 2004-04-30 | 2010-10-19 | Move Networks, Inc. | Apparatus, system, and method for multi-bitrate content streaming |
CN1934650A (zh) * | 2004-06-18 | 2007-03-21 | 松下电器产业株式会社 | Av内容处理设备、av内容处理方法、av内容处理程序及av处理设备中使用的集成电路 |
US8130746B2 (en) * | 2004-07-28 | 2012-03-06 | Audible Magic Corporation | System for distributing decoy content in a peer to peer network |
AU2005273948B2 (en) * | 2004-08-09 | 2010-02-04 | The Nielsen Company (Us), Llc | Methods and apparatus to monitor audio/visual content from various sources |
TW200730836A (en) * | 2004-12-06 | 2007-08-16 | Interdigital Tech Corp | Method and apparatus for detecting portable electronic device functionality |
WO2006077533A2 (en) * | 2005-01-19 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Apparatus and method for analyzing a content stream comprising a content item |
US20060195859A1 (en) * | 2005-02-25 | 2006-08-31 | Richard Konig | Detecting known video entities taking into account regions of disinterest |
US7617188B2 (en) * | 2005-03-24 | 2009-11-10 | The Mitre Corporation | System and method for audio hot spotting |
US7690011B2 (en) | 2005-05-02 | 2010-03-30 | Technology, Patents & Licensing, Inc. | Video stream modification to defeat detection |
MX2008002317A (es) | 2005-08-16 | 2008-03-24 | Nielsen Media Res Inc | Metodos y aparatos de deteccion de encendido/apagado del dispositivo de visualizacion. |
WO2007036888A2 (en) * | 2005-09-29 | 2007-04-05 | Koninklijke Philips Electronics N.V. | A method and apparatus for segmenting a content item |
JP2009510509A (ja) * | 2005-09-29 | 2009-03-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | セグメント別特徴比較によりプレイリストを自動生成する方法及び装置 |
KR20070040285A (ko) * | 2005-10-11 | 2007-04-16 | 엘지전자 주식회사 | 모바일 디지털 방송 수신기 |
US7778632B2 (en) * | 2005-10-28 | 2010-08-17 | Microsoft Corporation | Multi-modal device capable of automated actions |
CN101322123A (zh) * | 2005-11-30 | 2008-12-10 | 皇家飞利浦电子股份有限公司 | 用于更新用户简档的方法和系统 |
JP4698453B2 (ja) * | 2006-02-28 | 2011-06-08 | 三洋電機株式会社 | コマーシャル検出装置、映像再生装置 |
US8682654B2 (en) * | 2006-04-25 | 2014-03-25 | Cyberlink Corp. | Systems and methods for classifying sports video |
US8107541B2 (en) * | 2006-11-07 | 2012-01-31 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for video segmentation |
JP4919879B2 (ja) | 2007-06-07 | 2012-04-18 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US8006314B2 (en) | 2007-07-27 | 2011-08-23 | Audible Magic Corporation | System for identifying content of digital data |
US8515257B2 (en) * | 2007-10-17 | 2013-08-20 | International Business Machines Corporation | Automatic announcer voice attenuation in a presentation of a televised sporting event |
US20100286989A1 (en) * | 2008-01-16 | 2010-11-11 | Shingo Urata | Recording/reproduction device |
CN101534352A (zh) * | 2008-03-10 | 2009-09-16 | 华为技术有限公司 | 一种线路状态检测方法、装置和预测式外呼系统 |
JP4656202B2 (ja) * | 2008-07-22 | 2011-03-23 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
US8180712B2 (en) | 2008-09-30 | 2012-05-15 | The Nielsen Company (Us), Llc | Methods and apparatus for determining whether a media presentation device is in an on state or an off state |
US8793717B2 (en) | 2008-10-31 | 2014-07-29 | The Nielsen Company (Us), Llc | Probabilistic methods and apparatus to determine the state of a media device |
US20100169908A1 (en) * | 2008-12-30 | 2010-07-01 | Nielsen Christen V | Methods and apparatus to enforce a power off state of an audience measurement device during shipping |
US8156517B2 (en) | 2008-12-30 | 2012-04-10 | The Nielsen Company (U.S.), Llc | Methods and apparatus to enforce a power off state of an audience measurement device during shipping |
US8375404B2 (en) * | 2008-12-30 | 2013-02-12 | The Nielsen Company (Us), Llc | Methods and apparatus to enforce a power off state of an audience measurement device during shipping |
US8199651B1 (en) | 2009-03-16 | 2012-06-12 | Audible Magic Corporation | Method and system for modifying communication flows at a port level |
EP2446631A4 (en) * | 2009-06-25 | 2015-04-01 | Visible World Inc | TIME COMPROMISING VIDEO CONTENT |
WO2011015237A1 (en) * | 2009-08-04 | 2011-02-10 | Nokia Corporation | Method and apparatus for audio signal classification |
US8532863B2 (en) * | 2009-09-28 | 2013-09-10 | Sri International | Audio based robot control and navigation |
EP2840801B1 (en) * | 2010-02-26 | 2017-09-20 | Comcast Cable Communications, LLC | Video stream segmentation and classification to skip advertisements. |
US10116902B2 (en) * | 2010-02-26 | 2018-10-30 | Comcast Cable Communications, Llc | Program segmentation of linear transmission |
US9160837B2 (en) * | 2011-06-29 | 2015-10-13 | Gracenote, Inc. | Interactive streaming content apparatus, systems and methods |
CN102956230B (zh) * | 2011-08-19 | 2017-03-01 | 杜比实验室特许公司 | 对音频信号进行歌曲检测的方法和设备 |
KR20140064969A (ko) | 2011-09-23 | 2014-05-28 | 디지맥 코포레이션 | 콘텍스트―기반 스마트폰 센서 로직 |
JP2015506158A (ja) | 2011-12-19 | 2015-02-26 | ザ ニールセン カンパニー (ユーエス) エルエルシー | メディア提示装置をクレジットするための方法及び装置 |
KR20130071873A (ko) * | 2011-12-21 | 2013-07-01 | 삼성전자주식회사 | 컨텐츠재생장치 및 그 제어방법 |
US9692535B2 (en) | 2012-02-20 | 2017-06-27 | The Nielsen Company (Us), Llc | Methods and apparatus for automatic TV on/off detection |
TWI591620B (zh) * | 2012-03-21 | 2017-07-11 | 三星電子股份有限公司 | 產生高頻雜訊的方法 |
US9804754B2 (en) * | 2012-03-28 | 2017-10-31 | Terry Crawford | Method and system for providing segment-based viewing of recorded sessions |
US9081778B2 (en) | 2012-09-25 | 2015-07-14 | Audible Magic Corporation | Using digital fingerprints to associate data with a work |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
US9924224B2 (en) | 2015-04-03 | 2018-03-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine a state of a media presentation device |
US11228817B2 (en) | 2016-03-01 | 2022-01-18 | Comcast Cable Communications, Llc | Crowd-sourced program boundaries |
US10945030B2 (en) | 2018-03-30 | 2021-03-09 | Alphonso Inc. | Detection of potential commercial by detection and analysis of transitions in video content |
US11245958B2 (en) * | 2018-11-16 | 2022-02-08 | Roku, Inc. | Detection of mute and compensation therefor during media replacement event |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999688A (en) * | 1993-01-08 | 1999-12-07 | Srt, Inc. | Method and apparatus for controlling a video player to automatically locate a segment of a recorded program |
US5343251A (en) * | 1993-05-13 | 1994-08-30 | Pareto Partners, Inc. | Method and apparatus for classifying patterns of television programs and commercials based on discerning of broadcast audio and video signals |
KR100206804B1 (ko) | 1996-08-29 | 1999-07-01 | 구자홍 | 하일라이트 부분 자동 선택 녹화 방법 |
JPH10174039A (ja) | 1996-12-06 | 1998-06-26 | Matsushita Electric Ind Co Ltd | 番組記録装置 |
JPH10224724A (ja) | 1997-02-04 | 1998-08-21 | Sony Corp | テレビジョン信号記録装置及び方法並びにテレビジョン信号再生装置及び方法並びにテレビジョン信号記録再生装置並びに記録媒体 |
US6363380B1 (en) * | 1998-01-13 | 2002-03-26 | U.S. Philips Corporation | Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser |
JP2000165806A (ja) * | 1998-11-30 | 2000-06-16 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
US6236395B1 (en) * | 1999-02-01 | 2001-05-22 | Sharp Laboratories Of America, Inc. | Audiovisual information management system |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US6469749B1 (en) | 1999-10-13 | 2002-10-22 | Koninklijke Philips Electronics N.V. | Automatic signature-based spotting, learning and extracting of commercials and other video content |
US7046914B2 (en) * | 2001-05-01 | 2006-05-16 | Koninklijke Philips Electronics N.V. | Automatic content analysis and representation of multimedia presentations |
-
2000
- 2000-12-22 US US09/746,077 patent/US6819863B2/en not_active Expired - Fee Related
-
2001
- 2001-12-10 JP JP2002553671A patent/JP2004517518A/ja not_active Withdrawn
- 2001-12-10 EP EP01272141A patent/EP1417593A1/en not_active Withdrawn
- 2001-12-10 WO PCT/IB2001/002432 patent/WO2002052440A1/en not_active Application Discontinuation
- 2001-12-10 CN CN01808461A patent/CN1426563A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006525537A (ja) * | 2003-04-14 | 2006-11-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテンツ解析を用いて音楽ビデオを要約する方法及び装置 |
JP2005331940A (ja) * | 2004-05-07 | 2005-12-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2006058874A (ja) * | 2004-08-20 | 2006-03-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2008005167A (ja) * | 2006-06-21 | 2008-01-10 | Hokkaido Univ | 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 |
JP4759745B2 (ja) * | 2006-06-21 | 2011-08-31 | 国立大学法人北海道大学 | 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 |
US11763242B2 (en) * | 2021-12-09 | 2023-09-19 | Z21 Labs, Inc. | Automatic evaluation of recorded interactions |
Also Published As
Publication number | Publication date |
---|---|
US20020080286A1 (en) | 2002-06-27 |
WO2002052440A1 (en) | 2002-07-04 |
US6819863B2 (en) | 2004-11-16 |
EP1417593A1 (en) | 2004-05-12 |
CN1426563A (zh) | 2003-06-25 |
US20040201784A9 (en) | 2004-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6819863B2 (en) | System and method for locating program boundaries and commercial boundaries using audio categories | |
US6973256B1 (en) | System and method for detecting highlights in a video program using audio properties | |
US6993245B1 (en) | Iterative, maximally probable, batch-mode commercial detection for audiovisual content | |
US6998527B2 (en) | System and method for indexing and summarizing music videos | |
US7046911B2 (en) | System and method for reduced playback of recorded video based on video segment priority | |
US20020083473A1 (en) | System and method for accessing a multimedia summary of a video program | |
JP2005173569A (ja) | オーディオ信号の分類装置及び方法 | |
KR100865042B1 (ko) | 비디오 프로그램의 멀티미디어 설명 데이터를 생성하는 시스템 및 방법, 비디오 디스플레이 시스템, 및 컴퓨터 판독 가능 기록 매체 | |
JP2003101939A (ja) | 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム | |
JP2007522722A (ja) | 先行変更位置からのメディア・ストリームの再生 | |
JP4300697B2 (ja) | 信号処理装置及び方法 | |
KR100853634B1 (ko) | 선택된 오디오를 갖는 비디오를 재생하는 재생 장치 및 재생 방법 | |
KR20040101245A (ko) | 키 오디오/비디오 세그먼트를 찾기 위한 복사부 정보의 사용 | |
JP2004517528A (ja) | ビデオ番組が以前に記録されているかを判定するシステム及び方法 | |
KR20080014872A (ko) | 콘텐트 아이템 바운더리들을 검출하기 위한 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041207 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20050601 |