JP2009077256A - 信号処理装置、信号処理方法、およびプログラム - Google Patents

信号処理装置、信号処理方法、およびプログラム Download PDF

Info

Publication number
JP2009077256A
JP2009077256A JP2007245570A JP2007245570A JP2009077256A JP 2009077256 A JP2009077256 A JP 2009077256A JP 2007245570 A JP2007245570 A JP 2007245570A JP 2007245570 A JP2007245570 A JP 2007245570A JP 2009077256 A JP2009077256 A JP 2009077256A
Authority
JP
Japan
Prior art keywords
detection system
content
feature
section
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007245570A
Other languages
English (en)
Other versions
JP4433027B2 (ja
Inventor
Noboru Murabayashi
昇 村林
Hiroshige Okamoto
裕成 岡本
Taka Murakoshi
象 村越
Masaru Miyamoto
勝 宮本
Tsutomu Seki
力 関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007245570A priority Critical patent/JP4433027B2/ja
Priority to US12/283,937 priority patent/US8325803B2/en
Publication of JP2009077256A publication Critical patent/JP2009077256A/ja
Application granted granted Critical
Publication of JP4433027B2 publication Critical patent/JP4433027B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/4147PVR [Personal Video Recorder]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/59Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】階層的な特徴の検出を、柔軟に、かつ効率的に行うことができるようにする。
【解決手段】低レベル特徴検出系31は、コンテンツの画像信号、音声信号を解析することによって直接得られる特徴を検出する処理系であり、中レベル特徴検出系32は、低レベル特徴検出系31により得られた検出結果に基づいて特徴を検出する処理系であり、高レベル特徴検出系33は、中レベル特徴検出系32により得られた検出結果に基づいて特徴を検出する処理系である。信号処理装置においては、低レベル特徴検出系31により低レベルの特徴が検出され、中レベル特徴検出系32により中レベルの特徴が検出され、高レベル特徴検出系33により高レベルの特徴が検出されるといったように、特徴の検出がいわば階層的に行われる。本発明は、コンテンツを扱う録画機器に適用することができる。
【選択図】図4

Description

本発明は、信号処理装置、信号処理方法、およびプログラムに関し、特に、階層的な特徴の検出を、柔軟に、かつ効率的に行うことができるようにした信号処理装置、信号処理方法、およびプログラムに関する。
近年、ハードディスクレコーダなどの録画機器が普及してきている。今後はハードディスクの大容量化、圧縮技術の向上などに伴い、録画機器に記録させておくことのできるコンテンツの数がますます増えていくものと考えられる。
そこで、録画機器に記録させておいた大量のコンテンツを効率よく管理、視聴できるようにすることが要求されると考えられることから、それを実現するための技術が各種提案されている。
例えば、コンテンツの画像信号や音声信号を解析することによって特徴を検出し、検出した特徴に基づいてチャプタを自動的に設定したり、検出した特徴から特定される代表的なシーンだけを連続的に再生するダイジェスト再生を行ったりする技術がある。ユーザは、録画機器により自動的に設定されたチャプタを指定することによって、見たいシーンからコンテンツを再生させたり、ダイジェスト再生によってコンテンツ全体の概要を短時間で確認したりすることができる。
ところで、このようなチャプタの設定やダイジェスト再生には、コンテンツ中に含まれるCM(Commercial Message)の位置、人の顔が映っているかどうか、盛り上がりのシーンであるかどうか、などの複数の特徴が考慮される。
また、チャプタの設定やダイジェスト再生に考慮されるCMの位置、人の顔が映っているシーンであるかどうか、盛り上がりのシーンであるかどうかなどの特徴自体も、コンテンツ中に含まれるシーンチェンジの位置、フェードイン、フェードアウトの位置、人による発話のあるシーンであるかどうか、などの複数の特徴を考慮して決定される。
さらに、CMの位置、人の顔が映っているシーンであるかどうか、盛り上がりのシーンであるかどうかなどを決定するのに考慮されるシーンチェンジの位置、フェードイン、フェードアウトの位置、人による発話のあるシーンであるかどうかなどの特徴自体も、コンテンツの画像信号の輝度、色、音声信号のパワー、周波数などの複数の特徴を考慮して決定される。
すなわち、最終的に行われるチャプタの設定やダイジェスト再生は、コンテンツの画像信号の輝度、色、音声信号のパワー、周波数などの内容的にレベルの低い特徴を検出する処理と、CMの位置、人の顔が映っているシーンであるかどうか、盛り上がりのシーンであるかどうかなどの内容的にレベルの高い特徴を低レベルの特徴の検出結果に基づいて検出する処理といったように、階層的な特徴の検出を経て実現される。
特許文献1には、画像を構成する成分のヒストグラムを生成し、生成したヒストグラムに基づいて、シーンチェンジを検出する技術が開示されている。
特開2004−282318号公報
従来の階層的な特徴の検出においては、低レベルの特徴を検出する処理と高レベルの特徴を検出する処理の関係は固定であり、柔軟に、かつ効率的に特徴の検出を行うことができないことがあった。
例えば、ある高レベルの特徴を検出する処理が、第1と第2の低レベルの特徴を用いて行われるように設計されている場合、その高レベルの特徴の検出を第1と第2の低レベルの特徴以外の第3の低レベルの特徴をも用いて行った方がよい結果を効率的に得ることができるといったことが後から判明した場合であっても、それに応じて、高レベルの特徴の検出に用いる特徴を変更することができないことがあった。
本発明はこのような状況に鑑みてなされたものであり、階層的な特徴の検出を、柔軟に、かつ効率的に行うことができるようにするものである。
本発明の一側面の信号処理装置は、コンテンツの画像信号と音声信号から、それぞれ異なる特徴を表す複数の第1の特徴データを検出する第1の特徴検出手段と、前記第1の特徴検出手段により検出された複数の前記第1の特徴データのそれぞれに対して、前記第1の特徴データに基づいてデータを検出する特徴に応じた重みをコンテンツ毎またはコンテンツのジャンル毎に変えて設定する設定手段と、前記設定手段により重みが設定された複数の前記第1の特徴データに基づいて、それぞれ異なる特徴を表す複数の第2の特徴データを検出する第2の特徴検出手段とを備える。
前記第2の特徴検出手段により検出された複数の前記第2の特徴データに基づいて、選択することを許容する、コンテンツに関する操作を決定し、ユーザに提示する提示手段と、前記提示手段により提示された操作の中からユーザにより選択された操作を実行する実行手段とをさらに設けることができる。
前記提示手段には、画面表示または音声出力によって、選択することを許容するコンテンツに関する操作を提示させることができる。
前記第1の特徴検出手段は、音声信号に基づいて前記第1の特徴データを検出する複数の処理系と、画像信号に基づいて前記第1の特徴データを検出する複数の処理系を有しており、それぞれの処理系において前記第1の特徴データを検出し、前記第2の特徴検出手段は複数の処理系を有しており、それぞれの処理系において前記第2の特徴データを検出することができる。
本発明の一側面の信号処理方法またはプログラムは、コンテンツの画像信号と音声信号から、それぞれ異なる特徴を表す複数の第1の特徴データを検出し、検出した複数の前記第1の特徴データのそれぞれに対して、前記第1の特徴データに基づいてデータを検出する特徴に応じた重みをコンテンツ毎またはコンテンツのジャンル毎に変えて設定し、重みを設定した複数の前記第1の特徴データに基づいて、それぞれ異なる特徴を表す複数の第2の特徴データを検出するステップを含む。
本発明の一側面においては、コンテンツの画像信号と音声信号から、それぞれ異なる特徴を表す複数の第1の特徴データが検出され、検出された複数の前記第1の特徴データのそれぞれに対して、前記第1の特徴データに基づいてデータを検出する特徴に応じた重みがコンテンツ毎またはコンテンツのジャンル毎に変えて設定され、重みが設定された複数の前記第1の特徴データに基づいて、それぞれ異なる特徴を表す複数の第2の特徴データが検出される。
本発明の一側面によれば、階層的な特徴の検出を、柔軟に、かつ効率的に行うことができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外には対応しないものであることを意味するものでもない。
本発明の一側面の信号処理装置(例えば、図1の信号処理装置1)は、コンテンツの画像信号と音声信号から、それぞれ異なる特徴を表す複数の第1の特徴データを検出する第1の特徴検出手段(例えば、図4の中レベル特徴検出系32)と、前記第1の特徴検出手段により検出された複数の前記第1の特徴データのそれぞれに対して、前記第1の特徴データに基づいてデータを検出する特徴に応じた重みをコンテンツ毎またはコンテンツのジャンル毎に変えて設定する設定手段(例えば、図4の重み係数設定系35)と、前記設定手段により重みが設定された複数の前記第1の特徴データに基づいて、それぞれ異なる特徴を表す複数の第2の特徴データを検出する第2の特徴検出手段(例えば、図4の高レベル特徴検出系33)とを備える。
前記第2の特徴検出手段により検出された複数の前記第2の特徴データに基づいて、選択することを許容する、コンテンツに関する操作を決定し、ユーザに提示する提示手段(例えば、図4の動作モード判定系37)と、前記提示手段により提示された操作の中からユーザにより選択された操作を実行する実行手段(例えば、図4の動作モード実行系34)とをさらに設けることができる。
本発明の一側面の信号処理方法またはプログラムは、コンテンツの画像信号と音声信号から、それぞれ異なる特徴を表す複数の第1の特徴データを検出し、検出した複数の前記第1の特徴データのそれぞれに対して、前記第1の特徴データに基づいてデータを検出する特徴に応じた重みをコンテンツ毎またはコンテンツのジャンル毎に変えて設定し、重みを設定した複数の前記第1の特徴データに基づいて、それぞれ異なる特徴を表す複数の第2の特徴データを検出するステップ(例えば、図16のステップS53)を含む。
以下、本発明の実施の形態について図を参照して説明する。
図1は、本発明の一実施形態に係る信号処理装置1を示す図である。
信号処理装置1はハードディスクを内蔵するデジタル録画機器である。信号処理装置1には、ケーブルを介してテレビジョン受像機2が接続される。
信号処理装置1は、BS(Broadcasting Satellite)/CS(Communications Satellite)デジタル放送、地上デジタル放送、またはインターネットを介して行われる放送によって提供されるコンテンツ(番組)の映像や音声をテレビジョン受像機2から出力させたり、コンテンツをハードディスクに記録させ、録画を行ったりする。すなわち、信号処理装置1には、図示せぬアンテナからの信号などが供給されるようになされている。信号処理装置1は、録画済みのコンテンツをユーザによる指示に応じて再生し、コンテンツの映像や音声をテレビジョン受像機2から出力させる。
また、信号処理装置1は、放送波やインターネットを介して放送局などによって配信されるEPG(Electronic Program Guide)データを取得し、管理する。EPGデータには、それぞれのコンテンツについて、コンテンツのタイトル、放送日時、ジャンル、出演者などのコンテンツに関する情報が含まれる。
信号処理装置1は、例えば録画済みのコンテンツのタイトルが一覧表示されるタイトルリストの画面から所定のコンテンツが選択されたとき、選択されたコンテンツを用いて行うことができる操作をユーザに提示する機能を有する。ユーザに提示する操作は、コンテンツの画像信号、音声信号から検出された特徴に基づいて選択される。
チャプタ自動生成モード、レーベルイメージ生成モード、ダイジェスト再生モード、タイトル自動生成モード、自動編集モードなどの動作モード(操作)が信号処理装置1には用意されており、その中から選択された動作モードがユーザに提示される。
チャプタ自動生成モードは録画済みのコンテンツにチャプタを自動的に設定するモードであり、レーベルイメージ生成モードは録画済みのコンテンツをダビングした光ディスクのレーベル面の画像(レーベルイメージ)を自動的に作成するモードである。
ダイジェスト再生モードは録画済みのコンテンツのダイジェスト再生を行うモードであり、タイトル自動生成モードは録画済みのコンテンツを元に他のタイトルを自動的に生成するモードである。自動編集モードのは録画済みのコンテンツのカット編集を自動的に行うモードである。
ユーザは、選択可能なものとして提示された動作モードの中から所定の動作モードを選択し、選択した動作モードの処理を実行させることができる。
図2は、動作モードの提示画面の例を示す図である。
図2の例においては、「コンテンツA」が選択され、チャプタ自動生成モード、レーベルイメージ生成モード、ダイジェスト再生モード、タイトル自動生成モード、自動編集モードのうち、チャプタ自動生成モード、ダイジェスト再生モード、タイトル自動生成モードの3つの動作モードが選択可能な動作モードとしてユーザに提示されている。
ユーザは、選択可能とされている動作モードのボタンを押すことによって、その動作モードを実行させることができる。図2において、ボタンが実線で示されていることは、そのボタンに名前が表示されている動作モードを選択することができることを表し、点線で示されていることは、そのボタンに名前が表示されている動作モードを選択することができないことを表す。
例えば、ボタンが操作されることによって図2の画面からチャプタ自動生成モードが選択されたとき、「コンテンツA」の解析結果に基づいて、CMの開始位置、終了位置、シーンの切り替わりの位置などの所定の位置に、ユーザによる操作によらずに自動的にチャプタを設定する処理が信号処理装置1により行われる。ユーザは、信号処理装置1により設定されたチャプタを選択することで、好みのシーンから「コンテンツA」の再生を開始させることができる。
コンテンツの特徴を検出し、動作モードを提示する信号処理装置1の処理についてはフローチャートを参照して後述する。
図3は、信号処理装置1のハードウエア構成例を示すブロック図である。
CPU(Central Processing Unit)11は、ROM(Read Only Memory)12、または記録部19に記録されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)13には、CPU11が実行するプログラムやデータなどが適宜記録される。これらのCPU11、ROM12、およびRAM13は、バス14により相互に接続されている。
CPU11にはまた、バス14を介して入出力インタフェース15が接続されている。入出力インタフェース15には、受信部16、入力部17、出力部18、記録部19、通信部20、およびドライブ21が接続されている。
受信部16は、アンテナ16Aからの放送波信号を受信、復調し、MPEG-TS(Moving Picture Experts Group-Transport Stream)を取得する。受信部16は、録画の対象になっているコンテンツやEPGデータをMPEG-TSから取得し、取得したデータを入出力インタフェース15を介して記録部19に出力する。
入力部17は、リモートコントローラからの信号を受信し、ユーザの操作の内容を表す情報を入出力インタフェース15、バス14を介してCPU11に出力する。
出力部18は、再生が指示されたコンテンツのデータをデコードし、得られた映像信号に基づいて、コンテンツの映像をテレビジョン受像機2に表示させる。
記録部19は例えばハードディスクからなり、CPU11が実行するプログラムや、入出力インタフェース15を介して受信部16から供給されたコンテンツ、EPGデータなどの各種のデータを記録する。家庭用のビデオカメラで撮影されたコンテンツが信号処理装置1に取り込まれた場合、記録部19には、その取り込まれたコンテンツも記録される。
通信部20は、サーバと通信を行い、インターネットを介して行われる放送によって配信されるコンテンツのデータや、サーバが配信するEPGデータを取得する。通信部20は、取得したデータを入出力インタフェース15を介して記録部19に出力し、記録させる。
ドライブ21は、装着された光ディスクなどのリムーバブルメディア22に録画済みのコンテンツをダビングしたり、リムーバブルメディア22に記録されているプログラムやデータを取得したりする。取得されたプログラムやデータは、必要に応じて記録部19に転送され、記録される。
図4は、信号処理装置1の機能構成例を示すブロック図である。図4に示す機能部のうちの少なくとも一部は、図3のCPU11により所定のプログラムが実行されることによって実現される。
図4に示されるように、信号処理装置1においては、低レベル特徴検出系31、中レベル特徴検出系32、高レベル特徴検出系33、動作モード実行系34、重み係数設定系35、重み係数DB36、および動作モード判定系37が実現される。
低レベル特徴検出系31は、コンテンツの画像信号を対象として処理を行う処理系であるエッジ検出系31A、輝度検出系31B、色信号検出系31Cと、コンテンツの音声信号を対象として処理を行う処理系であるパワー検出系31D、周波数解析系31Eから構成される。低レベル特徴検出系31に対しては、タイトルリストの画面からユーザにより選択されるなどして特徴検出の対象となったコンテンツの画像信号と音声信号が供給される。タイトルリストの画面から選択されたときに特徴を検出する処理が行われるのではなく、タイトルリストの画面から選択される前にあらかじめ処理が行われるようにしてもよい。
中レベル特徴検出系32は、カット点検出系32A、フェード区間検出系32B、テロップ区間検出系32C、動きベクトル検出系32D、ブロック特徴検出系32E、無音区間検出系32F、話者区間検出系32G、および音楽区間検出系32Hから構成される。
高レベル特徴検出系33は、CM検出系33A、類似画像検出系33B、顔検出系33C、盛り上がり区間検出系33D、キーフレーム検出系33E、および人物検出系33Fから構成される。
動作モード実行系34は、チャプタ自動生成系34A、レーベルイメージ生成系34B、ダイジェスト再生系34C、タイトル自動生成系34D、および自動編集系34Eから構成される。
低レベル特徴検出系31は、コンテンツの画像信号、音声信号を解析することによって直接得られる特徴を検出する処理系であり、中レベル特徴検出系32は、低レベル特徴検出系31により得られた検出結果に基づいて特徴を検出する処理系である。高レベル特徴検出系33は、中レベル特徴検出系32により得られた検出結果に基づいて特徴を検出する処理系である。
すなわち、中レベル特徴検出系32により検出される特徴は低レベル特徴検出系31により検出された特徴に基づいて検出されるものであるから、低レベル特徴検出系31により検出される特徴より内容的にレベルの高い特徴といえる。また、高レベル特徴検出系33により検出される特徴は中レベル特徴検出系32により検出された特徴に基づいて検出されるものであるから、中レベル特徴検出系32により検出される特徴より内容的にレベルの高い特徴といえる。
このように、信号処理装置1においては、低レベル特徴検出系31により低レベルの特徴が検出され、中レベル特徴検出系32により中レベルの特徴が検出され、高レベル特徴検出系33により高レベルの特徴が検出されるといったように、特徴の検出がいわば階層的に行われる。
低レベル特徴検出系31のエッジ検出系31Aは、コンテンツの画像信号に基づいてエッジを検出し、フレーム内のエッジの位置を表す情報などを中レベル特徴検出系32のカット点検出系32A乃至ブロック特徴検出系32Eに出力する。
エッジは信号が変化する部分であるため、信号の変化分を取り出す微分を用いて検出する方式が一般的である。エッジ検出系31Aは、例えば、次式(1)により画像の水平方向の微分量fxと垂直方向(Y方向)の微分量fyを算出する。
Figure 2009077256
式(1)においてs(i,j)は、X方向の座標位置がiであり、Y方向の座標位置がjである画素の値を表す。
また、エッジ検出系31Aは、算出した微分量に基づいて、座標位置(i,j)におけるエッジの強さe(i,j)を下式(2)により算出する。
Figure 2009077256
エッジ検出系31Aは、式(2)により算出したエッジの強さが閾値を超える場合、その画素の位置をエッジの位置として検出し、検出結果を出力する。他の方法によりエッジの検出が行われるようにしてもよい。
輝度検出系31Bは、コンテンツの画像信号から各画素の輝度を検出し、輝度の情報を中レベル特徴検出系32のカット点検出系32A、フェード区間検出系32B、動きベクトル検出系32D、ブロック特徴検出系32Eに出力する。
色信号検出系31Cは、コンテンツの画像信号から各画素の色信号を検出し、色信号の情報を中レベル特徴検出系32のカット点検出系32A、動きベクトル検出系32D、ブロック特徴検出系32Eに出力する。
パワー検出系31Dは、コンテンツの音声信号から音声のパワーを検出し、音声のパワーの情報を中レベル特徴検出系32のカット点検出系32A、無音区間検出系32F、話者区間検出系32G、音楽区間検出系32Hに出力する。
周波数解析系31Eは、コンテンツの音声信号を対象として周波数解析を行い、各周波数帯域に含まれる音声の情報を中レベル特徴検出系32のカット点検出系32A、無音区間検出系32F、話者区間検出系32G、音楽区間検出系32Hに出力する。
中レベル特徴検出系32のカット点検出系32Aは、低レベル特徴検出系31の各処理系から供給された検出結果に基づいてカット点(シーンチェンジ点)を検出し、カット点の位置を表す情報を高レベル特徴検出系33のCM検出系33A、類似画像検出系33B、顔検出系33C、キーフレーム検出系33Eに出力する。
カット点を検出するとき、カット点検出系32Aは、低レベル特徴検出系31の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行う。低レベル特徴検出系31の各処理系から供給された検出結果が数値で表される場合、カット点検出系32Aは、それぞれの検出結果に重み係数を乗算し、重み係数を乗算した検出結果に基づいてカット点の検出を行う。
低レベル特徴検出系31の各処理系から供給された検出結果のうち、カット点の検出において特に重要な検出結果に対しては、カット点の検出結果に大きく寄与することになるような重み係数が設定され、あまり重要でない検出結果に対しては、カット点の検出結果にあまり寄与することにならないような重み係数が設定される。
具体的には、カット点検出系32Aは、各フレームの画像を所定の数の領域に分割し、領域毎に求められる輝度情報、色信号情報(色差情報)の平均値に基づいてフレーム間差分演算、またはフィールド間差分演算を行い、差分を閾値と比較することによってカット点を検出する。例えば、カット点がない場合、各領域のフレーム間、またはフィールド間差分は閾値より小さくなり、カット点がある場合、閾値より大きくなる。
すなわち、この場合、低レベル特徴検出系31の各処理系から供給された検出結果のうち、輝度検出系31Bから供給された検出結果と色信号検出系31Cから供給された検出結果に対して、大きな重み係数が設定されることになる。
フェード区間検出系32Bは、低レベル特徴検出系31の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、フェード区間を検出する。フェード区間検出系32Bは、検出したフェード区間の位置を表す情報を高レベル特徴検出系33の類似画像検出系33B、顔検出系33C、およびキーフレーム検出系33Eに出力する。
テロップ区間検出系32Cは、低レベル特徴検出系31の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、テロップが表示される区間であるテロップ区間を検出する。テロップ区間検出系32Cは、検出したテロップ区間の位置を表す情報を高レベル特徴検出系33の盛り上がり区間検出系33D、およびキーフレーム検出系33Eに出力する。例えば、フレームの下方の所定の範囲内にエッジが多く検出され、そのような状態が所定の区間だけ続いている場合、その区間はテロップ区間であるとして検出される。
動きベクトル検出系32Dは、低レベル特徴検出系31の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、対応する画素の移動方向と移動量を表す動きベクトルを検出する。動きベクトル検出系32Dは、検出した動きベクトルの情報を高レベル特徴検出系33の類似画像検出系33B、顔検出系33C、盛り上がり区間検出系33D、キーフレーム検出系33Eに出力する。
ブロック特徴検出系32Eは、低レベル特徴検出系31の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、1フレームの画像を分割した領域毎の輝度の平均、色信号の平均などのブロック特徴を検出する。ブロック特徴検出系32Eは、検出したブロック特徴の情報を高レベル特徴検出系33の類似画像検出系33B、顔検出系33C、盛り上がり区間検出系33D、キーフレーム検出系33Eに出力する。
無音区間検出系32Fは、低レベル特徴検出系31の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、無音区間を検出する。無音区間検出系32Fは、検出した無音区間の情報を高レベル特徴検出系33のCM検出系33A、盛り上がり区間検出系33D、キーフレーム検出系33E、および人物検出系33Fに出力する。
話者区間検出系32Gは、低レベル特徴検出系31の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、人の発話がある区間である話者区間を検出する。話者区間検出系32Gは、検出した話者区間の情報を高レベル特徴検出系33の盛り上がり区間検出系33D、キーフレーム検出系33E、および人物検出系33Fに出力する。
音楽区間検出系32Hは、低レベル特徴検出系31の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、音楽が流れている区間である音楽区間を検出する。音楽区間検出系32Hは、検出した音楽区間の情報を高レベル特徴検出系33の盛り上がり区間検出系33Dとキーフレーム検出系33Eに出力する。
高レベル特徴検出系33のCM検出系33Aは、中レベル特徴検出系32の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、CM区間の検出を行う。
日本で放送されるテレビCMを考えた場合、15秒の整数倍の時間毎に無音区間を検出できるという特徴がある。従って、CM検出系33Aは、無音区間検出系32Fから供給された検出結果が、そのような15秒の整数倍の時間毎に無音区間が検出されたことを表すようなものである場合、無音区間と無音区間の間をテレビCMの区間として検出する。この場合、中レベル特徴検出系32から供給された検出結果のうち、無音区間検出系32Fから供給された検出結果に対して大きな重み係数が乗算され、CM区間の検出が行われることになる。
CM検出系33Aは、検出したCM区間を表す情報を動作モード実行系34と動作モード判定系37に出力する。
類似画像検出系33Bは、中レベル特徴検出系32の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、類似画像が連続する区間を検出する。例えば、類似画像検出系33Bは、動きベクトル検出系32Dにより検出された動きベクトルとブロック特徴検出系32Eにより検出されたブロック特徴から、同じような画像が続いていると判断されたシーンに含まれる画像を類似画像として判断する。
類似画像検出系33Bは、検出した類似画像の区間を表す情報を動作モード実行系34と動作モード判定系37に出力する。
顔検出系33Cは、中レベル特徴検出系32の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、人の顔を検出する。例えば、顔検出系33Cは、ブロック特徴検出系32Eにより検出されたブロック特徴から輪郭や顔の各部分を検出した場合、その輪郭の部分を人の顔として検出する。
顔検出系33Cは、検出した人の顔の数やフレーム内の位置などの情報を動作モード実行系34と動作モード判定系37に出力する。
盛り上がり区間検出系33Dは、中レベル特徴検出系32の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、コンテンツの内容が盛り上がっている盛り上がり区間を検出する。例えば、盛り上がり区間検出系33Dは、テロップ区間検出系32Cによりテロップが頻繁に現れるとして検出された区間であって、話者区間検出系32Gにより人の発言が頻繁に現れるとして検出された区間を盛り上がり区間として検出する。
盛り上がり区間検出系33Dは、検出した盛り上がり区間の情報を動作モード実行系34と動作モード判定系37に出力する。
キーフレーム検出系33Eは、中レベル特徴検出系32の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、コンテンツの内容を表していると考えられるフレームであるキーフレームを検出する。キーフレーム検出系33Eは、検出したキーフレームの情報を動作モード実行系34と動作モード判定系37に出力する。
人物検出系33Fは、中レベル特徴検出系32の各処理系から供給された検出結果に対して、重み係数設定系35により設定された重み係数に基づいて重み付けを行い、人物の有無を検出する。人物検出系33Fは、検出した人物の有無を表す情報を動作モード実行系34と動作モード判定系37に出力する。
このように、低レベル特徴検出系31の各処理系と中レベル特徴検出系32の各処理系はネットワーク的に接続され、中レベル特徴検出系32の各処理系と高レベル特徴検出系33の各処理系はネットワーク的に接続される。これにより、後段の処理系においては、前段の処理系からの検出結果を重み係数に応じて寄与させて特徴の検出を行うことが可能になる。
なお、図4に示される各処理系の接続関係は適宜変更可能である。例えば、中レベル特徴検出系32の全ての処理系が高レベル特徴検出系33のCM検出系33Aに接続され、中レベル特徴検出系32の全ての処理系の検出結果がCM検出系33Aに供給されるようにしてもよい。
図5は、中レベル特徴検出系32の各処理系と高レベル特徴検出系33の各処理系において行われる重み付けの例を示す図である。
ここでは、CM検出系33Aにおいて行われるCM検出のときの重み付けについて説明するが、他の処理系においても同様にして重み付けが行われる。
図5の例においては、カット点検出系32Aにより検出されたカット点の特徴を表す特徴データf1は乗算器m1に入力され、フェード区間検出系32Bにより検出されたフェード区間の特徴を表す特徴データf2は乗算器m2に入力される。音楽区間検出系32Hにより検出された音楽区間の特徴を表す特徴データfmは乗算器mmに入力される。
また、図5の例においては、乗算器m1に対しては重み係数w1が設定され、乗算器m2に対しては重み係数w2が設定されている。また、乗算器mmに対しては重み係数wmが設定されている。
それぞれの乗算器に設定される重み係数は、信号処理装置1の開発時に学習によって得られたものである。信号処理装置1が製品として販売された後、信号処理装置1のファームウエアのアップデートによって重み係数が更新されるようにしてもよい。
乗算器m1は、特徴データf1と重み係数w1を乗算し、乗算結果を加算器p1に出力する。乗算器m2は、特徴データf2と重み係数w2を乗算し、乗算結果を加算器p1に出力する。乗算器mmは、特徴データfmと重み係数wmを乗算し、乗算結果を加算器p1に出力する。
加算器p1は、それぞれの乗算器から供給された乗算結果を加算して得られた値Fと閾値Fthを比較し、値Fが閾値Fthより大きいか否かを判定する。加算器p1は、値Fが閾値Fthより大きい場合、対象となっている区間がCM区間であると判定し、CM区間が検出されたことを表す検出結果を出力する。
この場合、値Fと学習時に求められていた値に基づいて出力の確からしさが計算により求められ、出力されるようにしてもよい。例えば、CM検出の学習時に求められていた後述する最終出力(または、収束出力値)が100とすると、実際の検出時に出力値が70として求められた場合には、CM検出の確からしさは70%として評価できることになる。
図4の説明に戻り、動作モード実行系34のチャプタ自動生成系34Aは、チャプタ自動生成モードの処理を実行することがユーザにより選択されたとき、高レベル特徴検出系33の各処理系から供給された検出結果に基づいて、対象になっているコンテンツの所定の位置にチャプタを設定する。
例えば、チャプタ自動生成系34Aは、CM検出系33Aにより検出されたCM区間の開始位置、終了位置にチャプタを設定したり、盛り上がり区間検出系33Dにより検出された盛り上がり区間の開始位置、終了位置にチャプタを設定したりする。また、チャプタ自動生成系34Aは、CM検出系33AによりCM区間が検出されなかった場合や盛り上がり区間検出系33Dにより盛り上がり区間が検出されなかった場合、一定時間毎にチャプタを設定する。
レーベルイメージ生成系34Bは、レーベルイメージ生成モードの処理を実行することがユーザにより選択されたとき、高レベル特徴検出系33の各処理系から供給された検出結果に基づいて、対象になっているコンテンツのレーベルイメージを生成する。
例えば、レーベルイメージ生成系34Bは、顔検出系33Cにより検出された顔が映っているフレーム、キーフレーム検出系33Eにより検出されたキーフレームや、記録部19に記録されているEPGデータから取得される、コンテンツのタイトル、放送日時、チャンネル番号などのテキスト情報を所定の位置に配置し、レーベルイメージを生成する。
図6A乃至図6Cは、レーベルイメージの例を示す図である。
図6Aは、複数の画像とテキスト情報を含むモードAのレーベルイメージの例を示す図であり、図6Bは、1つの画像とテキスト情報を含むモードBのレーベルイメージの例を示す図である。図6Cは、テキスト情報だけを含むモードCのレーベルイメージの例を示す図である。図6A、図6Bにおいて長方形の枠は画像を表し、図6A乃至図6Cに示されるテキスト情報は例えばEPGデータから取得された情報である。
どのモードのレーベルイメージを生成するかは、ユーザが選択することができるようにしてもよいし、どのモードが適しているかが高レベル特徴検出系33の検出結果に応じて動作モード判定系37により判定され、適しているとして判定されたモードがユーザに提示されるようにしてもよい。
例えば、キーフレームの画像を用いてレーベルイメージが生成されるようになされている場合、キーフレーム検出系33Eにより複数のキーフレームが検出されたときにはモードAが適しているとして判定され、キーフレーム検出系33Eによりキーフレームが1つだけ検出されたときにはモードBが適しているとして判定される。キーフレーム検出系33Eによりキーフレームが検出されなかったときにはモードCが適しているとして判定される。
ダイジェスト再生系34Cは、ダイジェスト再生モードの処理を実行することがユーザにより選択されたとき、高レベル特徴検出系33の各処理系から供給された検出結果に基づいて、対象になっているコンテンツを所定の時間内で再生できるように圧縮し、ダイジェスト再生を行う。ダイジェスト再生においては、コンテンツ全体の概要をユーザが把握できるような区間が再生される。
図7は、ダイジェスト再生の対象となる区間の例を示す図である。
図7の例においては、1つの長方形の枠は所定の数のフレームからなる区間を表し、1乃至3の番号が付されている区間がキーフレームを含む区間としてキーフレーム検出系33Eにより判定されている。この場合、ダイジェスト再生系34Cにおいては、図7の下向きの矢印の先に示されるように、1乃至3の番号が付されている区間が再生されることによってダイジェスト再生が行われる。
人物検出系33Fにより検出された人物区間がダイジェスト再生の対象とされるようにしてもよい。また、話者区間検出系32Gにより検出された話者区間の情報がダイジェスト再生系34Cにも供給されるようになされている場合、話者区間がダイジェスト再生の対象とされるようにしてもよい。
なお、1分程度の再生時間しかない短いコンテンツを10秒のように再生時間(録画時間)が極端に短いコンテンツに圧縮してもユーザはコンテンツの内容をほとんど把握することができない。従って、ダイジェスト再生モードの処理を実行することがユーザにより選択されたとき、許容できる圧縮率がコンテンツの再生時間に応じて動作モード判定系37により自動的に判定され、選択可能な圧縮率がユーザに提示されるようにしてもよい。
図8は、コンテンツの圧縮率の例を示す図である。
図8の横軸はコンテンツの録画時間を示し、縦軸は圧縮率を示す。図8の例においては、録画時間が5分までのコンテンツについては圧縮率が1、すなわちダイジェスト再生を行うことができないものとされ、録画時間が5分から20分のコンテンツについては圧縮率を3/4としてダイジェスト再生を行うことが許容されている。
また、録画時間が20分から40分のコンテンツについては圧縮率を1/2としてダイジェスト再生を行うことが許容され、録画時間が40分から60分のコンテンツについては圧縮率を1/4としてダイジェスト再生を行うことが許容されている。
例えば、再生時間が60分のコンテンツが対象になっている場合、3/4,1/2,1/4の3種類の圧縮率が提示され、ユーザは、提示された圧縮率の中から好みの圧縮率を選択することができる。
図4のタイトル自動生成系34Dは、タイトル自動生成モードの処理を実行することがユーザにより選択されたとき、高レベル特徴検出系33の各処理系から供給された検出結果に基づいて、対象になっているコンテンツを元に他のタイトルを自動的に生成する。
自動編集系34Eは、自動編集モードの処理を実行することがユーザにより選択されたとき、高レベル特徴検出系33の各処理系から供給された検出結果に基づいて、対象になっているコンテンツのカット編集を行う。
図9は、カット編集の例を示す図である。
図9においても、1つの長方形の枠は所定の数のフレームからなる区間を表す。図9の例においては、1乃至3の番号が付されている区間、4乃至6の番号が付されている区間、および、7,8の番号が付されている区間が編集有効区間として自動編集系34Eにより判定されている。
この場合、自動編集系34Eにおいては、図9の下向きの矢印の先に示されるように、編集有効区間の画像だけが切り出されることによってカット編集が行われる。カット点となる3の番号が付されている区間と4の番号が付されている区間の間の位置、6の番号が付されている区間と7の番号が付されている区間の間の位置にクロスフェードなどの映像効果が施されるようにしてもよい。
例えば、人の顔が映っているとして顔検出系33Cにより検出された区間が編集有効区間として判定される。家庭用のビデオカメラで撮影したコンテンツが信号処理装置1に取り込まれ、そのコンテンツが処理対象のコンテンツになっている場合、家庭用のビデオカメラでは人を撮影することが多いと考えられるから、人の顔が映っている区間が切り出されるようにすることは有効な処理となる。
なお、編集有効区間を決定するモードとして、人の顔が映っている区間を編集有効区間とする顔中心編集モードと、人の顔が映っている区間と人の顔が映っていない区間を半分くらいずつ編集有効区間とする通常モード(デフォルト編集モード)が用意されるようにしてもよい。
2つのモードのうちのいずれのモードによってカット編集を行うのかは、自動編集モードの処理を行うことを指示した後にユーザが手動で選択するようにしてもよいし、人物が検出された時間に応じて自動編集系34Eにより自動的に選択されるようにしてもよい。例えば、コンテンツの再生時間全体に対して、人物が検出された時間の割合が閾値より高い場合、顔中心編集モードが選択され、閾値より低い場合、通常モードが選択される。
図4の重み係数設定系35は、処理対象のコンテンツ自体やコンテンツのジャンルに応じて重み係数を重み係数DB36から読み出し、読み出した重み係数を、中レベル特徴検出系32と高レベル特徴検出系33の各処理系に設定する。処理対象のコンテンツが変わる毎に、または処理対象のコンテンツのジャンルが変わる毎に、異なる重み係数が設定されることになる。
動作モード判定系37は、高レベル特徴検出系33の各処理系から供給された検出結果に基づいて、処理対象のコンテンツを対象としてユーザが選択することができる動作モードを選択する。動作モード判定系37は、出力部18を制御して図2に示されるような画面をテレビジョン受像機2に表示させ、選択可能な動作モードをユーザに提示する。
ここで、重み係数の学習について説明する。
図10は、重み係数の学習を行う学習装置51を示す図である。
学習装置51はパーソナルコンピュータなどによって実現される。学習装置51による重み係数の学習は例えば信号処理装置1の開発時に行われる。
図10に示されるように、学習装置51に対しては、教師データとなるコンテンツが入力される。教師データからは特徴の検出結果が出力され、それを確認した開発者による操作に応じて重み係数が調整される。調整が繰り返されることによって最終的に得られた重み係数が重み係数DB36に記録され、上述したような実際の特徴の検出に用いられる。
図11は、学習装置51の機能構成例を示すブロック図である。図11に示す機能部のうちの少なくとも一部は、学習装置51のCPUにより所定のプログラムが実行されることによって実現される。
図11に示されるように、学習装置51においては、信号処理装置1の低レベル特徴検出系31、中レベル特徴検出系32、高レベル特徴検出系33に対応する形で、低レベル特徴検出系61、中レベル特徴検出系62、高レベル特徴検出系63が実現される。重複する説明については適宜省略する。また、学習装置51においては重み係数設定系64も実現される。
低レベル特徴検出系61、中レベル特徴検出系62、高レベル特徴検出系63の各処理系は、信号処理装置1の低レベル特徴検出系31、中レベル特徴検出系32、高レベル特徴検出系33の各処理系にそれぞれ対応する。
すなわち、低レベル特徴検出系61のエッジ検出系61Aは、教師データとなるコンテンツの画像信号に基づいてエッジを検出し、検出結果を中レベル特徴検出系62のカット点検出系62A乃至ブロック特徴検出系62Eに出力する。
輝度検出系61Bは、コンテンツの画像信号に基づいて輝度を検出し、検出結果を中レベル特徴検出系62のカット点検出系62A、フェード区間検出系62B、動きベクトル検出系62D、ブロック特徴検出系62Eに出力する。
色信号検出系61Cは、コンテンツの画像信号から各画素の色信号を検出し、検出結果を中レベル特徴検出系62のカット点検出系62A、テロップ区間検出系62C、動きベクトル検出系62D、ブロック特徴検出系62Eに出力する。
パワー検出系61Dは、コンテンツの音声信号から音声のパワーを検出し、検出結果を中レベル特徴検出系62のカット点検出系62A、無音区間検出系62F、話者区間検出系62G、音楽区間検出系62Hに出力する。
周波数解析系61Eは、コンテンツの音声信号を対象として周波数解析を行い、各周波数帯域に含まれる音声の情報を検出結果として中レベル特徴検出系62のカット点検出系62A、無音区間検出系62F、話者区間検出系62G、音楽区間検出系62Hに出力する。
中レベル特徴検出系62のカット点検出系62Aは、低レベル特徴検出系61の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、カット点を検出する。カット点検出系62Aは、検出結果を高レベル特徴検出系63のCM検出系63A、類似画像検出系63B、顔検出系63C、キーフレーム検出系63Eに出力する。
フェード区間検出系62Bは、低レベル特徴検出系61の各処理系から供給された検出結果検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、フェード区間を検出する。フェード区間検出系62Bは、検出結果を高レベル特徴検出系63の類似画像検出系63B、顔検出系63C、およびキーフレーム検出系63Eに出力する。
テロップ区間検出系62Cは、低レベル特徴検出系61の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、テロップ区間を検出する。テロップ区間検出系62Cは、検出結果を高レベル特徴検出系63の盛り上がり区間検出系63D、およびキーフレーム検出系63Eに出力する。
動きベクトル検出系62Dは、低レベル特徴検出系61の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、動きベクトルを検出する。動きベクトル検出系62Dは、検出結果を高レベル特徴検出系63の類似画像検出系63B、顔検出系63C、盛り上がり区間検出系63D、キーフレーム検出系63Eに出力する。
ブロック特徴検出系62Eは、低レベル特徴検出系61の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、ブロック特徴を検出する。ブロック特徴検出系62Eは、検出結果を高レベル特徴検出系63の類似画像検出系63B、顔検出系63C、盛り上がり区間検出系63D、キーフレーム検出系63Eに出力する。
無音区間検出系62Fは、低レベル特徴検出系61の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、無音区間を検出する。無音区間検出系62Fは、検出結果を高レベル特徴検出系63のCM検出系63A、盛り上がり区間検出系63D、キーフレーム検出系63E、および人物検出系63Fに出力する。
話者区間検出系62Gは、低レベル特徴検出系61の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、話者区間を検出する。話者区間検出系62Gは、検出結果を高レベル特徴検出系63の盛り上がり区間検出系63D、キーフレーム検出系63E、および人物検出系63Fに出力する。
音楽区間検出系62Hは、低レベル特徴検出系61の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、音楽区間を検出する。音楽区間検出系62Hは、検出結果を高レベル特徴検出系63の盛り上がり区間検出系63Dとキーフレーム検出系63Eに出力する。
高レベル特徴検出系63のCM検出系63Aは、中レベル特徴検出系62の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、CM区間を検出する。CM検出系63Aは、検出結果を外部に出力する。
類似画像検出系63Bは、中レベル特徴検出系62の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、類似画像を検出する。類似画像検出系63Bは、検出結果を外部に出力する。
顔検出系63Cは、中レベル特徴検出系62の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、人の顔を検出する。顔検出系63Cは、検出結果を外部に出力する。
盛り上がり区間検出系63Dは、中レベル特徴検出系62の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、盛り上がり区間を検出する。盛り上がり区間検出系63Dは、検出結果を外部に出力する。
キーフレーム検出系63Eは、中レベル特徴検出系62の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、キーフレームを検出する。キーフレーム検出系63Eは、検出結果を外部に出力する。
人物検出系63Fは、中レベル特徴検出系62の各処理系から供給された検出結果に対して、重み係数設定系64により設定された重み係数に基づいて重み付けを行い、人物の有無を検出する。人物検出系63Fは、検出結果を外部に出力する。
このように、低レベル特徴検出系61の各処理系と中レベル特徴検出系62の各処理系は、低レベル特徴検出系31の各処理系と中レベル特徴検出系32の各処理系と同様にして接続され、中レベル特徴検出系62の各処理系と高レベル特徴検出系63の各処理系は、中レベル特徴検出系32の各処理系と高レベル特徴検出系33の各処理系と同様にして接続される。なお、図11に示される各処理系の接続関係も適宜変更可能である。
重み係数設定系64は、開発者による操作に応じて、中レベル特徴検出系62と高レベル特徴検出系63の各処理系に重み係数を設定する。
図12は、中レベル特徴検出系62と高レベル特徴検出系63の各処理系の構成例を示す図である。
図12の例においては、カット点検出系62Aにより検出されたカット点の特徴を表す特徴データf1が乗算器m11に入力され、フェード区間検出系62Bにより検出されたフェード区間の特徴を表す特徴データf2が乗算器m12に入力される。また、音楽区間検出系62Hにより検出された音楽区間の特徴を表す特徴データfmが乗算器mMに入力される。
乗算器m11においては、特徴データf1と重み係数w1(n)が乗算され、乗算器m12においては、特徴データf2と重み係数w2(n)が乗算され、乗算器mMにおいては、特徴データfmと重み係数wm(n)が乗算される。それぞれの乗算器の乗算結果は加算器p11に供給され、加算器p11において加算された後、判定データ出力Foとして出力される。
このような構成によって、重み係数の学習は例えば次のようにして行われる。
(1)はじめに、検出する特徴が1つ選択される。図12の例においては、検出する特徴としてCM区間が選択されている。ここでは、CM検出に用いられる重み係数の学習について説明するが、他の特徴の検出に用いられる重み係数の学習も同様にして行われる。
(2)重み係数w1を決定するために、可変の係数である重み係数w1(n)が乗算器m11に設定され、判定データ出力Foが最も大きくなる(確からしくなる)ときの係数が重み係数w1として選択される。重み係数w1(n)以外の重み係数である重み係数w2(n),・・・,wM(n)に対しては、初期設定値である例えば0.5の固定値が設定される。
図13は、判定データ出力Foの確からしさの判定の例を示す図である。
図13の横軸は重み係数を示し、縦軸は確からしさ(検出率)を示す。確からしさは例えば開発者により設定される。
図13の例においては、重み係数w1(n)として重み係数w1(0)が設定されたときの判定データ出力Foの確からしさはp0で表され、重み係数w1(1)が設定されたときの判定データ出力Foの確からしさはp1で表されている。また、重み係数w1(n)として重み係数w1(2)が設定されたときの判定データ出力Foの確からしさはp2で表され、重み係数w1(3)が設定されたときの判定データ出力Foの確からしさはp3で表されている。
この場合、判定データ出力Foの確からしさが最も大きくなるのは重み係数w1(2)が設定されているときであるから、重み係数w1(2)が、乗算器m11に設定される重み係数w1として選択される。
(3)次に、重み係数w2を決定するために、可変の係数である重み係数w2(n)が乗算器m12に設定され、図13に示されるようにして、判定データ出力Foが最も大きくなるときの係数が重み係数w2として選択される。このとき、乗算器m11に対しては上記(2)で選択された重み係数w1が設定される。
(4)上記(2),(3)と同様の処理が、乗算器mMに設定される重み係数が選択されるまで繰り返される。
(5)上記(1)乃至(4)の調整が、判定データ出力Foの値が収束するまで繰り返される。ここで、判定データ出力Foの値が収束した状態とは、k−1回目の調整によって得られた判定データ出力Fo(k−1)と、k回目の調整によって得られた判定データ出力Fo(k)が等しいか、差分が閾値δb以下になった状態をいう。例えば、下式(3)の条件を満たすとき収束したものとされる。
Figure 2009077256
処理が収束しない場合もあるので、例えば、上記(1)乃至(4)の調整を1000回繰り返しても判定データ出力Foが収束しない場合は1000回で調整を打ち切るといったように、(1)乃至(4)の調整の繰り返し回数が制限されるようにしてもよい。
中レベル特徴検出系62と高レベル特徴検出系63の各処理系に設定される重み係数についても、同様にして学習が行われる。学習によって得られた重み係数は、実際の特徴の検出時に信号処理装置1において用いられる重み係数として重み係数DB36に記録される。重み係数の調整が繰り返されることによって各処理系において最終的に得られた判定データ出力Foも参照値Fxとして記録される。
なお、重み係数の学習は、複数のコンテンツや、ジャンルの異なるコンテンツを教師データとして行われ、それぞれのコンテンツ、それぞれのジャンルに対応した重み係数が重み係数DB36に記録される。
ここで、図14のフローチャートを参照して、学習装置51により行われる学習処理について説明する。
ここでも、CM区間を検出するときに用いられる重み係数を学習する処理について説明するが、他の特徴を検出するときに用いられる重み係数の学習時にも同様の処理が行われる。
ステップS1において、重み係数設定系64は、各乗算器の重み係数として0.5などの固定の値を設定して重み係数の初期設定を行う。
ステップS2において、重み係数設定系64は、処理の回数を表すkの値として1、kの値の最大値を表すkmaxとして1000を設定して処理回数の初期設定を行う。
ステップS3において、重み係数設定系64は、mの値に1を設定して特徴データの入力の初期設定を行う。
ステップS4において、重み係数設定系64は、特徴データfmを乗算器に入力する。mの値が初期設定がされた直後の1である場合、図12の乗算器m11に対してカット点の特徴の検出結果を表す特徴データf1が入力される。
ステップS5において、重み係数設定系64はmの値を1だけ加算する。
ステップS6において、重み係数設定系64は、mの値が閾値mthを超えたか否かを判定する。閾値mthは全ての乗算器の数を表す値になる。
mの値が閾値mthを超えていないとステップS6において判定した場合、重み係数設定系64は、ステップS4に戻り、特徴データの入力を繰り返す。
一方、全ての特徴データを乗算器に入力し終えたことから、mの値が閾値mthを超えたとステップS6において判定した場合、ステップS7において、重み係数設定系64は、mの値に1を設定して係数調整用の初期設定を行う。
ステップS8において、重み係数設定系64は、重み係数の変数nと判定データ出力Fnの値に0を設定して初期設定を行う。
ステップS9において重み係数wmの調整処理が行われる。この調整処理においては、図12を参照して説明したような処理が行われ、重み係数wmが選択される。ステップS9において行われる重み係数wmの調整処理については図15のフローチャートを参照して後述する。
ステップS10において、重み係数設定系64はmの値を1だけ加算する。
ステップS11において、重み係数設定系64は、mの値が閾値mthを超えたか否かを判定する。
mの値が閾値mthを超えていないとステップS11において判定した場合、重み係数設定系64は、ステップS9に戻り、重み係数wmの調整処理を繰り返す。
一方、全ての重み係数の調整を終えたことから、mの値が閾値mthを超えたとステップS11において判定した場合、ステップS12において、重み係数設定系64は、上式(3)の条件を満たしているか否か、すなわち、判定データ出力Foの値が収束しているか否かを判定する。
判定データ出力Foの値が収束していないとステップS12において判定した場合、ステップS13において、重み係数設定系64は、kの値を1だけ加算する。
ステップS14において、重み係数設定系64は、kの値が最大値kmaxを超えたか否かを判定する。
kの値が最大値kmaxを超えていないとステップS14において判定した場合、ステップS8に戻り、重み係数設定系64は、以上の処理を繰り返す。
一方、ステップS14においてkの値が最大値kmaxを超えたと判定した場合、または、ステップS12において判定データ出力Foの値が収束していると判定した場合、重み係数設定系64は処理を終了させる。
次に、図15のフローチャートを参照して、図14のステップS9において行われる重み係数wmの調整処理について説明する。
ステップS21において、重み係数設定系64は、いまのnの値を適用して可変の重み係数wm(n)を設定する。
ステップS22において、重み係数設定系64は、判定データ出力Fo(k)を検出する。
ステップS23において、重み係数設定系64は、判定データ出力Fo(k)が値Fnを超えたか否かを判定する。
判定データ出力Fo(k)が値Fnを超えていないとステップS23において判定した場合、ステップS24において、重み係数設定系64は、nの値が0を超えたか否かを判定する。
nの値が0を超えていないとステップS24において判定した場合、ステップS21に戻り、重み係数設定系64は、以上の処理を繰り返す。
一方、判定データ出力Fo(k)が値Fnを超えたとステップS23において判定した場合、ステップS25において、重み係数設定系64は、ステップS22で検出された判定データ出力Fo(k)と値Fnの差分が閾値δa以下になったか否か、すなわち、下式(4)の条件を満たしているか否かを判定する。
Figure 2009077256
上式(4)の条件を満たしていないとステップS25において判定した場合、ステップS26において、重み係数設定系64は、いまの判定データ出力Fo(k)を値Fnとして設定する。
ステップS27において、重み係数設定系64は、nの値を1だけ加算する。
ステップS28において、重み係数設定系64は、nの値が、あらかじめ設定されている最大値nmaxを超えたか否かを判定する。
nの値が最大値nmaxを超えていないとステップS28において判定した場合、ステップS21に戻り、重み係数設定系64は、以上の処理を繰り返す。
一方、ステップS28においてnの値が最大値nmaxを超えたと判定した場合、ステップS25において上式(4)の条件を満たしていると判定した場合、または、ステップS24においてnの値が0を超えたと判定した場合、重み係数設定系64は、図14のステップS9以降の処理を行う。
重み係数の学習は以上のようにして行われる。学習によって得られた重み係数が重み係数DB36に記録された後、信号処理装置1は、実際に特徴を検出し、特徴の検出結果に基づいて動作モードを提示する処理を行うことが可能になる。
次に、図16のフローチャートを参照して、信号処理装置1の処理について説明する。
この処理は、コンテンツの録画が完了したときなどの所定のタイミングで開始される。録画が完了したコンテンツなどの、処理対象とするコンテンツの画像信号、音声信号は、先頭から順に、低レベル特徴検出系31に入力され、所定の区間のデータ毎に特徴の検出が行われる。
ステップS51において、低レベル特徴検出系31は、それぞれの処理系において、コンテンツの画像信号、音声信号を解析し、低レベルの特徴を検出する。低レベル特徴検出系31は、各処理系による検出結果を中レベル特徴検出系32に出力する。
ステップS52において、中レベル特徴検出系32は中レベルの特徴検出処理を行う。中レベルの特徴検出処理によって得られた検出結果は高レベル特徴検出系33に出力される。
ステップS53において、高レベル特徴検出系33は高レベルの特徴検出処理を行う。高レベルの特徴検出処理によって得られた検出結果は動作モード実行系34と動作モード判定系37に出力される。動作モード判定系37に出力された検出結果は動作モード判定系37おいて保持され、所定のコンテンツがユーザにより選択されたとき、ユーザに提示する動作モードを選択することに用いられる。
ステップS52において行われる中レベルの特徴検出処理とステップS53において行われる高レベルの特徴検出処理については図17のフローチャートを参照して後述する。
ステップS54において、動作モード判定系37は、動作モード表示処理を行い、選択可能な動作モードをユーザに提示する。その後、処理は終了される。ステップS54において行われる動作モード表示処理については図18のフローチャートを参照して後述する。
次に、図17のフローチャートを参照して、図16のステップS52において行われる中レベルの特徴検出処理と、ステップS53において行われる高レベルの特徴検出処理について説明する。
図17の処理と同様の処理が、中レベル特徴検出系32と高レベル特徴検出系33のそれぞれの処理系において行われる。ここでは、高レベル特徴検出系33のCM検出系33Aにおいて行われる処理について説明するが、他の処理系においても同様の処理が行われる。特徴検出処理の開始時、重み係数設定系35からCM検出系33Aに対しては、CM検出に用いられる学習済みの重み係数が供給される。
ステップS61において、CM検出系33Aはmの値に1を設定する。図5を参照して説明したように、中レベル特徴検出系32と高レベル特徴検出系33の各処理系はm個の乗算器と1個の加算器を有しており、注目する乗算器がmの値に応じて選択される。
ステップS62において、CM検出系33Aは、重み係数設定系35から供給された重み係数のうちの重み係数wmを注目する乗算器に設定する。
ステップS63において、CM検出系33Aは、mの値を1だけ加算する。
ステップS64において、CM検出系33Aは、mの値が閾値mthを超えたか否かを判定する。
mの値が閾値mthを超えていないとステップS64において判定した場合、ステップS62に戻り、CM検出系33Aは重み係数の設定を繰り返す。
一方、全ての重み係数を設定し終えたことから、mの値が閾値mthを超えたとステップS64において判定した場合、ステップS65において、CM検出系33Aは、mの値に1を設定する。
ステップS66において、CM検出系33Aは、特徴データfmを注目する乗算器に入力する。mの値が1である場合、図5の乗算器m1に対してカット点の特徴の検出結果を表す特徴データf1が入力される。特徴データが入力された乗算器においては、特徴データと重み係数が乗算され、乗算結果が加算器p1に出力される。
ステップS67において、CM検出系33Aは、mの値を1だけ加算する。
ステップS68において、CM検出系33Aは、mの値が閾値mthを超えたか否かを判定する。
mの値が閾値mthを超えていないとステップS68において判定した場合、ステップS66に戻り、CM検出系33Aは、特徴データの入力を繰り返す。
一方、全ての特徴データを入力し終えたことから、mの値が閾値mthを超えたとステップS68において判定した場合、ステップS69において、CM検出系33Aは、それぞれの乗算器からの乗算結果を加算器p1によって加算することによってデータ出力値としての値Fを検出する。
ステップS70において、CM検出系33Aは、検出した値Fと、学習終了時に保存しておいた参照値Fxを比較する。
ステップS71において、CM検出系33Aは、値Fから参照値Fxを減算した値の絶対値が、閾値としてあらかじめ設定されている値Fth以下であるか否かを判定する。
値Fから参照値Fxを減算した値の絶対値が値Fth以下であるとステップS71において判定した場合、ステップS72において、CM検出系33Aは、処理対象になっている区間には検出対象、すなわちCMが含まれていると判定する。
一方、値Fから参照値Fxを減算した値の絶対値が値Fth以下ではないとステップS71において判定した場合、ステップS73において、CM検出系33Aは、処理対象になっている区間にはCMが含まれていないと判定する。
ステップS74において、CM検出系33Aは、ステップS72またはステップS73の判定結果を後段の動作モード実行系34と動作モード判定系37に出力する。以上の処理が、処理対象になっているコンテンツの全ての区間について行われた後、図16のステップS52、またはステップS53に戻り、それ以降の処理が行われる。
次に、図18のフローチャートを参照して、図16のステップS54において行われる動作モード表示処理について説明する。
ステップS81において、動作モード判定系37は、ユーザにより選択されたコンテンツを処理対象のコンテンツとして選択する。
ステップS82において、動作モード判定系37は、選択可能な動作モードを自動的に選択し、ユーザに提示する自動判定モードが設定されているか否かを判定する。
自動判定モードが設定されていないとステップS82において判定された場合、ステップS83において手動モードの処理が行われる。例えば、全ての動作モードが一覧表示され、その中から選択された動作モードを実行することができる場合には選択された動作モードが実行され、実行することができない場合には選択された動作モードは実行されない。
一方、自動判定モードが設定されているとステップS82において判定した場合、動作モード判定系37は、それぞれの動作モードの処理が実行可能であるか否かを順に判定する。
すなわち、動作モード判定系37は、ステップS84において、いま選択されているコンテンツを対象としてチャプタ自動生成モードの処理を実行することができるか否かを判定するチャプタ自動生成モード判定処理を行い、ステップS85において、いま選択されているコンテンツを対象としてレーベルイメージ生成モードの処理を実行することができるか否かを判定するレーベルイメージ生成モード判定処理を行う。
また、動作モード判定系37は、ステップS86において、いま選択されているコンテンツを対象としてダイジェスト再生モードの処理を実行することができるか否かを判定するダイジェスト再生モード判定処理を行い、ステップS87において、いま選択されているコンテンツを対象として自動編集モードの処理を実行することができるか否かを判定する自動編集モード判定処理を行う。ステップS84乃至ステップS87において行われる判定処理については図20のフローチャートを参照して後述する。
なお、図18の例においては、チャプタ自動生成モード、レーベルイメージ生成モード、ダイジェスト再生モード、および自動編集モードの4つの動作モードの処理が実行可能であるか否かについての判定が行われるものとされているが、さらに多くの動作モードが用意されている場合、そのそれぞれの動作モードについても、処理が実行可能であるか否かが順に判定される。
ステップS88において、動作モード判定系37は、実行可能であると判定した動作モードを提示する図2に示されるような画面を表示する。実行可能な動作モードの中から所定の動作モードが選択されたとき、選択された動作モードの処理が動作モード実行系34により実行される。
ステップS88において画面表示が行われた後、または、ステップS83において手動モードでの処理が行われた後、図16のステップS54に戻り、処理が終了される。
図19A乃至図19Dは、動作モードの表示の例を示す図である。
図19Aは、チャプタ自動生成モードの処理が実行可能として判定された場合に表示されるボタンの例を示す図であり、図19Dは、チャプタ自動生成モードの処理が実行できないとして判定された場合に表示されるボタンの例を示す図である。実行可能として判定された動作モードのボタンははっきり表示され、実行できないとして判定された動作モードのボタンははっきりとは表示されない。
なお、特徴の解析結果に基づいて、設定することができるチャプタの数が多い場合には図19Bに示されるようなボタンが表示され、設定することができるチャプタの数が少ない場合には図19Cに示されるようなボタンが表示されるといったように、動作モードの程度もあわせて表示されるようにしてもよい。
図19Bの例においては、ボタンの下に配置される5つの四角が全て強調表示され、図19Cの例においては、ボタンの下に配置される5つの四角のうちの2つの四角だけが強調表示されている。
次に、図20のフローチャートを参照して、図18のステップS84において行われるチャプタ自動生成モード判定処理について説明する。
ここでは、ステップS84において行われる処理について説明するが、ステップS85乃至ステップS87のそれぞれのステップにおいても同様の処理が行われる。
ステップS101において、動作モード判定系37は、判定フラグFに0、動作レベルNに0を設定することによって初期設定を行う。
ステップS102において、動作モード判定系37は、特徴の検出結果として高レベル特徴検出系33のCM検出系33Aから出力されたヒストグラムデータを取得する。
ここで、高レベル特徴検出系33による特徴の検出結果を表すヒストグラムデータについて説明する。
図21は、高レベル特徴検出系33の類似画像検出系33Bによる特徴の検出結果の例を示す図である。
図21の例においては、30分のコンテンツを対象として類似画像の検出を行った場合に、最初の1分の映像の区間からは類似画像が連続する区間として10秒の区間が検出され、次の1分の映像の区間からは類似画像が連続する区間として20秒の区間が検出されたものとされている。また、次の1分間とその次の1分間の映像の区間からは類似画像が連続する区間として20秒の区間がそれぞれ検出され、その後、類似画像が連続する区間が検出されなかったものとされている。
このような検出結果が図22に示されるようなヒストグラムデータにより表され、高レベル特徴検出系33の各処理系から出力される。図22の横軸はヒストグラムレベルを表し、縦軸はデータ数を表す。
図23は、高レベル特徴検出系33の各処理系から出力されたヒストグラムデータにより表される内容を示す図である。
CM検出系33Aから出力されたヒストグラムデータは、5分間などの一定時間毎のCMの検出数を表し、類似画像検出系33Bから出力されたヒストグラムデータは、1分間などの一定時間毎の、類似画像が継続したフレーム数、または時間長を表す。
顔検出系33Cから出力されたヒストグラムデータは、1分間などの一定時間毎の、顔が継続して検出されたフレーム数、または時間長を表し、盛り上がり区間検出系33Dから出力されたヒストグラムデータは、1分間などの一定時間毎の、盛り上がり区間の時間長を表す。人物検出系33Fから出力されたヒストグラムデータは、1分間などの、顔が継続して検出されたフレーム数、または時間長を表す。図23には示されていないが、同様に、キーフレーム検出系33Eから出力されたヒストグラムデータは、1分間などの一定時間毎のキーフレームの数などを表す。
図24は、ヒストグラムレベルの例を示す図である。
図24の例においては、CM検出系33Aによる検出結果である一定時間毎のCMの検出数が0〜1個である場合はヒストグラムレベル1、2〜4個である場合はヒストグラムレベル2、5〜7個である場合はヒストグラムレベル3、8〜9個である場合はヒストグラムレベル4、10個以上である場合はヒストグラムレベル5とされている。
また、類似画像検出系33Bによる検出結果である一定時間毎の類似画像が継続した時間長が0〜9秒である場合はヒストグラムレベル1、10〜19秒である場合はヒストグラムレベル2、20〜29秒である場合はヒストグラムレベル3、30〜39秒である場合はヒストグラムレベル4、40秒以上である場合はヒストグラムレベル5とされている。
顔検出系33Cによる検出結果である一定時間毎の顔が継続して検出された時間長、盛り上がり区間検出系33Dによる検出結果である一定時間毎の盛り上がり区間の時間長、および、人物検出系33Fによる検出結果である一定時間毎の顔が継続して検出された時間長についても、類似画像検出系33Bによる検出結果と同様にしてヒストグラムレベルが設定される。
以上のようにして高レベル特徴検出系33の各処理系から出力されたヒストグラムデータは、システムを簡単にするため、ヒストグラム全体のデータ数が例えば100となるように、単位時間あたりのデータに換算して正規化される。
例えば、図25に示されるように、単位時間を1時間(60分)として正規化が行われる。この場合、コンテンツの時間をt分、ヒストグラムレベルnにおける正規化処理前のデータ数をh(n)とすると、正規化後のデータ数H(n)は、下式(5)により求められる。kは処理系毎の正規化定数である。
Figure 2009077256
処理対象のコンテンツの時間が長いと検出されるデータの数が多くなり、そのままだとコンテンツ毎に判定基準を設定する必要があり、システムが複雑になってしまうが、このように正規化を行うようにすることにより、システムを簡単なものにすることができる。
図20の説明に戻り、ステップS103において、動作モード判定系37は、CM検出系33Aから供給されたヒストグラム中に、あらかじめ設定されている基準を超えたレベルのデータがあるか否かを判定する。動作モード判定系37に対しては、レベル3、レベル4などの、それぞれの動作モードが実行可能であるか否かを判断するための基準となるレベルがあらかじめ設定されている。
あらかじめ設定されている基準を超えたレベルのデータがあるとステップS103において判定した場合、ステップS104において、動作モード判定系37は、高レベル特徴検出系33の盛り上がり区間検出系33Dから出力されたヒストグラムデータを取得する。
ステップS105において、動作モード判定系37は、盛り上がり区間検出系33Dから供給されたヒストグラム中に、あらかじめ設定されている基準を超えたレベルのデータがあるか否かを判定する。
あらかじめ設定されている基準を超えたレベルのデータがあるとステップS105において判定した場合、ステップS106において、動作モード判定系37は、判定フラグFの値を1だけ加算する。
ステップS107において、動作モード判定系37は、盛り上がり区間検出系33Dから出力されたヒストグラム全体における、基準を超えたヒストグラムデータの割合N1を検出する。
ステップS107において割合N1を検出した場合、または、ステップS105において、盛り上がり区間検出系33Dから供給されたヒストグラム中に、あらかじめ設定されている基準を超えたレベルのデータがないと判定した場合、ステップS108において、動作モード判定系37は、高レベル特徴検出系33の人物検出系33Fから出力されたヒストグラムデータを取得する。
ステップS109において、動作モード判定系37は、人物検出系33Fから供給されたヒストグラム中に、あらかじめ設定されている基準を超えたレベルのデータがあるか否かを判定する。
あらかじめ設定されている基準を超えたレベルのデータがあるとステップS109において判定した場合、ステップS110において、動作モード判定系37は、判定フラグFの値を1だけ加算する。
ステップS111において、動作モード判定系37は、高レベル特徴検出系33の人物検出系33Fから出力されたヒストグラム全体における、基準を超えたヒストグラムデータの割合N2を検出する。
ステップS111において割合N2を検出した場合、ステップS109において、人物検出系33Fから供給されたヒストグラム中に、あらかじめ設定されている基準を超えたレベルのデータがないと判定した場合、または、ステップS103において、CM検出系33Aから供給されたヒストグラム中に、あらかじめ設定されている基準を超えたレベルのデータがないと判定した場合、ステップS112において、動作モード判定系37は、判定フラグFの値が0を超えているか否かを判定する。
判定フラグFの値が0を超えていないとステップS112において判定した場合、ステップS113において、動作モード判定系37は、チャプタ自動生成モードの処理を実行することができないと判定する。
一方、判定フラグFの値が0を超えているとステップS112において判定した場合、ステップS114において、動作モード判定系37は、N1とN2を加算して得られた値を動作レベルNの値に設定する。
ステップS115において、動作モード判定系37は、チャプタ自動生成モードの処理が実行可能であると判定する。
図26は、動作モードの基準の例を示す図である。
図26の例においては、チャプタ自動生成モードの盛り上がりチャプタという機能の処理を実行可能と判断する基準が、CM検出系33Aから出力されたヒストグラム全体においてヒストグラムレベル3以上のデータが70%以下であり、盛り上がり区間検出系33Dから出力されたヒストグラム全体においてヒストグラムレベル3以上のデータが30%以上あり、人物検出系33Fから出力されたヒストグラム全体においてヒストグラムレベル4以上のデータが30%以上として設定されている。
また、レーベルイメージ生成モードのキーフレーム画像レーベルという機能の処理を実行可能と判断する基準が、CM検出系33Aから出力されたヒストグラム全体においてヒストグラムレベル3以上のデータが70%以下であり、顔検出系33Cから出力されたヒストグラム全体においてヒストグラムレベル4以上のデータが30%以上あり、盛り上がり区間検出系33Dから出力されたヒストグラム全体においてヒストグラムレベル3以上のデータが30%以上として設定されている。
他の動作モードについてもそれぞれ基準が設定されており、この基準に基づいて、それぞれの動作モードが実行可能であるか否かが判断される。
以上の処理により、信号処理装置1は、実行可能な動作モードを自動的に判断し、ユーザに提示することができる。
また、ユーザは、実行可能な動作モードを確実に選択することができるため、操作を効率的に行なうことができ、大変便利となる。
また、信号処理装置1においては、階層的なネットワーク構造によって信号処理が行われるため、有効な信号を所定の処理系に効率的に寄与させることができる。
例えば、フェード区間の検出を考えた場合、フェード区間では画像エッジがほとんど検出されず、輝度特徴、色特徴の相関性がほとんど無いことが分かっていることから、それらの特徴を表す関係のない信号をフェード区間の検出に寄与させないようにすることが可能になる。
図27乃至図34は、特徴の検出結果の具体例を示す図である。
図27乃至図34においては、上から、処理対象の映像区間、その区間を含む所定の区間を対象としたCM検出系33Aの検出結果、類似画像検出系33Bの検出結果、顔検出系33Cの検出結果、盛り上がり区間検出系33Dの検出結果、人物検出系33Fの検出結果が示されている。高レベル特徴検出系33の各処理系の検出結果を表すグラフにおいて、横軸は時刻を表し、縦軸は検出レベルを表す。それぞれのグラフの右側には、正規化後のヒストグラム表示の検出結果が示されている。
図27に示されるように、シーンの盛り上がり区間が検出されないような区間だけからなるコンテンツが処理対象になっている場合、チャプタ自動生成モードに関しては、一定の区間毎にチャプタ点を設定するモードの処理しか実行できないとして判断される。一定区間毎にチャプタ点を設定するモードが選択されたとき、一定の区間毎にチャプタ点が設定される。
一方、図28に示されるように、シーンの盛り上がり区間が検出されるコンテンツが処理対象になっている場合、盛り上がりに応じてチャプタ点を設定するモードの処理をも実行可能であるとして判断される。盛り上がりに応じてチャプタ点を設定するモードの処理が選択されたとき、盛り上がり区間の前後の位置にチャプタ点が設定される。
図28の例においては、チャプタ点C1,C2が設定されている。チャプタ自動生成モードの処理が実行可能であるか否かは正規化後のヒストグラムデータに基づいて判断されるが、チャプタ点を設定する位置は高レベル特徴検出系33の各処理系の検出結果に基づいて判断される。
また、図29に示されるように、シーンの盛り上がり区間などがなく、キーフレームを検出することができないような区間だけからなるコンテンツが対象になっている場合、レーベルイメージ作成モードに関しては、キーフレームの画像を含むレーベルイメージを自動作成するモードの処理は実行できないとして判断される。この場合、記録開始位置の先頭のフレームF1が代表画像として管理される。
一方、図30に示されるように、類似画像の区間が検出されるコンテンツが対象になっている場合、キーフレームの画像を含むレーベルイメージを自動作成するモードの処理が実行可能であるとして判断される。キーフレームの画像を含むレーベルイメージを自動作成するモードの処理が選択されたとき、類似画像区間の開始位置のフレームF2がキーフレームとして選択され、フレームF2の画像を含むレーベルイメージが作成される。
さらに、図31に示されるように、類似画像の区間がなく、キーフレームが検出されないようなコンテンツが対象になっている場合、ダイジェスト再生モードに関しては、一定の区間毎にスキップ再生を行うモードの処理しか実行できないとして判断される。一定の区間毎にスキップ再生を行うモードの処理が選択されたとき、図31の実線矢印で示される一定時間毎の区間だけが再生される。
一方、図32に示されるように、類似画像の区間が検出されるコンテンツが対象になっている場合、類似画像の区間だけをダイジェスト再生するモードの処理をも実行可能であるとして判断される。類似画像の区間だけをダイジェスト再生するモードの処理が選択されたとき、図32の実線矢印で示される類似画像の区間だけが再生される。
また、図33に示されるように、シーンの盛り上がり区間が検出されないような区間だけからなるコンテンツが対象になっている場合、自動編集モードに関しては、その処理を実行することができないとして判断される。この場合、編集はユーザが手動で行うことになる。
一方、図34に示されるように、シーンの盛り上がり区間が検出されるコンテンツが対象になっている場合、自動編集モードの処理は実行可能であるとして判断される。自動編集モードの処理が選択されたとき、図34の実線矢印で示される盛り上がり区間と、その盛り上がり区間と所定の時間だけ離れた位置にある区間Tsが例えば切り出しの対象とされる。
以上においては、階層的なネットワーク構造を有する処理系において信号処理が行われるものとしたが、図35に示されるように、ニューラルネットワークの構造を有する処理系において信号処理が行われるようにしてもよい。
図35の例においては、中レベル特徴検出系32の各処理系の検出結果が入力とされ、信号処理の結果が、動作モードが実行可能であるか否かを判定する処理系に入力されている。
以上においては、選択可能な動作モードが画面表示によってユーザに提示されるものとしたが、音声によって提示されるようにしてもよい。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどにインストールされる。
インストールされる実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアである図3に示されるリムーバブルメディア22に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。プログラムは、ROM12や記録部19に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
本発明の一実施形態に係る信号処理装置を示す図である。 画面の例を示す図である。 信号処理装置のハードウエア構成例を示すブロック図である。 信号処理装置の機能構成例を示すブロック図である。 重み付けの例を示す図である。 レーベルイメージの例を示す図である。 ダイジェスト再生の対象となる区間の例を示す図である。 ダイジェスト再生によるコンテンツの圧縮率の例を示す図である。 カット編集の例を示す図である。 学習装置を示す図である。 学習装置の機能構成例を示すブロック図である。 重み係数の学習の例を示す図である。 判定データ出力の確からしさの判定の例を示す図である。 学習装置により行われる学習処理について説明するフローチャートである。 図14のステップS9において行われる重み係数の調整処理について説明するフローチャートである。 信号処理装置の処理について説明するフローチャートである。 図16のステップS52において行われる中レベルの特徴検出処理と、ステップS53において行われる高レベルの特徴検出処理について説明するフローチャートである。 図16のステップS54において行われる動作モード表示処理について説明するフローチャートである。 動作モードの表示の例を示す図である。 図18のステップS84乃至ステップS87のそれぞれのステップにおいて行われる判定処理について説明するフローチャートである。 特徴の検出結果の例を表す図である。 ヒストグラムの例を示す図である。 ヒストグラムデータにより表される内容を示す図である。 ヒストグラムレベルの例を示す図である。 ヒストグラムデータの正規化について示す図である。 動作モードの基準の例を示す図である。 特徴の検出結果の具体例を示す図である。 特徴の検出結果の他の具体例を示す図である。 特徴の検出結果のさらに他の具体例を示す図である。 特徴の検出結果の具体例を示す図である。 特徴の検出結果の他の具体例を示す図である。 特徴の検出結果のさらに他の具体例を示す図である。 特徴の検出結果の具体例を示す図である。 特徴の検出結果の他の具体例を示す図である。 信号処理装置の他の機能構成例を示すブロック図である。
符号の説明
1 信号処理装置, 31 低レベル特徴検出系, 32 中レベル特徴検出系, 33 高レベル特徴検出系, 34 動作モード実行系, 35 重み係数設定系, 36 重み係数DB, 37 動作モード判定系, 51 学習装置

Claims (6)

  1. コンテンツの画像信号と音声信号から、それぞれ異なる特徴を表す複数の第1の特徴データを検出する第1の特徴検出手段と、
    前記第1の特徴検出手段により検出された複数の前記第1の特徴データのそれぞれに対して、前記第1の特徴データに基づいてデータを検出する特徴に応じた重みをコンテンツ毎またはコンテンツのジャンル毎に変えて設定する設定手段と、
    前記設定手段により重みが設定された複数の前記第1の特徴データに基づいて、それぞれ異なる特徴を表す複数の第2の特徴データを検出する第2の特徴検出手段と
    を備える信号処理装置。
  2. 前記第2の特徴検出手段により検出された複数の前記第2の特徴データに基づいて、選択することを許容する、コンテンツに関する操作を決定し、ユーザに提示する提示手段と、
    前記提示手段により提示された操作の中からユーザにより選択された操作を実行する実行手段と
    をさらに備える請求項1に記載の信号処理装置。
  3. 前記提示手段は、画面表示または音声出力によって、選択することを許容するコンテンツに関する操作を提示する
    請求項2に記載の信号処理装置。
  4. 前記第1の特徴検出手段は、音声信号に基づいて前記第1の特徴データを検出する複数の処理系と、画像信号に基づいて前記第1の特徴データを検出する複数の処理系を有しており、それぞれの処理系において前記第1の特徴データを検出し、
    前記第2の特徴検出手段は複数の処理系を有しており、それぞれの処理系において前記第2の特徴データを検出する
    請求項1に記載の信号処理装置。
  5. コンテンツの画像信号と音声信号から、それぞれ異なる特徴を表す複数の第1の特徴データを検出し、
    検出した複数の前記第1の特徴データのそれぞれに対して、前記第1の特徴データに基づいてデータを検出する特徴に応じた重みをコンテンツ毎またはコンテンツのジャンル毎に変えて設定し、
    重みを設定した複数の前記第1の特徴データに基づいて、それぞれ異なる特徴を表す複数の第2の特徴データを検出する
    ステップを含む信号処理方法。
  6. コンテンツの画像信号と音声信号から、それぞれ異なる特徴を表す複数の第1の特徴データを検出し、
    検出した複数の前記第1の特徴データのそれぞれに対して、前記第1の特徴データに基づいてデータを検出する特徴に応じた重みをコンテンツ毎またはコンテンツのジャンル毎に変えて設定し、
    重みを設定した複数の前記第1の特徴データに基づいて、それぞれ異なる特徴を表す複数の第2の特徴データを検出する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2007245570A 2007-09-21 2007-09-21 信号処理装置、信号処理方法、およびプログラム Expired - Fee Related JP4433027B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007245570A JP4433027B2 (ja) 2007-09-21 2007-09-21 信号処理装置、信号処理方法、およびプログラム
US12/283,937 US8325803B2 (en) 2007-09-21 2008-09-17 Signal processing apparatus, signal processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007245570A JP4433027B2 (ja) 2007-09-21 2007-09-21 信号処理装置、信号処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2009077256A true JP2009077256A (ja) 2009-04-09
JP4433027B2 JP4433027B2 (ja) 2010-03-17

Family

ID=40471740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007245570A Expired - Fee Related JP4433027B2 (ja) 2007-09-21 2007-09-21 信号処理装置、信号処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US8325803B2 (ja)
JP (1) JP4433027B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011199525A (ja) * 2010-03-18 2011-10-06 Canon Inc チャプタ情報作成装置及びその制御方法
JP2012195811A (ja) * 2011-03-17 2012-10-11 Fujitsu Ltd ダイジェスト映像生成装置およびプログラム
JP2016541214A (ja) * 2014-09-17 2016-12-28 小米科技有限責任公司Xiaomi Inc. ビデオのブラウジング方法、その装置、プログラム及び記録媒体
US9799376B2 (en) 2014-09-17 2017-10-24 Xiaomi Inc. Method and device for video browsing based on keyframe

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100104004A1 (en) * 2008-10-24 2010-04-29 Smita Wadhwa Video encoding for mobile devices
JP2011211481A (ja) * 2010-03-30 2011-10-20 Hitachi Consumer Electronics Co Ltd 動画再生装置
WO2016054441A1 (en) * 2014-10-01 2016-04-07 Thalchemy Corporation Efficient and scalable systems for calculating neural network connectivity in an event-driven way
US10628486B2 (en) * 2017-11-15 2020-04-21 Google Llc Partitioning videos

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4253934B2 (ja) 1999-07-05 2009-04-15 ソニー株式会社 信号処理装置及び方法
JP4039873B2 (ja) 2002-03-27 2008-01-30 三洋電機株式会社 映像情報記録再生装置
JP4100205B2 (ja) 2003-03-14 2008-06-11 ソニー株式会社 シーンチェンジ検出方法および装置
US7445312B2 (en) * 2003-06-26 2008-11-04 Seiko Epson Corporation Inkjet printer and inkjet print method
JP2006054622A (ja) 2004-08-10 2006-02-23 Sony Corp 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
WO2007046171A1 (ja) 2005-10-21 2007-04-26 Matsushita Electric Industrial Co., Ltd. 記録再生装置
US9432729B2 (en) * 2006-02-08 2016-08-30 Thomson Licensing Method and apparatus for adaptive transport injection for playback
US8358837B2 (en) * 2008-05-01 2013-01-22 Yahoo! Inc. Apparatus and methods for detecting adult videos

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011199525A (ja) * 2010-03-18 2011-10-06 Canon Inc チャプタ情報作成装置及びその制御方法
US9025930B2 (en) 2010-03-18 2015-05-05 Canon Kabushiki Kaisha Chapter information creation apparatus and control method therefor
JP2012195811A (ja) * 2011-03-17 2012-10-11 Fujitsu Ltd ダイジェスト映像生成装置およびプログラム
JP2016541214A (ja) * 2014-09-17 2016-12-28 小米科技有限責任公司Xiaomi Inc. ビデオのブラウジング方法、その装置、プログラム及び記録媒体
US9799376B2 (en) 2014-09-17 2017-10-24 Xiaomi Inc. Method and device for video browsing based on keyframe

Also Published As

Publication number Publication date
US20090080868A1 (en) 2009-03-26
JP4433027B2 (ja) 2010-03-17
US8325803B2 (en) 2012-12-04

Similar Documents

Publication Publication Date Title
JP4433027B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP4615166B2 (ja) 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム
KR101385087B1 (ko) 정보 신호 처리 방법, 정보 신호 처리 장치 및 컴퓨터프로그램 기록 매체
JP4670584B2 (ja) 表示制御装置および方法、プログラム並びに記録媒体
US7742680B2 (en) Apparatus and method for processing signals
JP2008147838A (ja) 画像処理装置、画像処理方法、およびプログラム
JP2002044572A (ja) 情報信号処理装置及び情報信号処理方法および情報信号記録装置
CN102265609A (zh) 节目数据处理装置、方法和程序
US7149365B2 (en) Image information summary apparatus, image information summary method and image information summary processing program
JP4735413B2 (ja) コンテンツ再生装置およびコンテンツ再生方法
JP2007336283A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP4650288B2 (ja) 再生制御装置、再生制御方法、およびプログラム
WO2006016605A1 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
US7822569B2 (en) Specific-condition-section detection apparatus and method of detecting specific condition section
US8234278B2 (en) Information processing device, information processing method, and program therefor
JP4835439B2 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
JP2008153920A (ja) 動画像一覧表示装置
JP2008004985A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4000623B2 (ja) 映像信号記録装置及び映像信号記録方法
JP4341503B2 (ja) 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
JP2006054622A (ja) 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
JP3912548B2 (ja) 光ディスク装置
JP2005348077A (ja) 記録再生装置、及び再生装置。
JP4470638B2 (ja) 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
JP2006303868A (ja) 信号属性判定装置、信号属性判定方法、情報信号記録装置、情報信号記録方法、情報信号再生装置、情報信号再生方法、情報信号記録再生装置および情報信号記録再生方法並びに記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091214

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees