JP2013229734A

JP2013229734A - 映像分割装置、映像分割方法及び映像分割用プログラム

Info

Publication number: JP2013229734A
Application number: JP2012100064A
Authority: JP
Inventors: Masahiro Ozawa; 政博小澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-04-25
Filing date: 2012-04-25
Publication date: 2013-11-07

Abstract

【課題】映像コンテンツをそれぞれが内容的にまとまりのある複数のシーンに分割することにより、ユーザが必要なシーンのみを選択的に視聴するといった視聴形態の実現に寄与し、ユーザによる映像コンテンツの視聴の効率化を図り得るようにした映像分割装置、映像分割方法及び映像分割用プログラムを提供すること。
【解決手段】実施の形態によれば、映像分割装置は、蓄積手段と抽出手段と分割手段とを備える。蓄積手段は、映像コンテンツを構成する複数の映像フレームから、所定ラインの映像を時間順に取り出したスライス画像を蓄積する。抽出手段は、蓄積手段に所定ラインの映像が時間順に蓄積される毎に、スライス画像中から時間軸方向の線分を抽出する。分割手段は、抽出手段で抽出された線分の時間軸方向の距離に基づいて、映像コンテンツを複数のシーンに分割する。
【選択図】図３

Description

この発明の実施の形態は、映像をシーン毎に分割する映像分割装置、映像分割方法及び映像分割用プログラムに関する。

周知のように、近年では、放送の多チャンネル化やネットワーク回線の発達等、情報配信技術の発展に基づき多くの映像コンテンツが市場に流通するようになっている。また、情報を記録する記録装置としても、大容量の情報を記録可能な機能を備えたものが開発されており、大量の映像コンテンツを記録することが可能になっている。

しかしながら、記録装置に記録した映像コンテンツを、ユーザが視聴することができる時間には限りがある。すなわち、大量の映像コンテンツを記録装置に記録することができたとしても、その記録した映像コンテンツの全てをユーザが視聴することは、非常に困難なこととなっている。

特開２００７−２７４１５４号公報

映像コンテンツをそれぞれが内容的にまとまりのある複数のシーンに分割することにより、ユーザが必要なシーンのみを選択的に視聴するといった視聴形態の実現に寄与し、ユーザによる映像コンテンツの視聴の効率化を図り得るようにした映像分割装置、映像分割方法及び映像分割用プログラムを提供することを目的とする。

実施の形態によれば、映像分割装置は、蓄積手段と抽出手段と分割手段とを備える。蓄積手段は、映像コンテンツを構成する複数の映像フレームから、所定ラインの映像を時間順に取り出したスライス画像を蓄積する。抽出手段は、蓄積手段に所定ラインの映像が時間順に蓄積される毎に、スライス画像中から時間軸方向の線分を抽出する。分割手段は、抽出手段で抽出された線分の時間軸方向の距離に基づいて、映像コンテンツを複数のシーンに分割する。

実施の形態としてのデジタルテレビジョン放送受信装置の信号処理系の一例を説明するために示すブロック構成図。同実施の形態におけるデジタルテレビジョン放送受信装置の映像分割処理部が行なうテロップを利用したシーン分割処理の一例を説明するために示す図。同実施の形態における映像分割処理部の一例を説明するために示すブロック構成図。同実施の形態における映像分割処理部が行なうテロップを利用したシーン分割処理の具体例を説明するために示す図。同実施の形態における映像分割処理部が行なう主要な処理動作の一例を説明するために示すフローチャート。同実施の形態における映像分割処理部の他の例を説明するために示すブロック構成図。同他の例に係る映像分割処理部が行なう主要な処理動作の一例を説明するために示すフローチャート。同他の例に係る映像分割処理部が行なう主要な処理動作の第１の部分の一例を詳細に説明するために示すフローチャート。同他の例に係る映像分割処理部が行なう主要な処理動作の第２の部分の一例を詳細に説明するために示すフローチャート。同他の例に係る映像分割処理部が行なう主要な処理動作の残りの部分の一部の一例を詳細に説明するために示すフローチャート。同他の例に係る映像分割処理部が行なう主要な処理動作の残りの部分の残部の一例を詳細に説明するために示すフローチャート。同実施の形態における映像分割処理部が行なう文字列領域検出処理の一例を説明するために示す図。同実施の形態における映像分割処理部が行なう文字列領域検出処理動作の一例を説明するために示すフローチャート。

以下、実施の形態について図面を参照して詳細に説明する。図１は、この実施の形態で説明するデジタルテレビジョン放送受信装置１１の信号処理系を概略的に示している。

すなわち、アンテナ１２で受信したデジタルテレビジョン放送信号は、入力端子１３を介してチューナ部１４に供給されることにより、所望のチャンネルの放送信号が選局される。このチューナ部１４で選局された放送信号は、復調復号部１５に供給されてデジタルの映像信号及び音声信号等に復元された後、信号処理部１６に出力される。

この信号処理部１６は、復調復号部１５から供給されたデジタルの映像信号及び音声信号に対してそれぞれ所定のデジタル信号処理を施している。そして、この信号処理部１６は、デジタルの映像信号を合成処理部１７に出力し、デジタルの音声信号を音声処理部１８に出力している。

このうち、合成処理部１７は、信号処理部１６から供給されるデジタルの映像信号に、ＯＳＤ（on screen display）信号を重畳して出力している。この合成処理部１７から出力されたデジタルの映像信号は、映像処理部１９に供給されて、後段の映像表示パネル２０で表示可能なフォーマットのアナログ映像信号に変換された後、上記映像表示パネル２０に供給されて映像表示に供される。

また、上記音声処理部１８は、入力されたデジタルの音声信号を、後段のスピーカ２１で再生可能なフォーマットのアナログ音声信号に変換している。そして、この音声処理部１８から出力されたアナログ音声信号が、上記スピーカ２１に供給されることにより音声再生に供される。

ここで、このデジタルテレビジョン放送受信装置１１は、上記した各種の受信動作を含む種々の動作を制御部２２によって統括的に制御されている。この制御部２２は、ＣＰＵ（central processing unit）２２ａを内蔵しており、デジタルテレビジョン放送受信装置１１の本体に設けられた操作部２３からの操作情報、または、リモートコントローラ２４から送信され受光部２５で受信された操作情報を受けることによって、その操作内容が反映されるように各部をそれぞれ制御している。

この場合、制御部２２は、メモリ部２２ｂを利用している。このメモリ部２２ｂは、主として、ＣＰＵ２２ａが実行する制御プログラムを格納したＲＯＭ（read only memory）と、該ＣＰＵ２２ａに作業エリアを提供するためのＲＡＭ（random access memory）と、各種の設定情報及び制御情報等が格納される不揮発性メモリとを有している。

また、この制御部２２には、ＨＤＤ（hard disk drive）２６が接続されている。この制御部２２は、ユーザによる操作部２３やリモートコントローラ２４の操作に基づいて、上記信号処理部１６から得られるデジタルの映像信号及び音声信号をＨＤＤ２６に供給し、暗号化して所定の記録フォーマットに変換した後、ハードディスク２６ａに記録させるように制御することができる。

さらに、この制御部２２は、ユーザによる操作部２３やリモートコントローラ２４の操作に基づいて、ＨＤＤ２６によりハードディスク２６ａからデジタルの映像信号及び音声信号を読み出させて復号化した後、信号処理部１６に供給することによって、以後、上記した映像表示及び音声再生に供させるように制御することができる。

また、この制御部２２には、ネットワークインターフェース２７が接続されている。このネットワークインターフェース２７は、外部のネットワーク回線網２８に接続されている。そして、このネットワーク回線網２８には、当該ネットワーク回線網２８を介した通信機能を利用して各種のサービスを提供するためのネットワークサーバ２９が接続されている。

このため、制御部２２は、ユーザによる操作部２３やリモートコントローラ２４の操作に基づき、ネットワークインターフェース２７及びネットワーク回線網２８を介して、ネットワークサーバ２９にアクセスして情報通信を行なうことにより、そこで提供しているサービスを利用することができるようになっている。

また、上記制御部２２には、映像分割処理部２２ｃが設けられている。この映像分割処理部２２ｃは、詳細は後述するが、例えばデジタルテレビジョン放送を受信して得られた映像信号及び音声信号を含む映像コンテンツを、それぞれが内容的にまとまりのある複数のシーンに分割している。

このように、放送を受信して得られた映像コンテンツを、それぞれが内容的にまとまりのある複数のシーンに分割することにより、その映像コンテンツをＨＤＤ２６でハードディスク２６ａに記録することを考えた場合、シーン毎にチャプタを付して記録することができるようになる。

これにより、ユーザは、ハードディスク２６ａに記録された映像コンテンツを再生して視聴する際、チャプタにより自分の必要とするシーンを指定して視聴するといった視聴形態を実現することができるようになる。このため、記録された映像コンテンツを最初から最後まで全て視聴しなくても済むことになり、ユーザが映像コンテンツを視聴する際の効率化を図ることができるようになる。

ここで、上記映像分割処理部２２ｃは、映像コンテンツ内におけるテロップの有無によってシーン分割を行なうようにしている。すなわち、テロップが出現した時点をシーンの開始とし、同一テロップが表示されている期間は同じシーンであるとし、そのテロップが消滅した時点を当該シーンの終了とするようにしている。

図２は、上記映像分割処理部２２ｃが行なうテロップを利用したシーン分割処理の一例を模式的に示している。この映像分割処理部２２ｃは、図２（ａ）に示すように、時間的に連続する複数の映像フレームＦを入力する。これらの映像フレームＦについては、テロップＴが含まれている場合と含まれていない場合とが想定される。

そして、映像分割処理部２２ｃは、図２（ｂ）に示すように、入力された複数の映像フレームＦを、所定枚数単位で蓄積して１つの時空間画像３０を生成する。その後、映像分割処理部２２ｃは、図２（ｃ）に示すように、時空間画像３０を時間軸に平行な面で切断する。

この場合、時空間画像３０の切断面（以下、スライス画像という）がテロップＴを含んでいれば、そのスライス画像には、図２（ｄ）に示すように、その時間軸方向の長さがテロップＴの出現期間を示す線分３１が現れる。このため、映像分割処理部２２ｃでは、スライス画像に現れた線分３１の位置、幅、長さ等を解析することにより、同一テロップＴの出現から消滅までを判断して、シーン分割を行なうことができる。

なお、上記の説明では、時空間画像３０を時間軸に平行で、かつ、映像フレームＦの水平ラインに平行な面で切断するようにしたが、これに限らず、時間軸に平行で、かつ、映像フレームＦの垂直方向に平行な面で切断するようにしてもよいし、斜めの面や湾曲した面で切断するようにしても良いことはもちろんである。

また、切断する面の数としては、多すぎるとスライス画像を蓄積するメモリ容量が多く必要となり、また、テロップＴの検出処理も煩雑になる。

この実施の形態では、画面上部と画面下部とにテロップＴが表示されることが多いことや、画面上部ではテロップＴが２行で表示されることが多いこと等を勘案し、画面上部の２つの水平ラインと画面下部の１つの水平ラインとを切断面として、３つのスライス画像を得ることが望ましいとする。

図３は、上記した映像分割処理部２２ｃの一例を示している。この映像分割処理部２２ｃは、先に述べたように、スライス画像を用いてシーン分割処理を行なうシーン分割処理部３２を備えている。すなわち、このシーン分割処理部３２は、時間的に連続する複数の映像フレームＦが時間順に入力される入力端子３２ａを備えている。

この入力端子３２ａに供給された複数の映像フレームＦは、スライス画像蓄積部３２ｂに供給される。このスライス画像蓄積部３２ｂは、順次入力される複数の映像フレームＦから、予め設定された位置にある１本の水平ラインの映像を取得して蓄積する。これにより、スライス画像蓄積部３２ｂには、図４（ａ）に具体例を示すように、複数の映像フレームＦにおける所定の位置にある１本の水平ラインのみを時間順に並べたスライス画像が蓄積されることになる。

このスライス画像において、テロップＴが出現していた期間は、時間軸方向に連続した色と一定のエッジ強度とを持つ線分として現れる。このため、この線分の出現期間を検出することができれば、シーンの区切りを検出してシーン分割を行なうことができることになる。しかしながら、透明乃至半透明なテロップＴは、背景の色によって肉眼では同じ色に見えても実際の色成分は変化している場合があり、単純に色成分が同一か否かを見ることで線分を検出することは誤検出を招くことになる。

そこで、シーン分割処理部３２では、線分が表示されている期間を検出するために、スライス画像の色成分をそのまま使用するのではなく、まず、スライス画像から時間方向の輝度エッジ強度を持っている領域のみを抽出した画像を作成し、その画像からシーンの区切りを検出するようにしている。

すなわち、上記スライス画像蓄積部３２ｂに蓄積されたスライス画像は、ラプラシアンフィルタ処理部３２ｃに供給されてエッジの検出が行なわれる。ラプラシアンフィルタとは、空間２次微分を計算し、輪郭を検出するフィルタのことであり、ラプラシアンフィルタを用いることにより輝度の差分の変化量が極端に大きくなっている部分を抽出することができる。

ただし、スライス画像がＲ（red）Ｇ（green）Ｂ（blue）成分のままではラプラシアンフィルタを適用することができないため、このラプラシアンフィルタ処理部３２ｃでは、まず、図４（ａ）に示したスライス画像から各画素の輝度値のみをとって、図４（ｂ）に示すような輝度画像を作成し、その輝度画像にラプラシアンフィルタを適用することにより、図４（ｃ）に示すように、スライス画像からエッジを抽出した画像を得るようにしている。

ところで、ラプラシアンフィルタを適用してエッジを抽出した画像は、多数のノイズを含んでいる。これらのノイズは、シーンの区切りを検出する際に検出誤りを引き起こす原因となるため、ノイズ除去処理部３２ｄを用いてノイズ除去を行なうようにしている。このノイズ除去処理部３２ｄでは、ラプラシアンフィルタ処理部３２ｃの出力画像から時間軸方向の線分のみを残したいため、注目画素に対して水平方向にそれぞれ１画素ずつ、時間軸の過去方向に５画素の画素を取得し、それぞれの画素値を適当な閾値で２値化した値を用いて多数決により投票を行ない、過半数の結果を占めた値を注目画像の値とすることで、図４（ｄ）に示すようなノイズを除去した画像を作成している。

次に、ノイズ除去された画像を領域伸張処理部３２ｅに供給して領域伸張処理を施すことにより、図４（ｅ）に示すように、水平方向に１画素ずつ領域を伸張した画像を作成する。その後、領域伸張した画像をマスク処理部３２ｆに供給することより、図４（ａ）に示した元のスライス画像に対して、図４（ｅ）に示した画像で対応する画素の輝度値が０の領域を除去するようにマスクすることにより、図４（ｆ）に示すように、元のスライス画像から時間方向のエッジ強度を持っている領域のみを抽出した画像を得ている。

このようして得られた図４（ｆ）に示す画像から、距離計算処理部３２ｇによりテロップＴが切り替わった場所の検出が行なわれる。この検出は、前後の映像フレームＦ間における線分の距離を計算し、その距離が閾値以上であったらシーンの区切りであると判断することにより行なわれる。

具体的に言えば、この距離の計算は、注目する映像フレームＦに含まれる水平ラインのうち左からｉ画素目のＲＧＢ色成分を（ｒ_i，ｇ_i，ｂ_i）とし、注目する映像フレームＦより１フレーム過去方向へ進んだフレームに含まれる１本の水平ラインのうち左からｉ画素目のＲＧＢ色成分を（ｒ_i′，ｇ_i′，ｂ_i′）とし、注目する映像フレームＦより１フレーム未来方向へ進んだフレームに含まれる１本の水平ラインのうち左からｉ画素目のＲＧＢ色成分を（ｒ_i″，ｇ_i″，ｂ_i″）とし、距離Ｄ₁，Ｄ₂を

と定義したときに、
Ｄ＝Ｄ₁−Ｄ₂
として行なわれる。

この距離計算処理部３２ｇは、算出した距離Ｄを閾値と比較してシーンの区切りを判別することによりシーン分割を行ない、そのシーン分割情報が出力端子３２ｈから取り出されて、以下、映像コンテンツをシーン毎にチャプタを付加してＨＤＤ２６でハードディスク２６ａに記録する処理等に供されることになる。

図５は、上記したシーン分割処理部３２が行なう主要な処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ５ａ）されると、シーン分割処理部３２は、ステップＳ５ｂで、入力された映像フレームＦから、予め定められた位置にある１本の水平ラインの映像を取得して蓄積する。

そして、以後、シーン分割処理部３２は、前述したように、蓄積された映像に対して、ステップＳ５ｃで、ラプラシアンフィルタ処理を施し、ステップＳ５ｄで、ノイズ除去処理を施し、ステップＳ５ｅで、領域伸張処理を施し、ステップＳ５ｆで、マスク処理を施すように動作する。

その後、シーン分割処理部３２は、ステップＳ５ｇで、距離計算処理を行なって算出された距離が閾値以上であるか否かを判別し、閾値以上であると判断された場合（ＹＥＳ）、ステップＳ５ｈで、シーン分割を実行する。

このステップＳ５ｈの後、または、上記ステップＳ５ｇで距離が閾値以上でないと判断された場合（ＮＯ）、シーン分割処理部３２は、ステップＳ５ｉで、残りの映像フレームＦが存在するか否かを判別する。

そして、存在すると判断された場合（ＹＥＳ）、シーン分割処理部３２は、ステップＳ５ｂの処理に戻されて、次の映像フレームＦから１本の水平ラインの映像を取得し、存在しないと判断された場合（ＮＯ）、処理を終了（ステップＳ５ｊ）する。

上記した実施の形態によれば、映像フレームＦが入力される毎に、その中の予め設定された位置にある数本の水平ラインの映像に基づいて、シーンの区切りを判別する処理を逐次行なうようにしたので、シーン分割処理にかかる負担が軽減されるとともに、シーン分割処理のために映像を蓄積するメモリの容量も削減することができる。

このため、例えば、１つのチューナ部１４を用いて受信チャンネルを自動的に次々と切り替えることにより、複数の番組に対してそれぞれシーン分割を行なって記録するような使用形態も実現することが可能となる。なお、この場合、チャンネル切り替えに時間がかかることを考慮して、５秒間に１度程度の割合で映像フレームＦを取得することが望ましいものとする。

また、複数のチューナ部１４を設置し、多数のチャンネルで放送される番組を同時に記録する、いわゆる、マルチチャンネル同時録画を行なう場合にも、各チャンネルの映像コンテンツをシーン分割して記録するのに有効である。

次に、上記した映像分割処理部２２ｃの他の例について説明する。すなわち、図６に示す映像分割処理部２２ｄは、先に図３で説明したスライス画像を用いてシーン分割処理を行なうシーン分割処理部３２と、文字認識結果を用いてシーン分割処理を行なうシーン分割処理部３３とを備え、両方のシーン分割処理部３２，３３から得られるシーン分割結果を用いることにより、より正確にシーンの分割を行なえるようにしたものである。

なお、図６において、シーン分割処理部３２は、図３に示したものと同じ構成であるから、その詳細な構成の記載は省略している。

一方、文字認識結果を用いるシーン分割処理部３３では、５秒間隔で取得した映像フレームＦに対して、それぞれテロップ領域検出処理及びその検出された領域に対する文字認識処理を行ない、その結果から１２フレーム以上（１分以上）同じ文字列が検出された場合に、その区間を１つのシーンとすることでシーンの区切りを行なっている。

すなわち、シーン分割処理部３３は、時間的に連続する複数の映像フレームＦが順次入力される入力端子３３ａを備えている。この入力端子３３ａに供給された映像フレームＦは、映像フレーム蓄積部３３ｂに蓄積された後、文字成分検出部３３ｃに供給される。この文字成分検出部３３ｃは、映像フレームのＲＧＢ色成分に適当な閾値を設定することにより２値化を行ない、その値が連続する領域を矩形で囲うことによって、１文字ずつの文字成分を検出している。

この文字成分検出部３３ｃの検出結果は、文字列領域検出部３３ｄに供給される。この文字列領域検出部３３ｄは、文字成分検出部３３ｃで検出された１文字に対応する矩形について、一定の間隔で同じような大きさの矩形が存在する等、矩形の並びを見て文字列かどうかを判断している。この文字列領域検出部３３ｄによって検出された文字列領域がテロップの領域を示すことになる。

そして、この文字列領域検出部３３ｄの検出結果は、文字認識処理部３３ｅに供給される。この文字認識処理部３３ｅは、文字列領域検出部３３ｄによって検出された領域に対して、ＯＣＲ（optical character recognition）エンジンを用いることにより、文字認識を行なっている。

その後、この文字認識処理部３３ｅの認識結果は、連続文字出現検出部３３ｆに供給される。この連続文字出現検出部３３ｆは、上記文字列領域検出部３３ｄ及び文字認識処理部３３ｅの結果に基づいて、シーンの区切りを検出している。すなわち、同じ（類似度の高い）文字列領域内に同じ（類似度の高い）文字が連続して１２フレーム以上出現した場合に、その期間をシーンとして検出してシーン分割を行ない、そのシーン分割情報が出力端子３３ｇから取り出される。

図７は、２つのシーン分割処理部３２，３３を備えた映像分割処理部２２ｄが行なう主要な処理動作の概略をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ７ａ）されると、映像分割処理部２２ｄは、ステップＳ７ｂで、スライス画像を用いてシーン分割処理を行なうシーン分割処理部３２が出力するシーン分割情報を取得する。

次に、映像分割処理部２２ｄは、ステップＳ７ｃで、文字認識結果を用いてシーン分割処理を行なうシーン分割処理部３３が出力するシーン分割情報を取得する。その後、映像分割処理部２２ｄは、ステップＳ７ｄで、残りの映像フレームＦが存在するか否かを判別する。

そして、存在すると判断された場合（ＹＥＳ）、映像分割処理部２２ｄは、ステップＳ７ｂの処理に戻されて、次の映像フレームＦをシーン分割処理部３２によるシーン分割処理に供させる。

また、上記ステップＳ７ｄで、残りの映像フレームＦが存在しないと判断された場合（ＮＯ）、映像分割処理部２２ｄは、ステップＳ７ｅで、両方のシーン分割処理部３２，３３から取得したシーン分割情報を用いてより正確なシーン分割を行ない、処理を終了（ステップＳ７ｆ）する。

ここで、上記ステップＳ７ｅの処理についてより詳細に説明する。すなわち、スライス画像を用いたシーンの区切り検出と、文字認識を用いたシーンの区切り検出とが完了した場合、それぞれにおいて検出されたシーンの区切りを合わせて、その全てをシーンの区切りとすると、本来のシーンよりも過剰にシーンが分割されてしまうことになる。両方の手法で検出されたシーンの区切りに対し、文字認識の結果を利用することで、同じシーンと思われるシーン同士を統合する等、シーンの区切り位置の調整を行なうことができ、より正確なシーン分割を行なうことができる。

文字認識の結果を用いたシーンの統合を行なう前に、前処理として形態素解析を行なうことにより検出された文字列のうち明らかに誤認識と思われる文字列の除去を行なう必要がある。また、分割された各シーンのシーン名を抽出する。このシーン名の抽出には、文字列領域の文字認識結果が利用される。

その後、文字認識結果を利用して、過剰に分割されたシーンの統合が行なわれる。すなわち、分割された１つのシーンに対し、その１つ前及び２つ前のシーン名についてシーン名の形態素解析を行なった形態素の中で、同一（類似度の高い）の文字が２文字以上出現した場合は、同一のシーンとして統合を行なうことができる。

さらに、あるシーンの先頭のフレームから遡って３フレーム以内に、そのシーン名と同じ（類似度の高い）文字が２文字以上含まれていた場合は、シーンの区切りの位置をそのフレームに変更する。これにより、何らかの検出ミスによって、同じシーンであるのに別のシーンとして検出されてしまったものを統合することができる。

図８は、上記ステップＳ７ｂにおいてシーン分割処理部３２が行なう処理動作の一例をまとめたフローチャートを示している。この処理動作は、基本的に、先に図５で説明したものとほぼ同様であり、処理が開始（ステップＳ８ａ）されると、シーン分割処理部３２は、ステップＳ８ｂで、入力された映像フレームＦから、予め定められた位置にある１本の水平ラインの映像を取得して蓄積する。

そして、以後、シーン分割処理部３２は、前述したように、蓄積された映像に対して、ステップＳ８ｃで、ラプラシアンフィルタ処理を施し、ステップＳ８ｄで、ノイズ除去処理を施し、ステップＳ８ｅで、領域伸張処理を施し、ステップＳ８ｆで、マスク処理を施すように動作する。

その後、シーン分割処理部３２は、ステップＳ８ｇで、距離計算処理を行なって算出された距離が閾値以上であるか否かを判別し、閾値以上であると判断された場合（ＹＥＳ）、ステップＳ８ｈで、シーン分割を実行して、処理を終了（ステップＳ８ｉ）する。なお、上記ステップＳ８ｇで距離が閾値以上でないと判断された場合（ＮＯ）にも、シーン分割処理部３２は、処理を終了（ステップＳ８ｉ）する。

図９は、上記ステップＳ７ｃにおいてシーン分割処理部３３が行なう処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ９ａ）されると、シーン分割処理部３３は、ステップＳ９ｂで、映像フレームＦを取得し、ステップＳ９ｃで、映像フレームに２値化処理を行ない、ステップＳ９ｄで、１文字ずつの文字成分を検出し、それに対応した矩形を生成している。

そして、シーン分割処理部３３は、ステップＳ９ｅで、矩形の並びを見て文字列領域を検出し、ステップＳ９ｆで、文字列領域に対して文字認識を行ない、ステップＳ９ｇで、文字認識結果を保存する。

その後、シーン分割処理部３３は、ステップＳ９ｈで、同じ（類似度の高い）文字列領域内に同じ（類似度の高い）文字が連続して閾値以上出現したか否かを判別し、出現したと判断された場合（ＹＥＳ）、ステップＳ９ｉで、その期間をシーンとして検出してシーン分割を実行し、処理を終了（ステップＳ９ｊ）する。なお、上記ステップＳ９ｈで閾値以上出現していないと判断された場合（ＮＯ）にも、シーン分割処理部３３は、処理を終了（ステップＳ９ｊ）する。

図１０及び図１１は、上記ステップＳ７ｅにおいて映像分割処理部２２ｄが行なう処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ１０ａ）されると、映像分割処理部２２ｄは、ステップＳ１０ｂで、各シーン分割処理部３２，３３から得られるシーン分割情報に基づいてシーン分割を実行する。

その後、映像分割処理部２２ｄは、ステップＳ１０ｃで、分割されたそれぞれのシーンからシーン名を抽出する。このシーン名の抽出は、分割されたそれぞれのシーンについて文字列の出現頻度を計算し、一番出現頻度の高い文字列をそのシーンのシーン名とすることで行なわれる。

次に、映像分割処理部２２ｄは、ステップＳ１０ｄで、一番先頭のシーンを注目シーンとしてそのシーン名を取得し、ステップＳ１０ｅで、１つ前のシーンが存在するか否かを判別する。そして、１つ前のシーンが存在しないと判断された場合（ＮＯ）、映像分割処理部２２ｄは、ステップＳ１１ｄで、残りのシーンが存在するか否かを判別する。

そして、存在すると判断された場合（ＹＥＳ）、映像分割処理部２２ｄは、ステップＳ１０ｅの処理に戻されて、次のシーンを注目シーンとしてその１つ前のシーンが存在するか否かの判別を実行する。また、上記ステップＳ１１ｄで残りのシーンが存在しないと判断された場合（ＮＯ）、映像分割処理部２２ｄは、処理を終了（ステップＳ１１ｅ）する。

一方、上記ステップＳ１０ｅで１つ前のシーンが存在すると判断された場合（ＹＥＳ）、映像分割処理部２２ｄは、ステップＳ１０ｆで、注目シーンのシーン名がその１つ前のシーンのシーン名と２文字以上一致しているか否か（類似度が高いか否か）を判別し、一致している（類似度が高い）と判断された場合（ＹＥＳ）、ステップＳ１０ｇで、注目シーンをその１つ前のシーンと統合する。

このステップＳ１０ｇの後、または、上記ステップＳ１０ｆで注目シーンのシーン名がその１つ前のシーンのシーン名と２文字以上一致していない（類似度が低い）と判断された場合（ＮＯ）、映像分割処理部２２ｄは、ステップＳ１１ａで、注目シーンの２つ前のシーンが存在するか否かを判別し、存在しないと判断された場合（ＮＯ）、ステップＳ１１ｄの処理に移行し、残りのシーンが存在するか否かの判別を実行する。

また、上記ステップＳ１１ａで注目シーンの２つ前のシーンが存在すると判断された場合（ＹＥＳ）、映像分割処理部２２ｄは、ステップＳ１１ｂで、注目シーンのシーン名がその２つ前のシーンのシーン名と２文字以上一致しているか否か（類似度が高いか否か）を判別し、一致している（類似度が高い）と判断された場合（ＹＥＳ）、ステップＳ１１ｃで、注目シーンをその２つ前のシーンと統合する。

このステップＳ１１ｃの後、または、上記ステップＳ１１ｂで注目シーンのシーン名がその２つ前のシーンのシーン名と２文字以上一致していない（類似度が低い）と判断された場合（ＮＯ）、映像分割処理部２２ｄは、ステップＳ１１ｄの処理に移行し、残りのシーンが存在するか否かの判別を実行する。

上記した映像分割処理部２２ｃの他の例のように、スライス画像から検出されたシーンの区切りと文字認識から検出されたシーンの区切りとに基づいてシーン分割を行ない、文字認識の結果を利用して同じシーンと思われるシーン同士を統合する等、シーンの区切り位置の調整を行なうことにより、より正確なシーン分割を行なうことができる。

ここで、スライス画像からシーンの区切りを検出するシーン分割処理部３２の検出結果は、文字認識結果からシーンの区切りを検出するシーン分割処理部３３において、その文字列領域検出部３３ｄが文字列領域（テロップ領域）を検出する処理の補助として利用することができる。

すなわち、一般に、文字列領域検出では、本来の文字列領域に対して、その一部分しか文字列領域として検出されないという失敗が生じることがある。このような検出の失敗に対して、文字列領域がスライス画像を生成したラインと同じ位置にある場合には、スライス画像から抽出した線分領域の情報を、文字列領域を検出する処理の補助として利用することが可能である。

図１２（ａ）は、文字列領域検出を行なった結果に対し、スライス画像から線分領域を抽出した結果を重ね合わせた画像である。ここから見てとれるように、文字列領域検出では、本来の文字列領域が分散して検出されている（日、本、型モール）が、スライス画像に基づく線分からは本来の文字列領域（日本型モール）が検出できていることが分かる。そこで、図１２（ｂ）に示すように、文字列領域検出で検出された矩形と、スライス画像からの線分領域とを比較し、２つが交わる場合には文字列領域検出の矩形を伸張することによって、正確な文字列領域の検出を行なうことができる。

図１３は、スライス画像から抽出した線分領域の情報を補助として、上記文字列領域検出部３３ｄが文字列領域を検出する処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ１３ａ）されると、文字列領域検出部３３ｄは、ステップＳ１３ｂで、上記文字成分検出部３３ｃで検出された１文字に対応する矩形の中から、最も高さのある矩形を基準矩形として選択する。

その後、文字列領域検出部３３ｄは、ステップＳ１３ｃで、基準矩形の高さの範囲内にある矩形をグルーピングし、ステップＳ１３ｄで、グルーピングされた矩形内の文字列らしさを計算し、ステップＳ１３ｅで、算出された文字列らしさが閾値以上であるか否かを判別する。

そして、文字列らしさが閾値以上であると判断された場合（ＹＥＳ）、文字列領域検出部３３ｄは、ステップＳ１３ｆで、先にグルーピングされた矩形領域を文字列領域であると判断する。

その後、文字列領域検出部３３ｄは、ステップＳ１３ｇで、検出された文字列領域と、スライス画像から得られる線分領域（具体的には、領域伸張処理部３２ｅの出力画像）とが交差しているか否かを判別し、交差していると判断された場合（ＹＥＳ）、ステップＳ１３ｈで、先に判断した文字列領域をスライス画像から得られる線分領域に基づいてサイズ変更する。

このステップＳ１３ｈの後、または、上記ステップＳ１３ｅで文字列らしさが閾値以上でないと判断された場合（ＮＯ）、または、上記ステップＳ１３ｇで文字列領域とスライス画像から得られる線分領域とが交差していないと判断された場合（ＮＯ）、文字列領域検出部３３ｄは、ステップＳ１３ｉで、文字成分検出部３３ｃで検出された１文字に対応する矩形の中で、まだ処理されていない矩形が存在するか否かを判別する。

そして、処理されていない矩形が存在すると判断された場合（ＹＥＳ）、文字列領域検出部３３ｄは、ステップＳ１３ｂの処理に戻されて、残りの矩形の中から基準矩形の選択が行なわれる。また、上記ステップＳ１３ｉで処理されていない矩形が存在しないと判断された場合（ＮＯ）、文字列領域検出部３３ｄは、処理を終了（ステップＳ１３ｊ）する。

上記したように、スライス画像から抽出した線分領域の情報を補助として文字列領域を検出することにより、文字列領域検出部３３ｄでの文字列領域の誤検出が訂正され、正確な文字列検出を行なうことができるようになり、ひいては、より正確なシーン分割を行なうことができるようになる。

なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。

１１…デジタルテレビジョン放送受信装置、１２…アンテナ、１３…入力端子、１４…チューナ部、１５…復調復号部、１６…信号処理部、１７…合成処理部、１８…音声処理部、１９…映像処理部、２０…映像表示パネル、２１…スピーカ、２２…制御部、２２ａ…ＣＰＵ、２２ｂ…メモリ部、２２ｃ…映像分割処理部、２３…操作部、２４…リモートコントローラ、２５…受光部、２６…ＨＤＤ、２６ａ…ハードディスク、２７…ネットワークインターフェース、２８…ネットワーク回線網、２９…ネットワークサーバ、３０…時空間画像、３１…線分、３２…シーン分割処理部、３２ａ…入力端子、３２ｂ…スライス画像蓄積部、３２ｃ…ラプラシアンフィルタ処理部、３２ｄ…ノイズ除去部、３２ｅ…領域伸張処理部、３２ｆ…マスク処理部、３２ｇ…距離計算処理部、３２ｈ…出力端子、３３…シーン分割処理部、３３ａ…入力端子、３３ｂ…映像フレーム蓄積部、３３ｃ…文字成分検出部、３３ｄ…文字列領域検出部、３３ｅ…文字認識処理部、３３ｆ…連続文字出現検出部、３３ｇ…出力端子。

Claims

映像コンテンツを構成する複数の映像フレームから、所定ラインの映像を時間順に取り出したスライス画像を蓄積する蓄積手段と、
前記蓄積手段に所定ラインの映像が時間順に蓄積される毎に、前記スライス画像中から時間軸方向の線分を抽出する抽出手段と、
前記抽出手段で抽出された線分の時間軸方向の距離に基づいて、前記映像コンテンツを複数のシーンに分割する分割手段とを具備する映像分割装置。
前記抽出手段は、前記スライス画像中から時間軸方向のエッジ強度を持っている領域を抽出した画像を作成し、その画像から時間軸方向の線分を抽出する請求項１記載の映像分割装置。
前記抽出手段は、空間２次微分を計算して輪郭を検出するフィルタを適用することにより、前記スライス画像中から輝度の差分の変化量が大きくなっている部分を抽出する請求項２記載の映像分割装置。
前記抽出手段が用いるフィルタは、ラプラシアンフィルタである請求項３記載の映像分割装置。
前記分割手段は、前記抽出手段で抽出された線分の時間軸方向の距離に基づいて前記映像コンテンツを分割したシーンと、複数の映像フレームに文字認識処理を用いることにより前記映像コンテンツを分割した複数のシーンとについて、文字認識処理を用いてシーンの区切り位置を調整する請求項１記載の映像分割装置。
前記分割手段は、前記映像コンテンツを分割した複数のシーンについて、文字認識処理を用いることにより類似度が高いと判断されたシーン同士を統合する請求項５記載の映像分割装置。
前記分割手段は、前記抽出手段で抽出された線分の時間軸方向の距離に基づいて、前記複数の映像フレームから文字認識処理のために検出した文字列領域のサイズを変更する請求項５記載の映像分割装置。
映像コンテンツを構成する複数の映像フレームから、蓄積手段により、所定ラインの映像を時間順に取り出したスライス画像を蓄積し、
前記蓄積手段に所定ラインの映像が時間順に蓄積される毎に、抽出手段により、前記スライス画像中から時間軸方向の線分を抽出し、
前記抽出手段で抽出された線分の時間軸方向の距離に基づいて、分割手段により、前記映像コンテンツを複数のシーンに分割する映像分割方法。
映像コンテンツを構成する複数の映像フレームから、所定ラインの映像を時間順に取り出したスライス画像を蓄積する蓄積処理と、
前記所定ラインの映像が時間順に蓄積される毎に、前記スライス画像中から時間軸方向の線分を抽出する抽出処理と、
前記抽出された線分の時間軸方向の距離に基づいて、前記映像コンテンツを複数のシーンに分割する分割処理とを、コンピュータに実行させるための映像分割用プログラム。