JP2013229734A - 映像分割装置、映像分割方法及び映像分割用プログラム - Google Patents

映像分割装置、映像分割方法及び映像分割用プログラム Download PDF

Info

Publication number
JP2013229734A
JP2013229734A JP2012100064A JP2012100064A JP2013229734A JP 2013229734 A JP2013229734 A JP 2013229734A JP 2012100064 A JP2012100064 A JP 2012100064A JP 2012100064 A JP2012100064 A JP 2012100064A JP 2013229734 A JP2013229734 A JP 2013229734A
Authority
JP
Japan
Prior art keywords
video
scene
unit
processing unit
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2012100064A
Other languages
English (en)
Inventor
Masahiro Ozawa
政博 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012100064A priority Critical patent/JP2013229734A/ja
Publication of JP2013229734A publication Critical patent/JP2013229734A/ja
Abandoned legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【課題】映像コンテンツをそれぞれが内容的にまとまりのある複数のシーンに分割することにより、ユーザが必要なシーンのみを選択的に視聴するといった視聴形態の実現に寄与し、ユーザによる映像コンテンツの視聴の効率化を図り得るようにした映像分割装置、映像分割方法及び映像分割用プログラムを提供すること。
【解決手段】実施の形態によれば、映像分割装置は、蓄積手段と抽出手段と分割手段とを備える。蓄積手段は、映像コンテンツを構成する複数の映像フレームから、所定ラインの映像を時間順に取り出したスライス画像を蓄積する。抽出手段は、蓄積手段に所定ラインの映像が時間順に蓄積される毎に、スライス画像中から時間軸方向の線分を抽出する。分割手段は、抽出手段で抽出された線分の時間軸方向の距離に基づいて、映像コンテンツを複数のシーンに分割する。
【選択図】図3

Description

この発明の実施の形態は、映像をシーン毎に分割する映像分割装置、映像分割方法及び映像分割用プログラムに関する。
周知のように、近年では、放送の多チャンネル化やネットワーク回線の発達等、情報配信技術の発展に基づき多くの映像コンテンツが市場に流通するようになっている。また、情報を記録する記録装置としても、大容量の情報を記録可能な機能を備えたものが開発されており、大量の映像コンテンツを記録することが可能になっている。
しかしながら、記録装置に記録した映像コンテンツを、ユーザが視聴することができる時間には限りがある。すなわち、大量の映像コンテンツを記録装置に記録することができたとしても、その記録した映像コンテンツの全てをユーザが視聴することは、非常に困難なこととなっている。
特開2007−274154号公報
映像コンテンツをそれぞれが内容的にまとまりのある複数のシーンに分割することにより、ユーザが必要なシーンのみを選択的に視聴するといった視聴形態の実現に寄与し、ユーザによる映像コンテンツの視聴の効率化を図り得るようにした映像分割装置、映像分割方法及び映像分割用プログラムを提供することを目的とする。
実施の形態によれば、映像分割装置は、蓄積手段と抽出手段と分割手段とを備える。蓄積手段は、映像コンテンツを構成する複数の映像フレームから、所定ラインの映像を時間順に取り出したスライス画像を蓄積する。抽出手段は、蓄積手段に所定ラインの映像が時間順に蓄積される毎に、スライス画像中から時間軸方向の線分を抽出する。分割手段は、抽出手段で抽出された線分の時間軸方向の距離に基づいて、映像コンテンツを複数のシーンに分割する。
実施の形態としてのデジタルテレビジョン放送受信装置の信号処理系の一例を説明するために示すブロック構成図。 同実施の形態におけるデジタルテレビジョン放送受信装置の映像分割処理部が行なうテロップを利用したシーン分割処理の一例を説明するために示す図。 同実施の形態における映像分割処理部の一例を説明するために示すブロック構成図。 同実施の形態における映像分割処理部が行なうテロップを利用したシーン分割処理の具体例を説明するために示す図。 同実施の形態における映像分割処理部が行なう主要な処理動作の一例を説明するために示すフローチャート。 同実施の形態における映像分割処理部の他の例を説明するために示すブロック構成図。 同他の例に係る映像分割処理部が行なう主要な処理動作の一例を説明するために示すフローチャート。 同他の例に係る映像分割処理部が行なう主要な処理動作の第1の部分の一例を詳細に説明するために示すフローチャート。 同他の例に係る映像分割処理部が行なう主要な処理動作の第2の部分の一例を詳細に説明するために示すフローチャート。 同他の例に係る映像分割処理部が行なう主要な処理動作の残りの部分の一部の一例を詳細に説明するために示すフローチャート。 同他の例に係る映像分割処理部が行なう主要な処理動作の残りの部分の残部の一例を詳細に説明するために示すフローチャート。 同実施の形態における映像分割処理部が行なう文字列領域検出処理の一例を説明するために示す図。 同実施の形態における映像分割処理部が行なう文字列領域検出処理動作の一例を説明するために示すフローチャート。
以下、実施の形態について図面を参照して詳細に説明する。図1は、この実施の形態で説明するデジタルテレビジョン放送受信装置11の信号処理系を概略的に示している。
すなわち、アンテナ12で受信したデジタルテレビジョン放送信号は、入力端子13を介してチューナ部14に供給されることにより、所望のチャンネルの放送信号が選局される。このチューナ部14で選局された放送信号は、復調復号部15に供給されてデジタルの映像信号及び音声信号等に復元された後、信号処理部16に出力される。
この信号処理部16は、復調復号部15から供給されたデジタルの映像信号及び音声信号に対してそれぞれ所定のデジタル信号処理を施している。そして、この信号処理部16は、デジタルの映像信号を合成処理部17に出力し、デジタルの音声信号を音声処理部18に出力している。
このうち、合成処理部17は、信号処理部16から供給されるデジタルの映像信号に、OSD(on screen display)信号を重畳して出力している。この合成処理部17から出力されたデジタルの映像信号は、映像処理部19に供給されて、後段の映像表示パネル20で表示可能なフォーマットのアナログ映像信号に変換された後、上記映像表示パネル20に供給されて映像表示に供される。
また、上記音声処理部18は、入力されたデジタルの音声信号を、後段のスピーカ21で再生可能なフォーマットのアナログ音声信号に変換している。そして、この音声処理部18から出力されたアナログ音声信号が、上記スピーカ21に供給されることにより音声再生に供される。
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含む種々の動作を制御部22によって統括的に制御されている。この制御部22は、CPU(central processing unit)22aを内蔵しており、デジタルテレビジョン放送受信装置11の本体に設けられた操作部23からの操作情報、または、リモートコントローラ24から送信され受光部25で受信された操作情報を受けることによって、その操作内容が反映されるように各部をそれぞれ制御している。
この場合、制御部22は、メモリ部22bを利用している。このメモリ部22bは、主として、CPU22aが実行する制御プログラムを格納したROM(read only memory)と、該CPU22aに作業エリアを提供するためのRAM(random access memory)と、各種の設定情報及び制御情報等が格納される不揮発性メモリとを有している。
また、この制御部22には、HDD(hard disk drive)26が接続されている。この制御部22は、ユーザによる操作部23やリモートコントローラ24の操作に基づいて、上記信号処理部16から得られるデジタルの映像信号及び音声信号をHDD26に供給し、暗号化して所定の記録フォーマットに変換した後、ハードディスク26aに記録させるように制御することができる。
さらに、この制御部22は、ユーザによる操作部23やリモートコントローラ24の操作に基づいて、HDD26によりハードディスク26aからデジタルの映像信号及び音声信号を読み出させて復号化した後、信号処理部16に供給することによって、以後、上記した映像表示及び音声再生に供させるように制御することができる。
また、この制御部22には、ネットワークインターフェース27が接続されている。このネットワークインターフェース27は、外部のネットワーク回線網28に接続されている。そして、このネットワーク回線網28には、当該ネットワーク回線網28を介した通信機能を利用して各種のサービスを提供するためのネットワークサーバ29が接続されている。
このため、制御部22は、ユーザによる操作部23やリモートコントローラ24の操作に基づき、ネットワークインターフェース27及びネットワーク回線網28を介して、ネットワークサーバ29にアクセスして情報通信を行なうことにより、そこで提供しているサービスを利用することができるようになっている。
また、上記制御部22には、映像分割処理部22cが設けられている。この映像分割処理部22cは、詳細は後述するが、例えばデジタルテレビジョン放送を受信して得られた映像信号及び音声信号を含む映像コンテンツを、それぞれが内容的にまとまりのある複数のシーンに分割している。
このように、放送を受信して得られた映像コンテンツを、それぞれが内容的にまとまりのある複数のシーンに分割することにより、その映像コンテンツをHDD26でハードディスク26aに記録することを考えた場合、シーン毎にチャプタを付して記録することができるようになる。
これにより、ユーザは、ハードディスク26aに記録された映像コンテンツを再生して視聴する際、チャプタにより自分の必要とするシーンを指定して視聴するといった視聴形態を実現することができるようになる。このため、記録された映像コンテンツを最初から最後まで全て視聴しなくても済むことになり、ユーザが映像コンテンツを視聴する際の効率化を図ることができるようになる。
ここで、上記映像分割処理部22cは、映像コンテンツ内におけるテロップの有無によってシーン分割を行なうようにしている。すなわち、テロップが出現した時点をシーンの開始とし、同一テロップが表示されている期間は同じシーンであるとし、そのテロップが消滅した時点を当該シーンの終了とするようにしている。
図2は、上記映像分割処理部22cが行なうテロップを利用したシーン分割処理の一例を模式的に示している。この映像分割処理部22cは、図2(a)に示すように、時間的に連続する複数の映像フレームFを入力する。これらの映像フレームFについては、テロップTが含まれている場合と含まれていない場合とが想定される。
そして、映像分割処理部22cは、図2(b)に示すように、入力された複数の映像フレームFを、所定枚数単位で蓄積して1つの時空間画像30を生成する。その後、映像分割処理部22cは、図2(c)に示すように、時空間画像30を時間軸に平行な面で切断する。
この場合、時空間画像30の切断面(以下、スライス画像という)がテロップTを含んでいれば、そのスライス画像には、図2(d)に示すように、その時間軸方向の長さがテロップTの出現期間を示す線分31が現れる。このため、映像分割処理部22cでは、スライス画像に現れた線分31の位置、幅、長さ等を解析することにより、同一テロップTの出現から消滅までを判断して、シーン分割を行なうことができる。
なお、上記の説明では、時空間画像30を時間軸に平行で、かつ、映像フレームFの水平ラインに平行な面で切断するようにしたが、これに限らず、時間軸に平行で、かつ、映像フレームFの垂直方向に平行な面で切断するようにしてもよいし、斜めの面や湾曲した面で切断するようにしても良いことはもちろんである。
また、切断する面の数としては、多すぎるとスライス画像を蓄積するメモリ容量が多く必要となり、また、テロップTの検出処理も煩雑になる。
この実施の形態では、画面上部と画面下部とにテロップTが表示されることが多いことや、画面上部ではテロップTが2行で表示されることが多いこと等を勘案し、画面上部の2つの水平ラインと画面下部の1つの水平ラインとを切断面として、3つのスライス画像を得ることが望ましいとする。
図3は、上記した映像分割処理部22cの一例を示している。この映像分割処理部22cは、先に述べたように、スライス画像を用いてシーン分割処理を行なうシーン分割処理部32を備えている。すなわち、このシーン分割処理部32は、時間的に連続する複数の映像フレームFが時間順に入力される入力端子32aを備えている。
この入力端子32aに供給された複数の映像フレームFは、スライス画像蓄積部32bに供給される。このスライス画像蓄積部32bは、順次入力される複数の映像フレームFから、予め設定された位置にある1本の水平ラインの映像を取得して蓄積する。これにより、スライス画像蓄積部32bには、図4(a)に具体例を示すように、複数の映像フレームFにおける所定の位置にある1本の水平ラインのみを時間順に並べたスライス画像が蓄積されることになる。
このスライス画像において、テロップTが出現していた期間は、時間軸方向に連続した色と一定のエッジ強度とを持つ線分として現れる。このため、この線分の出現期間を検出することができれば、シーンの区切りを検出してシーン分割を行なうことができることになる。しかしながら、透明乃至半透明なテロップTは、背景の色によって肉眼では同じ色に見えても実際の色成分は変化している場合があり、単純に色成分が同一か否かを見ることで線分を検出することは誤検出を招くことになる。
そこで、シーン分割処理部32では、線分が表示されている期間を検出するために、スライス画像の色成分をそのまま使用するのではなく、まず、スライス画像から時間方向の輝度エッジ強度を持っている領域のみを抽出した画像を作成し、その画像からシーンの区切りを検出するようにしている。
すなわち、上記スライス画像蓄積部32bに蓄積されたスライス画像は、ラプラシアンフィルタ処理部32cに供給されてエッジの検出が行なわれる。ラプラシアンフィルタとは、空間2次微分を計算し、輪郭を検出するフィルタのことであり、ラプラシアンフィルタを用いることにより輝度の差分の変化量が極端に大きくなっている部分を抽出することができる。
ただし、スライス画像がR(red)G(green)B(blue)成分のままではラプラシアンフィルタを適用することができないため、このラプラシアンフィルタ処理部32cでは、まず、図4(a)に示したスライス画像から各画素の輝度値のみをとって、図4(b)に示すような輝度画像を作成し、その輝度画像にラプラシアンフィルタを適用することにより、図4(c)に示すように、スライス画像からエッジを抽出した画像を得るようにしている。
ところで、ラプラシアンフィルタを適用してエッジを抽出した画像は、多数のノイズを含んでいる。これらのノイズは、シーンの区切りを検出する際に検出誤りを引き起こす原因となるため、ノイズ除去処理部32dを用いてノイズ除去を行なうようにしている。このノイズ除去処理部32dでは、ラプラシアンフィルタ処理部32cの出力画像から時間軸方向の線分のみを残したいため、注目画素に対して水平方向にそれぞれ1画素ずつ、時間軸の過去方向に5画素の画素を取得し、それぞれの画素値を適当な閾値で2値化した値を用いて多数決により投票を行ない、過半数の結果を占めた値を注目画像の値とすることで、図4(d)に示すようなノイズを除去した画像を作成している。
次に、ノイズ除去された画像を領域伸張処理部32eに供給して領域伸張処理を施すことにより、図4(e)に示すように、水平方向に1画素ずつ領域を伸張した画像を作成する。その後、領域伸張した画像をマスク処理部32fに供給することより、図4(a)に示した元のスライス画像に対して、図4(e)に示した画像で対応する画素の輝度値が0の領域を除去するようにマスクすることにより、図4(f)に示すように、元のスライス画像から時間方向のエッジ強度を持っている領域のみを抽出した画像を得ている。
このようして得られた図4(f)に示す画像から、距離計算処理部32gによりテロップTが切り替わった場所の検出が行なわれる。この検出は、前後の映像フレームF間における線分の距離を計算し、その距離が閾値以上であったらシーンの区切りであると判断することにより行なわれる。
具体的に言えば、この距離の計算は、注目する映像フレームFに含まれる水平ラインのうち左からi画素目のRGB色成分を(ri,gi,bi)とし、注目する映像フレームFより1フレーム過去方向へ進んだフレームに含まれる1本の水平ラインのうち左からi画素目のRGB色成分を(ri′,gi′,bi′)とし、注目する映像フレームFより1フレーム未来方向へ進んだフレームに含まれる1本の水平ラインのうち左からi画素目のRGB色成分を(ri″,gi″,bi″)とし、距離D1,D2
Figure 2013229734
と定義したときに、
D=D1−D2
として行なわれる。
この距離計算処理部32gは、算出した距離Dを閾値と比較してシーンの区切りを判別することによりシーン分割を行ない、そのシーン分割情報が出力端子32hから取り出されて、以下、映像コンテンツをシーン毎にチャプタを付加してHDD26でハードディスク26aに記録する処理等に供されることになる。
図5は、上記したシーン分割処理部32が行なう主要な処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS5a)されると、シーン分割処理部32は、ステップS5bで、入力された映像フレームFから、予め定められた位置にある1本の水平ラインの映像を取得して蓄積する。
そして、以後、シーン分割処理部32は、前述したように、蓄積された映像に対して、ステップS5cで、ラプラシアンフィルタ処理を施し、ステップS5dで、ノイズ除去処理を施し、ステップS5eで、領域伸張処理を施し、ステップS5fで、マスク処理を施すように動作する。
その後、シーン分割処理部32は、ステップS5gで、距離計算処理を行なって算出された距離が閾値以上であるか否かを判別し、閾値以上であると判断された場合(YES)、ステップS5hで、シーン分割を実行する。
このステップS5hの後、または、上記ステップS5gで距離が閾値以上でないと判断された場合(NO)、シーン分割処理部32は、ステップS5iで、残りの映像フレームFが存在するか否かを判別する。
そして、存在すると判断された場合(YES)、シーン分割処理部32は、ステップS5bの処理に戻されて、次の映像フレームFから1本の水平ラインの映像を取得し、存在しないと判断された場合(NO)、処理を終了(ステップS5j)する。
上記した実施の形態によれば、映像フレームFが入力される毎に、その中の予め設定された位置にある数本の水平ラインの映像に基づいて、シーンの区切りを判別する処理を逐次行なうようにしたので、シーン分割処理にかかる負担が軽減されるとともに、シーン分割処理のために映像を蓄積するメモリの容量も削減することができる。
このため、例えば、1つのチューナ部14を用いて受信チャンネルを自動的に次々と切り替えることにより、複数の番組に対してそれぞれシーン分割を行なって記録するような使用形態も実現することが可能となる。なお、この場合、チャンネル切り替えに時間がかかることを考慮して、5秒間に1度程度の割合で映像フレームFを取得することが望ましいものとする。
また、複数のチューナ部14を設置し、多数のチャンネルで放送される番組を同時に記録する、いわゆる、マルチチャンネル同時録画を行なう場合にも、各チャンネルの映像コンテンツをシーン分割して記録するのに有効である。
次に、上記した映像分割処理部22cの他の例について説明する。すなわち、図6に示す映像分割処理部22dは、先に図3で説明したスライス画像を用いてシーン分割処理を行なうシーン分割処理部32と、文字認識結果を用いてシーン分割処理を行なうシーン分割処理部33とを備え、両方のシーン分割処理部32,33から得られるシーン分割結果を用いることにより、より正確にシーンの分割を行なえるようにしたものである。
なお、図6において、シーン分割処理部32は、図3に示したものと同じ構成であるから、その詳細な構成の記載は省略している。
一方、文字認識結果を用いるシーン分割処理部33では、5秒間隔で取得した映像フレームFに対して、それぞれテロップ領域検出処理及びその検出された領域に対する文字認識処理を行ない、その結果から12フレーム以上(1分以上)同じ文字列が検出された場合に、その区間を1つのシーンとすることでシーンの区切りを行なっている。
すなわち、シーン分割処理部33は、時間的に連続する複数の映像フレームFが順次入力される入力端子33aを備えている。この入力端子33aに供給された映像フレームFは、映像フレーム蓄積部33bに蓄積された後、文字成分検出部33cに供給される。この文字成分検出部33cは、映像フレームのRGB色成分に適当な閾値を設定することにより2値化を行ない、その値が連続する領域を矩形で囲うことによって、1文字ずつの文字成分を検出している。
この文字成分検出部33cの検出結果は、文字列領域検出部33dに供給される。この文字列領域検出部33dは、文字成分検出部33cで検出された1文字に対応する矩形について、一定の間隔で同じような大きさの矩形が存在する等、矩形の並びを見て文字列かどうかを判断している。この文字列領域検出部33dによって検出された文字列領域がテロップの領域を示すことになる。
そして、この文字列領域検出部33dの検出結果は、文字認識処理部33eに供給される。この文字認識処理部33eは、文字列領域検出部33dによって検出された領域に対して、OCR(optical character recognition)エンジンを用いることにより、文字認識を行なっている。
その後、この文字認識処理部33eの認識結果は、連続文字出現検出部33fに供給される。この連続文字出現検出部33fは、上記文字列領域検出部33d及び文字認識処理部33eの結果に基づいて、シーンの区切りを検出している。すなわち、同じ(類似度の高い)文字列領域内に同じ(類似度の高い)文字が連続して12フレーム以上出現した場合に、その期間をシーンとして検出してシーン分割を行ない、そのシーン分割情報が出力端子33gから取り出される。
図7は、2つのシーン分割処理部32,33を備えた映像分割処理部22dが行なう主要な処理動作の概略をまとめたフローチャートを示している。すなわち、処理が開始(ステップS7a)されると、映像分割処理部22dは、ステップS7bで、スライス画像を用いてシーン分割処理を行なうシーン分割処理部32が出力するシーン分割情報を取得する。
次に、映像分割処理部22dは、ステップS7cで、文字認識結果を用いてシーン分割処理を行なうシーン分割処理部33が出力するシーン分割情報を取得する。その後、映像分割処理部22dは、ステップS7dで、残りの映像フレームFが存在するか否かを判別する。
そして、存在すると判断された場合(YES)、映像分割処理部22dは、ステップS7bの処理に戻されて、次の映像フレームFをシーン分割処理部32によるシーン分割処理に供させる。
また、上記ステップS7dで、残りの映像フレームFが存在しないと判断された場合(NO)、映像分割処理部22dは、ステップS7eで、両方のシーン分割処理部32,33から取得したシーン分割情報を用いてより正確なシーン分割を行ない、処理を終了(ステップS7f)する。
ここで、上記ステップS7eの処理についてより詳細に説明する。すなわち、スライス画像を用いたシーンの区切り検出と、文字認識を用いたシーンの区切り検出とが完了した場合、それぞれにおいて検出されたシーンの区切りを合わせて、その全てをシーンの区切りとすると、本来のシーンよりも過剰にシーンが分割されてしまうことになる。両方の手法で検出されたシーンの区切りに対し、文字認識の結果を利用することで、同じシーンと思われるシーン同士を統合する等、シーンの区切り位置の調整を行なうことができ、より正確なシーン分割を行なうことができる。
文字認識の結果を用いたシーンの統合を行なう前に、前処理として形態素解析を行なうことにより検出された文字列のうち明らかに誤認識と思われる文字列の除去を行なう必要がある。また、分割された各シーンのシーン名を抽出する。このシーン名の抽出には、文字列領域の文字認識結果が利用される。
その後、文字認識結果を利用して、過剰に分割されたシーンの統合が行なわれる。すなわち、分割された1つのシーンに対し、その1つ前及び2つ前のシーン名についてシーン名の形態素解析を行なった形態素の中で、同一(類似度の高い)の文字が2文字以上出現した場合は、同一のシーンとして統合を行なうことができる。
さらに、あるシーンの先頭のフレームから遡って3フレーム以内に、そのシーン名と同じ(類似度の高い)文字が2文字以上含まれていた場合は、シーンの区切りの位置をそのフレームに変更する。これにより、何らかの検出ミスによって、同じシーンであるのに別のシーンとして検出されてしまったものを統合することができる。
図8は、上記ステップS7bにおいてシーン分割処理部32が行なう処理動作の一例をまとめたフローチャートを示している。この処理動作は、基本的に、先に図5で説明したものとほぼ同様であり、処理が開始(ステップS8a)されると、シーン分割処理部32は、ステップS8bで、入力された映像フレームFから、予め定められた位置にある1本の水平ラインの映像を取得して蓄積する。
そして、以後、シーン分割処理部32は、前述したように、蓄積された映像に対して、ステップS8cで、ラプラシアンフィルタ処理を施し、ステップS8dで、ノイズ除去処理を施し、ステップS8eで、領域伸張処理を施し、ステップS8fで、マスク処理を施すように動作する。
その後、シーン分割処理部32は、ステップS8gで、距離計算処理を行なって算出された距離が閾値以上であるか否かを判別し、閾値以上であると判断された場合(YES)、ステップS8hで、シーン分割を実行して、処理を終了(ステップS8i)する。なお、上記ステップS8gで距離が閾値以上でないと判断された場合(NO)にも、シーン分割処理部32は、処理を終了(ステップS8i)する。
図9は、上記ステップS7cにおいてシーン分割処理部33が行なう処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS9a)されると、シーン分割処理部33は、ステップS9bで、映像フレームFを取得し、ステップS9cで、映像フレームに2値化処理を行ない、ステップS9dで、1文字ずつの文字成分を検出し、それに対応した矩形を生成している。
そして、シーン分割処理部33は、ステップS9eで、矩形の並びを見て文字列領域を検出し、ステップS9fで、文字列領域に対して文字認識を行ない、ステップS9gで、文字認識結果を保存する。
その後、シーン分割処理部33は、ステップS9hで、同じ(類似度の高い)文字列領域内に同じ(類似度の高い)文字が連続して閾値以上出現したか否かを判別し、出現したと判断された場合(YES)、ステップS9iで、その期間をシーンとして検出してシーン分割を実行し、処理を終了(ステップS9j)する。なお、上記ステップS9hで閾値以上出現していないと判断された場合(NO)にも、シーン分割処理部33は、処理を終了(ステップS9j)する。
図10及び図11は、上記ステップS7eにおいて映像分割処理部22dが行なう処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS10a)されると、映像分割処理部22dは、ステップS10bで、各シーン分割処理部32,33から得られるシーン分割情報に基づいてシーン分割を実行する。
その後、映像分割処理部22dは、ステップS10cで、分割されたそれぞれのシーンからシーン名を抽出する。このシーン名の抽出は、分割されたそれぞれのシーンについて文字列の出現頻度を計算し、一番出現頻度の高い文字列をそのシーンのシーン名とすることで行なわれる。
次に、映像分割処理部22dは、ステップS10dで、一番先頭のシーンを注目シーンとしてそのシーン名を取得し、ステップS10eで、1つ前のシーンが存在するか否かを判別する。そして、1つ前のシーンが存在しないと判断された場合(NO)、映像分割処理部22dは、ステップS11dで、残りのシーンが存在するか否かを判別する。
そして、存在すると判断された場合(YES)、映像分割処理部22dは、ステップS10eの処理に戻されて、次のシーンを注目シーンとしてその1つ前のシーンが存在するか否かの判別を実行する。また、上記ステップS11dで残りのシーンが存在しないと判断された場合(NO)、映像分割処理部22dは、処理を終了(ステップS11e)する。
一方、上記ステップS10eで1つ前のシーンが存在すると判断された場合(YES)、映像分割処理部22dは、ステップS10fで、注目シーンのシーン名がその1つ前のシーンのシーン名と2文字以上一致しているか否か(類似度が高いか否か)を判別し、一致している(類似度が高い)と判断された場合(YES)、ステップS10gで、注目シーンをその1つ前のシーンと統合する。
このステップS10gの後、または、上記ステップS10fで注目シーンのシーン名がその1つ前のシーンのシーン名と2文字以上一致していない(類似度が低い)と判断された場合(NO)、映像分割処理部22dは、ステップS11aで、注目シーンの2つ前のシーンが存在するか否かを判別し、存在しないと判断された場合(NO)、ステップS11dの処理に移行し、残りのシーンが存在するか否かの判別を実行する。
また、上記ステップS11aで注目シーンの2つ前のシーンが存在すると判断された場合(YES)、映像分割処理部22dは、ステップS11bで、注目シーンのシーン名がその2つ前のシーンのシーン名と2文字以上一致しているか否か(類似度が高いか否か)を判別し、一致している(類似度が高い)と判断された場合(YES)、ステップS11cで、注目シーンをその2つ前のシーンと統合する。
このステップS11cの後、または、上記ステップS11bで注目シーンのシーン名がその2つ前のシーンのシーン名と2文字以上一致していない(類似度が低い)と判断された場合(NO)、映像分割処理部22dは、ステップS11dの処理に移行し、残りのシーンが存在するか否かの判別を実行する。
上記した映像分割処理部22cの他の例のように、スライス画像から検出されたシーンの区切りと文字認識から検出されたシーンの区切りとに基づいてシーン分割を行ない、文字認識の結果を利用して同じシーンと思われるシーン同士を統合する等、シーンの区切り位置の調整を行なうことにより、より正確なシーン分割を行なうことができる。
ここで、スライス画像からシーンの区切りを検出するシーン分割処理部32の検出結果は、文字認識結果からシーンの区切りを検出するシーン分割処理部33において、その文字列領域検出部33dが文字列領域(テロップ領域)を検出する処理の補助として利用することができる。
すなわち、一般に、文字列領域検出では、本来の文字列領域に対して、その一部分しか文字列領域として検出されないという失敗が生じることがある。このような検出の失敗に対して、文字列領域がスライス画像を生成したラインと同じ位置にある場合には、スライス画像から抽出した線分領域の情報を、文字列領域を検出する処理の補助として利用することが可能である。
図12(a)は、文字列領域検出を行なった結果に対し、スライス画像から線分領域を抽出した結果を重ね合わせた画像である。ここから見てとれるように、文字列領域検出では、本来の文字列領域が分散して検出されている(日、本、型モール)が、スライス画像に基づく線分からは本来の文字列領域(日本型モール)が検出できていることが分かる。そこで、図12(b)に示すように、文字列領域検出で検出された矩形と、スライス画像からの線分領域とを比較し、2つが交わる場合には文字列領域検出の矩形を伸張することによって、正確な文字列領域の検出を行なうことができる。
図13は、スライス画像から抽出した線分領域の情報を補助として、上記文字列領域検出部33dが文字列領域を検出する処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS13a)されると、文字列領域検出部33dは、ステップS13bで、上記文字成分検出部33cで検出された1文字に対応する矩形の中から、最も高さのある矩形を基準矩形として選択する。
その後、文字列領域検出部33dは、ステップS13cで、基準矩形の高さの範囲内にある矩形をグルーピングし、ステップS13dで、グルーピングされた矩形内の文字列らしさを計算し、ステップS13eで、算出された文字列らしさが閾値以上であるか否かを判別する。
そして、文字列らしさが閾値以上であると判断された場合(YES)、文字列領域検出部33dは、ステップS13fで、先にグルーピングされた矩形領域を文字列領域であると判断する。
その後、文字列領域検出部33dは、ステップS13gで、検出された文字列領域と、スライス画像から得られる線分領域(具体的には、領域伸張処理部32eの出力画像)とが交差しているか否かを判別し、交差していると判断された場合(YES)、ステップS13hで、先に判断した文字列領域をスライス画像から得られる線分領域に基づいてサイズ変更する。
このステップS13hの後、または、上記ステップS13eで文字列らしさが閾値以上でないと判断された場合(NO)、または、上記ステップS13gで文字列領域とスライス画像から得られる線分領域とが交差していないと判断された場合(NO)、文字列領域検出部33dは、ステップS13iで、文字成分検出部33cで検出された1文字に対応する矩形の中で、まだ処理されていない矩形が存在するか否かを判別する。
そして、処理されていない矩形が存在すると判断された場合(YES)、文字列領域検出部33dは、ステップS13bの処理に戻されて、残りの矩形の中から基準矩形の選択が行なわれる。また、上記ステップS13iで処理されていない矩形が存在しないと判断された場合(NO)、文字列領域検出部33dは、処理を終了(ステップS13j)する。
上記したように、スライス画像から抽出した線分領域の情報を補助として文字列領域を検出することにより、文字列領域検出部33dでの文字列領域の誤検出が訂正され、正確な文字列検出を行なうことができるようになり、ひいては、より正確なシーン分割を行なうことができるようになる。
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
11…デジタルテレビジョン放送受信装置、12…アンテナ、13…入力端子、14…チューナ部、15…復調復号部、16…信号処理部、17…合成処理部、18…音声処理部、19…映像処理部、20…映像表示パネル、21…スピーカ、22…制御部、22a…CPU、22b…メモリ部、22c…映像分割処理部、23…操作部、24…リモートコントローラ、25…受光部、26…HDD、26a…ハードディスク、27…ネットワークインターフェース、28…ネットワーク回線網、29…ネットワークサーバ、30…時空間画像、31…線分、32…シーン分割処理部、32a…入力端子、32b…スライス画像蓄積部、32c…ラプラシアンフィルタ処理部、32d…ノイズ除去部、32e…領域伸張処理部、32f…マスク処理部、32g…距離計算処理部、32h…出力端子、33…シーン分割処理部、33a…入力端子、33b…映像フレーム蓄積部、33c…文字成分検出部、33d…文字列領域検出部、33e…文字認識処理部、33f…連続文字出現検出部、33g…出力端子。

Claims (9)

  1. 映像コンテンツを構成する複数の映像フレームから、所定ラインの映像を時間順に取り出したスライス画像を蓄積する蓄積手段と、
    前記蓄積手段に所定ラインの映像が時間順に蓄積される毎に、前記スライス画像中から時間軸方向の線分を抽出する抽出手段と、
    前記抽出手段で抽出された線分の時間軸方向の距離に基づいて、前記映像コンテンツを複数のシーンに分割する分割手段とを具備する映像分割装置。
  2. 前記抽出手段は、前記スライス画像中から時間軸方向のエッジ強度を持っている領域を抽出した画像を作成し、その画像から時間軸方向の線分を抽出する請求項1記載の映像分割装置。
  3. 前記抽出手段は、空間2次微分を計算して輪郭を検出するフィルタを適用することにより、前記スライス画像中から輝度の差分の変化量が大きくなっている部分を抽出する請求項2記載の映像分割装置。
  4. 前記抽出手段が用いるフィルタは、ラプラシアンフィルタである請求項3記載の映像分割装置。
  5. 前記分割手段は、前記抽出手段で抽出された線分の時間軸方向の距離に基づいて前記映像コンテンツを分割したシーンと、複数の映像フレームに文字認識処理を用いることにより前記映像コンテンツを分割した複数のシーンとについて、文字認識処理を用いてシーンの区切り位置を調整する請求項1記載の映像分割装置。
  6. 前記分割手段は、前記映像コンテンツを分割した複数のシーンについて、文字認識処理を用いることにより類似度が高いと判断されたシーン同士を統合する請求項5記載の映像分割装置。
  7. 前記分割手段は、前記抽出手段で抽出された線分の時間軸方向の距離に基づいて、前記複数の映像フレームから文字認識処理のために検出した文字列領域のサイズを変更する請求項5記載の映像分割装置。
  8. 映像コンテンツを構成する複数の映像フレームから、蓄積手段により、所定ラインの映像を時間順に取り出したスライス画像を蓄積し、
    前記蓄積手段に所定ラインの映像が時間順に蓄積される毎に、抽出手段により、前記スライス画像中から時間軸方向の線分を抽出し、
    前記抽出手段で抽出された線分の時間軸方向の距離に基づいて、分割手段により、前記映像コンテンツを複数のシーンに分割する映像分割方法。
  9. 映像コンテンツを構成する複数の映像フレームから、所定ラインの映像を時間順に取り出したスライス画像を蓄積する蓄積処理と、
    前記所定ラインの映像が時間順に蓄積される毎に、前記スライス画像中から時間軸方向の線分を抽出する抽出処理と、
    前記抽出された線分の時間軸方向の距離に基づいて、前記映像コンテンツを複数のシーンに分割する分割処理とを、コンピュータに実行させるための映像分割用プログラム。
JP2012100064A 2012-04-25 2012-04-25 映像分割装置、映像分割方法及び映像分割用プログラム Abandoned JP2013229734A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012100064A JP2013229734A (ja) 2012-04-25 2012-04-25 映像分割装置、映像分割方法及び映像分割用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012100064A JP2013229734A (ja) 2012-04-25 2012-04-25 映像分割装置、映像分割方法及び映像分割用プログラム

Publications (1)

Publication Number Publication Date
JP2013229734A true JP2013229734A (ja) 2013-11-07

Family

ID=49676976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012100064A Abandoned JP2013229734A (ja) 2012-04-25 2012-04-25 映像分割装置、映像分割方法及び映像分割用プログラム

Country Status (1)

Country Link
JP (1) JP2013229734A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091455A (ja) * 2015-11-17 2017-05-25 株式会社東芝 画像処理装置、画像処理方法及び画像処理プログラム
KR20190125569A (ko) * 2018-04-30 2019-11-07 연세대학교 산학협력단 영상 특징의 미분 및 지도 학습을 이용하여 비디오의 장면 상황 정보를 생성하는 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091455A (ja) * 2015-11-17 2017-05-25 株式会社東芝 画像処理装置、画像処理方法及び画像処理プログラム
KR20190125569A (ko) * 2018-04-30 2019-11-07 연세대학교 산학협력단 영상 특징의 미분 및 지도 학습을 이용하여 비디오의 장면 상황 정보를 생성하는 방법 및 장치
KR102120453B1 (ko) * 2018-04-30 2020-06-08 연세대학교 산학협력단 영상 특징의 미분 및 지도 학습을 이용하여 비디오의 장면 상황 정보를 생성하는 방법 및 장치

Similar Documents

Publication Publication Date Title
US8516119B2 (en) Systems and methods for determining attributes of media items accessed via a personal media broadcaster
CN103442252B (zh) 视频处理方法及装置
US20180077452A1 (en) Devices, systems, methods, and media for detecting, indexing, and comparing video signals from a video display in a background scene using a camera-enabled device
EP3323245B1 (en) Detection of common media segments
KR102246305B1 (ko) 증강 미디어 서비스 제공 방법, 장치 및 시스템
JP2007274154A (ja) 映像分割装置、テロップ抽出装置、方法およびプログラム
JP2016524875A (ja) フィンガープリントに基づく広告検出システム及び方法
KR101485820B1 (ko) 지능형 동영상 메타 정보 생성 시스템
JP6379362B2 (ja) 映像受信装置、パラメータ設定方法および付加情報表示システム
CN108965746A (zh) 视频合成方法及系统
CN110099298B (zh) 多媒体内容处理方法及终端设备
CN103984778A (zh) 一种视频检索方法及系统
JP5197841B1 (ja) 映像再生装置及び映像再生方法
JP2013229734A (ja) 映像分割装置、映像分割方法及び映像分割用プログラム
KR101536930B1 (ko) 동영상을 요약하는 방법 및 동영상 요약기, 그리고 이를 이용한 동영상 만화 정보 서비스 방법
CN111615008B (zh) 基于多设备体验的智能摘要生成和字幕阅读系统
CN101241553A (zh) 一种识别特定信息起点和终点的方法和装置
JP4270117B2 (ja) 視聴者間コミュニケーション方法及び装置及びプログラム
EP3241153B1 (en) Detection of solid color frames for determining transitions in video content
CN115460462A (zh) 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法
JP2016119552A (ja) 映像コンテンツ処理装置、映像コンテンツ処理方法及びプログラム
US20150179228A1 (en) Synchronized movie summary
JP6363015B2 (ja) 電子機器及び表示方法
CN114339455B (zh) 一种基于音频特征的短视频预告片自动生成方法及系统
JP5492314B2 (ja) 映像再生装置及び映像再生方法

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130730

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20140319

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140813

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150227

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20150814