以下、実施の形態について図面を参照して詳細に説明する。図1は、この実施の形態で説明するデジタルテレビジョン放送受信装置11の信号処理系を概略的に示している。
すなわち、アンテナ12で受信したデジタルテレビジョン放送信号は、入力端子13を介してチューナ部14に供給されることにより、所望のチャンネルの放送信号が選局される。このチューナ部14で選局された放送信号は、復調復号部15に供給されてデジタルの映像信号及び音声信号等に復元された後、信号処理部16に出力される。
この信号処理部16は、復調復号部15から供給されたデジタルの映像信号及び音声信号に対してそれぞれ所定のデジタル信号処理を施している。そして、この信号処理部16は、デジタルの映像信号を合成処理部17に出力し、デジタルの音声信号を音声処理部18に出力している。
このうち、合成処理部17は、信号処理部16から供給されるデジタルの映像信号に、OSD(on screen display)信号を重畳して出力している。この合成処理部17から出力されたデジタルの映像信号は、映像処理部19に供給されて、後段の映像表示パネル20で表示可能なフォーマットのアナログ映像信号に変換された後、上記映像表示パネル20に供給されて映像表示に供される。
また、上記音声処理部18は、入力されたデジタルの音声信号を、後段のスピーカ21で再生可能なフォーマットのアナログ音声信号に変換している。そして、この音声処理部18から出力されたアナログ音声信号が、上記スピーカ21に供給されることにより音声再生に供される。
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含む種々の動作を制御部22によって統括的に制御されている。この制御部22は、CPU(central processing unit)22aを内蔵しており、デジタルテレビジョン放送受信装置11の本体に設けられた操作部23からの操作情報、または、リモートコントローラ24から送信され受光部25で受信された操作情報を受けることによって、その操作内容が反映されるように各部をそれぞれ制御している。
この場合、制御部22は、メモリ部22bを利用している。このメモリ部22bは、主として、CPU22aが実行する制御プログラムを格納したROM(read only memory)と、該CPU22aに作業エリアを提供するためのRAM(random access memory)と、各種の設定情報及び制御情報等が格納される不揮発性メモリとを有している。
また、この制御部22には、HDD(hard disk drive)26が接続されている。この制御部22は、ユーザによる操作部23やリモートコントローラ24の操作に基づいて、上記信号処理部16から得られるデジタルの映像信号及び音声信号をHDD26に供給し、暗号化して所定の記録フォーマットに変換した後、ハードディスク26aに記録させるように制御することができる。
さらに、この制御部22は、ユーザによる操作部23やリモートコントローラ24の操作に基づいて、HDD26によりハードディスク26aからデジタルの映像信号及び音声信号を読み出させて復号化した後、信号処理部16に供給することによって、以後、上記した映像表示及び音声再生に供させるように制御することができる。
また、この制御部22には、ネットワークインターフェース27が接続されている。このネットワークインターフェース27は、外部のネットワーク回線網28に接続されている。そして、このネットワーク回線網28には、当該ネットワーク回線網28を介した通信機能を利用して各種のサービスを提供するためのネットワークサーバ29が接続されている。
このため、制御部22は、ユーザによる操作部23やリモートコントローラ24の操作に基づき、ネットワークインターフェース27及びネットワーク回線網28を介して、ネットワークサーバ29にアクセスして情報通信を行なうことにより、そこで提供しているサービスを利用することができるようになっている。
また、上記制御部22には、映像分割処理部22cが設けられている。この映像分割処理部22cは、詳細は後述するが、例えばデジタルテレビジョン放送を受信して得られた映像信号及び音声信号を含む映像コンテンツを、それぞれが内容的にまとまりのある複数のシーンに分割している。
このように、放送を受信して得られた映像コンテンツを、それぞれが内容的にまとまりのある複数のシーンに分割することにより、その映像コンテンツをHDD26でハードディスク26aに記録することを考えた場合、シーン毎にチャプタを付して記録することができるようになる。
これにより、ユーザは、ハードディスク26aに記録された映像コンテンツを再生して視聴する際、チャプタにより自分の必要とするシーンを指定して視聴するといった視聴形態を実現することができるようになる。このため、記録された映像コンテンツを最初から最後まで全て視聴しなくても済むことになり、ユーザが映像コンテンツを視聴する際の効率化を図ることができるようになる。
ここで、上記映像分割処理部22cは、映像コンテンツ内におけるテロップの有無によってシーン分割を行なうようにしている。すなわち、テロップが出現した時点をシーンの開始とし、同一テロップが表示されている期間は同じシーンであるとし、そのテロップが消滅した時点を当該シーンの終了とするようにしている。
図2は、上記映像分割処理部22cが行なうテロップを利用したシーン分割処理の一例を模式的に示している。この映像分割処理部22cは、図2(a)に示すように、時間的に連続する複数の映像フレームFを入力する。これらの映像フレームFについては、テロップTが含まれている場合と含まれていない場合とが想定される。
そして、映像分割処理部22cは、図2(b)に示すように、入力された複数の映像フレームFを、所定枚数単位で蓄積して1つの時空間画像30を生成する。その後、映像分割処理部22cは、図2(c)に示すように、時空間画像30を時間軸に平行な面で切断する。
この場合、時空間画像30の切断面(以下、スライス画像という)がテロップTを含んでいれば、そのスライス画像には、図2(d)に示すように、その時間軸方向の長さがテロップTの出現期間を示す線分31が現れる。このため、映像分割処理部22cでは、スライス画像に現れた線分31の位置、幅、長さ等を解析することにより、同一テロップTの出現から消滅までを判断して、シーン分割を行なうことができる。
なお、上記の説明では、時空間画像30を時間軸に平行で、かつ、映像フレームFの水平ラインに平行な面で切断するようにしたが、これに限らず、時間軸に平行で、かつ、映像フレームFの垂直方向に平行な面で切断するようにしてもよいし、斜めの面や湾曲した面で切断するようにしても良いことはもちろんである。
また、切断する面の数としては、多すぎるとスライス画像を蓄積するメモリ容量が多く必要となり、また、テロップTの検出処理も煩雑になる。
この実施の形態では、画面上部と画面下部とにテロップTが表示されることが多いことや、画面上部ではテロップTが2行で表示されることが多いこと等を勘案し、画面上部の2つの水平ラインと画面下部の1つの水平ラインとを切断面として、3つのスライス画像を得ることが望ましいとする。
図3は、上記した映像分割処理部22cの一例を示している。この映像分割処理部22cは、先に述べたように、スライス画像を用いてシーン分割処理を行なうシーン分割処理部32を備えている。すなわち、このシーン分割処理部32は、時間的に連続する複数の映像フレームFが時間順に入力される入力端子32aを備えている。
この入力端子32aに供給された複数の映像フレームFは、スライス画像蓄積部32bに供給される。このスライス画像蓄積部32bは、順次入力される複数の映像フレームFから、予め設定された位置にある1本の水平ラインの映像を取得して蓄積する。これにより、スライス画像蓄積部32bには、図4(a)に具体例を示すように、複数の映像フレームFにおける所定の位置にある1本の水平ラインのみを時間順に並べたスライス画像が蓄積されることになる。
このスライス画像において、テロップTが出現していた期間は、時間軸方向に連続した色と一定のエッジ強度とを持つ線分として現れる。このため、この線分の出現期間を検出することができれば、シーンの区切りを検出してシーン分割を行なうことができることになる。しかしながら、透明乃至半透明なテロップTは、背景の色によって肉眼では同じ色に見えても実際の色成分は変化している場合があり、単純に色成分が同一か否かを見ることで線分を検出することは誤検出を招くことになる。
そこで、シーン分割処理部32では、線分が表示されている期間を検出するために、スライス画像の色成分をそのまま使用するのではなく、まず、スライス画像から時間方向の輝度エッジ強度を持っている領域のみを抽出した画像を作成し、その画像からシーンの区切りを検出するようにしている。
すなわち、上記スライス画像蓄積部32bに蓄積されたスライス画像は、ラプラシアンフィルタ処理部32cに供給されてエッジの検出が行なわれる。ラプラシアンフィルタとは、空間2次微分を計算し、輪郭を検出するフィルタのことであり、ラプラシアンフィルタを用いることにより輝度の差分の変化量が極端に大きくなっている部分を抽出することができる。
ただし、スライス画像がR(red)G(green)B(blue)成分のままではラプラシアンフィルタを適用することができないため、このラプラシアンフィルタ処理部32cでは、まず、図4(a)に示したスライス画像から各画素の輝度値のみをとって、図4(b)に示すような輝度画像を作成し、その輝度画像にラプラシアンフィルタを適用することにより、図4(c)に示すように、スライス画像からエッジを抽出した画像を得るようにしている。
ところで、ラプラシアンフィルタを適用してエッジを抽出した画像は、多数のノイズを含んでいる。これらのノイズは、シーンの区切りを検出する際に検出誤りを引き起こす原因となるため、ノイズ除去処理部32dを用いてノイズ除去を行なうようにしている。このノイズ除去処理部32dでは、ラプラシアンフィルタ処理部32cの出力画像から時間軸方向の線分のみを残したいため、注目画素に対して水平方向にそれぞれ1画素ずつ、時間軸の過去方向に5画素の画素を取得し、それぞれの画素値を適当な閾値で2値化した値を用いて多数決により投票を行ない、過半数の結果を占めた値を注目画像の値とすることで、図4(d)に示すようなノイズを除去した画像を作成している。
次に、ノイズ除去された画像を領域伸張処理部32eに供給して領域伸張処理を施すことにより、図4(e)に示すように、水平方向に1画素ずつ領域を伸張した画像を作成する。その後、領域伸張した画像をマスク処理部32fに供給することより、図4(a)に示した元のスライス画像に対して、図4(e)に示した画像で対応する画素の輝度値が0の領域を除去するようにマスクすることにより、図4(f)に示すように、元のスライス画像から時間方向のエッジ強度を持っている領域のみを抽出した画像を得ている。
このようして得られた図4(f)に示す画像から、距離計算処理部32gによりテロップTが切り替わった場所の検出が行なわれる。この検出は、前後の映像フレームF間における線分の距離を計算し、その距離が閾値以上であったらシーンの区切りであると判断することにより行なわれる。
具体的に言えば、この距離の計算は、注目する映像フレームFに含まれる水平ラインのうち左からi画素目のRGB色成分を(r
i,g
i,b
i)とし、注目する映像フレームFより1フレーム過去方向へ進んだフレームに含まれる1本の水平ラインのうち左からi画素目のRGB色成分を(r
i′,g
i′,b
i′)とし、注目する映像フレームFより1フレーム未来方向へ進んだフレームに含まれる1本の水平ラインのうち左からi画素目のRGB色成分を(r
i″,g
i″,b
i″)とし、距離D
1,D
2を
と定義したときに、
D=D1−D2
として行なわれる。
この距離計算処理部32gは、算出した距離Dを閾値と比較してシーンの区切りを判別することによりシーン分割を行ない、そのシーン分割情報が出力端子32hから取り出されて、以下、映像コンテンツをシーン毎にチャプタを付加してHDD26でハードディスク26aに記録する処理等に供されることになる。
図5は、上記したシーン分割処理部32が行なう主要な処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS5a)されると、シーン分割処理部32は、ステップS5bで、入力された映像フレームFから、予め定められた位置にある1本の水平ラインの映像を取得して蓄積する。
そして、以後、シーン分割処理部32は、前述したように、蓄積された映像に対して、ステップS5cで、ラプラシアンフィルタ処理を施し、ステップS5dで、ノイズ除去処理を施し、ステップS5eで、領域伸張処理を施し、ステップS5fで、マスク処理を施すように動作する。
その後、シーン分割処理部32は、ステップS5gで、距離計算処理を行なって算出された距離が閾値以上であるか否かを判別し、閾値以上であると判断された場合(YES)、ステップS5hで、シーン分割を実行する。
このステップS5hの後、または、上記ステップS5gで距離が閾値以上でないと判断された場合(NO)、シーン分割処理部32は、ステップS5iで、残りの映像フレームFが存在するか否かを判別する。
そして、存在すると判断された場合(YES)、シーン分割処理部32は、ステップS5bの処理に戻されて、次の映像フレームFから1本の水平ラインの映像を取得し、存在しないと判断された場合(NO)、処理を終了(ステップS5j)する。
上記した実施の形態によれば、映像フレームFが入力される毎に、その中の予め設定された位置にある数本の水平ラインの映像に基づいて、シーンの区切りを判別する処理を逐次行なうようにしたので、シーン分割処理にかかる負担が軽減されるとともに、シーン分割処理のために映像を蓄積するメモリの容量も削減することができる。
このため、例えば、1つのチューナ部14を用いて受信チャンネルを自動的に次々と切り替えることにより、複数の番組に対してそれぞれシーン分割を行なって記録するような使用形態も実現することが可能となる。なお、この場合、チャンネル切り替えに時間がかかることを考慮して、5秒間に1度程度の割合で映像フレームFを取得することが望ましいものとする。
また、複数のチューナ部14を設置し、多数のチャンネルで放送される番組を同時に記録する、いわゆる、マルチチャンネル同時録画を行なう場合にも、各チャンネルの映像コンテンツをシーン分割して記録するのに有効である。
次に、上記した映像分割処理部22cの他の例について説明する。すなわち、図6に示す映像分割処理部22dは、先に図3で説明したスライス画像を用いてシーン分割処理を行なうシーン分割処理部32と、文字認識結果を用いてシーン分割処理を行なうシーン分割処理部33とを備え、両方のシーン分割処理部32,33から得られるシーン分割結果を用いることにより、より正確にシーンの分割を行なえるようにしたものである。
なお、図6において、シーン分割処理部32は、図3に示したものと同じ構成であるから、その詳細な構成の記載は省略している。
一方、文字認識結果を用いるシーン分割処理部33では、5秒間隔で取得した映像フレームFに対して、それぞれテロップ領域検出処理及びその検出された領域に対する文字認識処理を行ない、その結果から12フレーム以上(1分以上)同じ文字列が検出された場合に、その区間を1つのシーンとすることでシーンの区切りを行なっている。
すなわち、シーン分割処理部33は、時間的に連続する複数の映像フレームFが順次入力される入力端子33aを備えている。この入力端子33aに供給された映像フレームFは、映像フレーム蓄積部33bに蓄積された後、文字成分検出部33cに供給される。この文字成分検出部33cは、映像フレームのRGB色成分に適当な閾値を設定することにより2値化を行ない、その値が連続する領域を矩形で囲うことによって、1文字ずつの文字成分を検出している。
この文字成分検出部33cの検出結果は、文字列領域検出部33dに供給される。この文字列領域検出部33dは、文字成分検出部33cで検出された1文字に対応する矩形について、一定の間隔で同じような大きさの矩形が存在する等、矩形の並びを見て文字列かどうかを判断している。この文字列領域検出部33dによって検出された文字列領域がテロップの領域を示すことになる。
そして、この文字列領域検出部33dの検出結果は、文字認識処理部33eに供給される。この文字認識処理部33eは、文字列領域検出部33dによって検出された領域に対して、OCR(optical character recognition)エンジンを用いることにより、文字認識を行なっている。
その後、この文字認識処理部33eの認識結果は、連続文字出現検出部33fに供給される。この連続文字出現検出部33fは、上記文字列領域検出部33d及び文字認識処理部33eの結果に基づいて、シーンの区切りを検出している。すなわち、同じ(類似度の高い)文字列領域内に同じ(類似度の高い)文字が連続して12フレーム以上出現した場合に、その期間をシーンとして検出してシーン分割を行ない、そのシーン分割情報が出力端子33gから取り出される。
図7は、2つのシーン分割処理部32,33を備えた映像分割処理部22dが行なう主要な処理動作の概略をまとめたフローチャートを示している。すなわち、処理が開始(ステップS7a)されると、映像分割処理部22dは、ステップS7bで、スライス画像を用いてシーン分割処理を行なうシーン分割処理部32が出力するシーン分割情報を取得する。
次に、映像分割処理部22dは、ステップS7cで、文字認識結果を用いてシーン分割処理を行なうシーン分割処理部33が出力するシーン分割情報を取得する。その後、映像分割処理部22dは、ステップS7dで、残りの映像フレームFが存在するか否かを判別する。
そして、存在すると判断された場合(YES)、映像分割処理部22dは、ステップS7bの処理に戻されて、次の映像フレームFをシーン分割処理部32によるシーン分割処理に供させる。
また、上記ステップS7dで、残りの映像フレームFが存在しないと判断された場合(NO)、映像分割処理部22dは、ステップS7eで、両方のシーン分割処理部32,33から取得したシーン分割情報を用いてより正確なシーン分割を行ない、処理を終了(ステップS7f)する。
ここで、上記ステップS7eの処理についてより詳細に説明する。すなわち、スライス画像を用いたシーンの区切り検出と、文字認識を用いたシーンの区切り検出とが完了した場合、それぞれにおいて検出されたシーンの区切りを合わせて、その全てをシーンの区切りとすると、本来のシーンよりも過剰にシーンが分割されてしまうことになる。両方の手法で検出されたシーンの区切りに対し、文字認識の結果を利用することで、同じシーンと思われるシーン同士を統合する等、シーンの区切り位置の調整を行なうことができ、より正確なシーン分割を行なうことができる。
文字認識の結果を用いたシーンの統合を行なう前に、前処理として形態素解析を行なうことにより検出された文字列のうち明らかに誤認識と思われる文字列の除去を行なう必要がある。また、分割された各シーンのシーン名を抽出する。このシーン名の抽出には、文字列領域の文字認識結果が利用される。
その後、文字認識結果を利用して、過剰に分割されたシーンの統合が行なわれる。すなわち、分割された1つのシーンに対し、その1つ前及び2つ前のシーン名についてシーン名の形態素解析を行なった形態素の中で、同一(類似度の高い)の文字が2文字以上出現した場合は、同一のシーンとして統合を行なうことができる。
さらに、あるシーンの先頭のフレームから遡って3フレーム以内に、そのシーン名と同じ(類似度の高い)文字が2文字以上含まれていた場合は、シーンの区切りの位置をそのフレームに変更する。これにより、何らかの検出ミスによって、同じシーンであるのに別のシーンとして検出されてしまったものを統合することができる。
図8は、上記ステップS7bにおいてシーン分割処理部32が行なう処理動作の一例をまとめたフローチャートを示している。この処理動作は、基本的に、先に図5で説明したものとほぼ同様であり、処理が開始(ステップS8a)されると、シーン分割処理部32は、ステップS8bで、入力された映像フレームFから、予め定められた位置にある1本の水平ラインの映像を取得して蓄積する。
そして、以後、シーン分割処理部32は、前述したように、蓄積された映像に対して、ステップS8cで、ラプラシアンフィルタ処理を施し、ステップS8dで、ノイズ除去処理を施し、ステップS8eで、領域伸張処理を施し、ステップS8fで、マスク処理を施すように動作する。
その後、シーン分割処理部32は、ステップS8gで、距離計算処理を行なって算出された距離が閾値以上であるか否かを判別し、閾値以上であると判断された場合(YES)、ステップS8hで、シーン分割を実行して、処理を終了(ステップS8i)する。なお、上記ステップS8gで距離が閾値以上でないと判断された場合(NO)にも、シーン分割処理部32は、処理を終了(ステップS8i)する。
図9は、上記ステップS7cにおいてシーン分割処理部33が行なう処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS9a)されると、シーン分割処理部33は、ステップS9bで、映像フレームFを取得し、ステップS9cで、映像フレームに2値化処理を行ない、ステップS9dで、1文字ずつの文字成分を検出し、それに対応した矩形を生成している。
そして、シーン分割処理部33は、ステップS9eで、矩形の並びを見て文字列領域を検出し、ステップS9fで、文字列領域に対して文字認識を行ない、ステップS9gで、文字認識結果を保存する。
その後、シーン分割処理部33は、ステップS9hで、同じ(類似度の高い)文字列領域内に同じ(類似度の高い)文字が連続して閾値以上出現したか否かを判別し、出現したと判断された場合(YES)、ステップS9iで、その期間をシーンとして検出してシーン分割を実行し、処理を終了(ステップS9j)する。なお、上記ステップS9hで閾値以上出現していないと判断された場合(NO)にも、シーン分割処理部33は、処理を終了(ステップS9j)する。
図10及び図11は、上記ステップS7eにおいて映像分割処理部22dが行なう処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS10a)されると、映像分割処理部22dは、ステップS10bで、各シーン分割処理部32,33から得られるシーン分割情報に基づいてシーン分割を実行する。
その後、映像分割処理部22dは、ステップS10cで、分割されたそれぞれのシーンからシーン名を抽出する。このシーン名の抽出は、分割されたそれぞれのシーンについて文字列の出現頻度を計算し、一番出現頻度の高い文字列をそのシーンのシーン名とすることで行なわれる。
次に、映像分割処理部22dは、ステップS10dで、一番先頭のシーンを注目シーンとしてそのシーン名を取得し、ステップS10eで、1つ前のシーンが存在するか否かを判別する。そして、1つ前のシーンが存在しないと判断された場合(NO)、映像分割処理部22dは、ステップS11dで、残りのシーンが存在するか否かを判別する。
そして、存在すると判断された場合(YES)、映像分割処理部22dは、ステップS10eの処理に戻されて、次のシーンを注目シーンとしてその1つ前のシーンが存在するか否かの判別を実行する。また、上記ステップS11dで残りのシーンが存在しないと判断された場合(NO)、映像分割処理部22dは、処理を終了(ステップS11e)する。
一方、上記ステップS10eで1つ前のシーンが存在すると判断された場合(YES)、映像分割処理部22dは、ステップS10fで、注目シーンのシーン名がその1つ前のシーンのシーン名と2文字以上一致しているか否か(類似度が高いか否か)を判別し、一致している(類似度が高い)と判断された場合(YES)、ステップS10gで、注目シーンをその1つ前のシーンと統合する。
このステップS10gの後、または、上記ステップS10fで注目シーンのシーン名がその1つ前のシーンのシーン名と2文字以上一致していない(類似度が低い)と判断された場合(NO)、映像分割処理部22dは、ステップS11aで、注目シーンの2つ前のシーンが存在するか否かを判別し、存在しないと判断された場合(NO)、ステップS11dの処理に移行し、残りのシーンが存在するか否かの判別を実行する。
また、上記ステップS11aで注目シーンの2つ前のシーンが存在すると判断された場合(YES)、映像分割処理部22dは、ステップS11bで、注目シーンのシーン名がその2つ前のシーンのシーン名と2文字以上一致しているか否か(類似度が高いか否か)を判別し、一致している(類似度が高い)と判断された場合(YES)、ステップS11cで、注目シーンをその2つ前のシーンと統合する。
このステップS11cの後、または、上記ステップS11bで注目シーンのシーン名がその2つ前のシーンのシーン名と2文字以上一致していない(類似度が低い)と判断された場合(NO)、映像分割処理部22dは、ステップS11dの処理に移行し、残りのシーンが存在するか否かの判別を実行する。
上記した映像分割処理部22cの他の例のように、スライス画像から検出されたシーンの区切りと文字認識から検出されたシーンの区切りとに基づいてシーン分割を行ない、文字認識の結果を利用して同じシーンと思われるシーン同士を統合する等、シーンの区切り位置の調整を行なうことにより、より正確なシーン分割を行なうことができる。
ここで、スライス画像からシーンの区切りを検出するシーン分割処理部32の検出結果は、文字認識結果からシーンの区切りを検出するシーン分割処理部33において、その文字列領域検出部33dが文字列領域(テロップ領域)を検出する処理の補助として利用することができる。
すなわち、一般に、文字列領域検出では、本来の文字列領域に対して、その一部分しか文字列領域として検出されないという失敗が生じることがある。このような検出の失敗に対して、文字列領域がスライス画像を生成したラインと同じ位置にある場合には、スライス画像から抽出した線分領域の情報を、文字列領域を検出する処理の補助として利用することが可能である。
図12(a)は、文字列領域検出を行なった結果に対し、スライス画像から線分領域を抽出した結果を重ね合わせた画像である。ここから見てとれるように、文字列領域検出では、本来の文字列領域が分散して検出されている(日、本、型モール)が、スライス画像に基づく線分からは本来の文字列領域(日本型モール)が検出できていることが分かる。そこで、図12(b)に示すように、文字列領域検出で検出された矩形と、スライス画像からの線分領域とを比較し、2つが交わる場合には文字列領域検出の矩形を伸張することによって、正確な文字列領域の検出を行なうことができる。
図13は、スライス画像から抽出した線分領域の情報を補助として、上記文字列領域検出部33dが文字列領域を検出する処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS13a)されると、文字列領域検出部33dは、ステップS13bで、上記文字成分検出部33cで検出された1文字に対応する矩形の中から、最も高さのある矩形を基準矩形として選択する。
その後、文字列領域検出部33dは、ステップS13cで、基準矩形の高さの範囲内にある矩形をグルーピングし、ステップS13dで、グルーピングされた矩形内の文字列らしさを計算し、ステップS13eで、算出された文字列らしさが閾値以上であるか否かを判別する。
そして、文字列らしさが閾値以上であると判断された場合(YES)、文字列領域検出部33dは、ステップS13fで、先にグルーピングされた矩形領域を文字列領域であると判断する。
その後、文字列領域検出部33dは、ステップS13gで、検出された文字列領域と、スライス画像から得られる線分領域(具体的には、領域伸張処理部32eの出力画像)とが交差しているか否かを判別し、交差していると判断された場合(YES)、ステップS13hで、先に判断した文字列領域をスライス画像から得られる線分領域に基づいてサイズ変更する。
このステップS13hの後、または、上記ステップS13eで文字列らしさが閾値以上でないと判断された場合(NO)、または、上記ステップS13gで文字列領域とスライス画像から得られる線分領域とが交差していないと判断された場合(NO)、文字列領域検出部33dは、ステップS13iで、文字成分検出部33cで検出された1文字に対応する矩形の中で、まだ処理されていない矩形が存在するか否かを判別する。
そして、処理されていない矩形が存在すると判断された場合(YES)、文字列領域検出部33dは、ステップS13bの処理に戻されて、残りの矩形の中から基準矩形の選択が行なわれる。また、上記ステップS13iで処理されていない矩形が存在しないと判断された場合(NO)、文字列領域検出部33dは、処理を終了(ステップS13j)する。
上記したように、スライス画像から抽出した線分領域の情報を補助として文字列領域を検出することにより、文字列領域検出部33dでの文字列領域の誤検出が訂正され、正確な文字列検出を行なうことができるようになり、ひいては、より正確なシーン分割を行なうことができるようになる。
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。