JP2010283568A

JP2010283568A - 字幕情報解析装置および字幕情報解析方法

Info

Publication number: JP2010283568A
Application number: JP2009134925A
Authority: JP
Inventors: Akito Masumura; 明人益村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-06-04
Filing date: 2009-06-04
Publication date: 2010-12-16
Also published as: CN101909164A; CN101909164B; US20100310235A1

Abstract

【課題】字幕データに含まれるＤＲＣＳを普通の文字に変換することによって高精度で字幕情報の解析を行うことができる字幕情報解析装置および字幕情報解析方法を提供する。
【解決手段】字幕情報解析装置１は、分離部１３、字幕解析部１６、ＤＲＣＳ推定部１７、標本データ記憶部１８、文字列記憶部１９とを備える。ＤＲＣＳ推定部１７は、ビットパターンによるパターンマッチング、字幕中の前後の文字列による文脈判定、字幕中における登場頻度に基づく選択を行うことにより、ＤＲＣＳが文字を表している場合には、それがどのような文字を表しているのかを推定し、そのＤＲＣＳを普通文字に置き換える。また、ＤＲＣＳが記号を表している場合は、その記号がどのような意味を表しているのかを推定し、さらに、そのＤＲＣＳをその意味を表す普通文字による文字列に置き換える。
【選択図】図２

Description

この発明は、字幕情報解析装置および字幕情報解析方法に関する。

近年、大容量の記録媒体を備えるハードディスクレコーダ等の録画機器の普及により、１つの録画機器内に大量、長時間の動画コンテンツを保存することが一般的になっている。しかし、ユーザが動画コンテンツを視聴することができる時間には限りがあるため、録画した動画コンテンツを短時間で効率よく視聴できることが求められている。

一方、地上デジタル放送では、聴力に障害がある視聴者や高齢者のために、放送している番組内のセリフやコメントを字幕として表示するサービス、いわゆる字幕放送サービスが行われている。この字幕は、字幕データとして動画ストリームに含まれて放送事業者から送信されてくるものである。そこで、この字幕データを利用して番組情報の解析や、録画機器内のコンテンツの検索、動画中のシーン検索等を行おうとする試みが行われている。

しかし、地上デジタル放送で送られてくる字幕データには、普通文字の他に、文字放送およびデータ放送文字符号化の規格に基づく外字をビットマップデータで表すＤＲＣＳ（Dynamically Re-definable Character Set）と称されるものが含まれている。ＤＲＣＳは、文字または記号をビットマップデータで表したものであり、様々な用途に用いられている。

例えば、図１Ａに示す「一」（漢数字の一）や、図１Ｂに示す「口」（漢字のくち）などは普通文字でも表示可能であるが、画面上の表示状態を考慮して、あえてＤＲＣＳで表現する場合がある。他にも「元」、「騨」、「濱」、「旺」等の字もＤＲＣＳで表現する場合がある。また、「薙」のように普通文字では表示することができないものもＤＲＣＳで表現する場合がある。さらに、ＤＲＣＳは文字だけでなく、動画中のシーンが現在どのようなシーンであるかを表すための記号を表示するのにも用いられている。例えば、音楽が流れているシーンでは、図１Ｃに示すような音楽が流れていることを表すＤＲＣＳである♪（音符マーク）が表示される。また、携帯電話機による通話シーンでは、図１Ｄに示すような携帯電話機のマークが表示される。他にも図１Ｅに示すマイクロホンや、図１Ｆに示すテレビジョン受像機を表すマーク等も用いられている。

ＤＲＣＳは再定義可能な外字であるため、普通文字とは異なり、放送される番組毎や、放送コンテンツデータを送信する放送事業者ごとに異なる場合がある。したがって、そのままでは字幕データに基づくコンテンツ検索や、シーン検索に用いることができない。

そこで、動画ストリームに含まれる字幕データ中の外字と、データベースに記憶してある外字の字形との異同をピクセルの一致によって判定し、さらに音声データに基づいて動画ストリームのシーン種別判定を行う動画シーン種別判定装置が提案されている（特許文献１）。

特開２００８―２６９４６０号公報

しかし、特許文献１に記載の動画シーン種別判定装置は、外字と外字の字形の異同判定をピクセルの一致でのみ行うものである。そのため、例えば、「一」（漢字の一）、「ー」（長音記号）や「‐」（ハイフン）とでは異なる文字であるにもかかわらずピクセルがほぼ一致するため、同一のものであると判定される可能性がある。したがって、ＤＲＣＳを含む字幕データに基づいて精度の高いシーン種別判定を行うことができない場合がある。

また、上記動画シーン種別判定装置は、ピクセルの一致で外字と外字の字形の異同を判定し、さらに音声データに基づいてシーン種別判定を行うため、音声処理のために動画シーン種別判定装置の部品点数が増加し、コストが上がってしまう。

したがって、この発明の目的は、字幕データに含まれるＤＲＣＳを普通文字に変換することによって、高精度で字幕情報の解析を行うことができる字幕情報解析装置および字幕情報解析方法を提供することにある。

上述した課題を解決するために、第１の発明は、文字または記号を表すビットマップデータを含む字幕データを分離する分離手段と、文字または記号を表す標本ビットマップデータのビットパターンと、標本ビットマップデータが表す情報とを対応させて記憶する記憶手段と、ビットマップデータと標本ビットマップデータとのビットパターンを比較して、標本ビットマップデータの中からビットマップデータと同一の標本ビットマップデータを推定する推定手段と、ビットマップデータを、推定手段によって同一であると推定された標本ビットマップデータが表す情報に置き換える置き換え手段とを備える字幕情報解析装置である。

また、第２の発明は、文字または記号を表すビットマップデータを含む字幕データを分離する分離ステップと、文字または記号を表す標本ビットマップデータのビットパターンと、標本ビットマップデータが表す情報とを対応させて記憶する記憶ステップと、ビットマップデータと標本ビットマップデータとのビットパターンを比較して、標本ビットマップデータの中からビットマップデータと同一の標本ビットマップデータを推定する推定ステップと、ビットマップデータを、推定ステップによって同一であると推定された標本ビットマップデータが表す情報に置き換える置き換えステップとを備える字幕情報解析方法である。

この発明によれば、ＤＲＣＳを普通文字を用いた文字列に変換することにより、普通文字と同様に解析することができるので、ＤＲＣＳを含む字幕データを利用した番組コンテンツ検索、シーン検索、ダイジェスト再生等をより高精度で行うことができる。

ＤＲＣＳを用いて表現される文字または記号の例を示す図である。この発明の一実施形態に係る字幕情報解析装置の構成を示すブロック図である。標本データ記憶部に記憶されるビットパターン、文脈データ、登場頻度情報の一例を示す図である。文字列記憶部に記憶される文字列情報を示す図である。ＤＲＣＳ推定部が実行する処理を示すフローチャートである。シーン検出部が実行する処理を示すフローチャートである。シーン検出結果のサムネイル表示の一例を示す図である。

［字幕情報解析装置の構成］
以下、この発明の一実施形態について、図面を参照して詳細に説明する。図２に示すように、字幕情報解析装置１は、アンテナ１０、チューナ１１、復調部１２、分離部１３、動画記憶部１４、サムネイル抽出部１５、字幕解析部１６、ＤＲＣＳ推定部１７、標本データ記憶部１８、文字列記憶部１９、アプリケーション部２０とを備える。アプリケーション部２０はシーン検出部２０Ａ、シーン情報記憶部２０Ｂとを備える。

アンテナ１０は地上デジタル放送の放送波を受信し、その受信信号はチューナ１１に供給され、中間周波信号に変換される。中間周波信号は復調部１２に供給されて、復調部１２によって動画ストリームであるトランスポートストリームが復調されて取り出され、トランスポートストリームは分離部１３に供給される。。

分離部１３は、トランスポートストリームを分離するデマルチプレクサとデコードを行うデコーダを含むものである。分離部１３は、パケットのヘッダ部に記述されているパケット識別子（ＰＩＤ）に基づいて、トランスポートストリームを映像ＰＥＳ（Packetized Elementary Stream）、音声ＰＥＳ、字幕ＰＥＳ、ＰＳＩ（Program Specific Information）およびＳＩ（Service Information ）に分離する。ＳＩでは、番組のチャンネル、タイトル、開始日時、放送継続時間、詳細内容、進行状況、ジャンル、シリーズに関する情報等、様々な情報が伝送される。ＳＩを読み取ることによってＥＰＧ（Electronic Program Guide）データが取得される。また、映像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳには同期再生のための時間情報であるＰＴＳ（Presentation Time Stamp）が含まれている。そして、分離された映像ＰＥＳ、音声ＰＥＳおよび字幕ＰＥＳは所定の信号処理を施されて映像データ、音声データおよび字幕データに変換される。そして、その映像データおよび音声データは動画記憶部１４に供給されて記憶保持される。また、字幕データは字幕解析部１６に供給される。

サムネイル抽出部１５は、動画記憶部１４に記録された映像データから１フレームを抜き出し、そのフレームからサムネイルを作成する。詳しくは後述するが、サムネイル抽出部１５によって抽出されたサムネイルは後述するシーン検出部２０Ａによるシーン検出結果を表示部２５に表示する際に用いられる。

字幕解析部１６は、分離部１３から供給された字幕データに所定の解析処理を施すことによって、字幕データからＪＩＳコード形式で表す文字（以下、普通文字と称する。）を生成する。なお、上述のように字幕データには普通文字に変換できるもの以外にＤＲＣＳが含まれている場合がある。ＤＲＣＳは記号や特殊文字などのいわゆる外字をビットマップデータとして表したものである。したがって、上述の解析処理では処理を行うことできないため、字幕データ中のＤＲＣＳはＤＲＣＳのまま、ＤＲＣＳ推定部１７に供給される。したがって、字幕解析部１６によって解析処理された文字列、ＤＲＣＳ、ＰＴＳがＤＲＣＳ推定部に供給される。

ＤＲＣＳ推定部１７は、字幕解析部１６から供給されたＤＲＣＳが文字を表している場合には、それがどのような文字を表しているのかを推定し、さらに、そのＤＲＣＳをそのＤＲＣＳが表している普通文字に置き換える。また、判定対象のＤＲＣＳが記号を表している場合は、その記号がどのような意味を表しているのかを推定し、さらに、そのＤＲＣＳをその意味を表す普通文字による文字列に置き換える。ＤＲＣＳ推定部１７は、推定手段および置き換え手段に相当するものである。ＤＲＣＳ推定部１７は、ＤＲＣＳがどのような文字または記号を表しているかを推定するために、パターンマッチング、文脈判定、および字幕中における登場頻度に基づく選択（以下、登場頻度選択と称する。）という３つの処理を行う。ただし、必ず３つの処理を行う必要はなく、いずれか２つを組み合わせて行ってもよい。それぞれの処理の内容およびＤＲＣＳの置き換えの具体的内容については後述する。

標本データ記憶部１８には、図３に示すように、ＤＲＣＳ推定部１７が行う処理に用いられる標本データとしてのＤＲＣＳ（以下、標本ＤＲＣＳと称する。）のビットパターン、文脈データおよび登場頻度情報が記憶されている。なお、ビットパターン、文脈データおよび登場頻度情報は、その標本ＤＲＣＳが表す普通文字、または、その標本ＤＲＣＳが表す記号の意味を示す普通文字による文字列と対応付けられて記憶されている。ＤＲＣＳ推定部１７がパターンマッチングを行う場合はビットパターンが読み出される。ＤＲＣＳ推定部１７が文脈判定を行う場合は文脈データが読み出される。また、ＤＲＣＳ推定部１７が登場頻度選択を行う場合は登場頻度情報が読み出される。なお、ビットパターン、文脈データおよび登場頻度情報の詳細については後述する。図３に示すビットパターン、文脈データおよび登場頻度情報は例示であり、それに限定されるものではない。

文字列記憶部１９は、図４に示すように、字幕に含まれる普通文字と、ＤＲＣＳ推定部１７によってＤＲＣＳを普通文字に置き換えたものとをＰＴＳと対応付けて、動画ごとに記憶するものである。また、番組情報も記憶されている。ＤＲＣＳ推定部１７によってＤＲＣＳは全て普通文字に置き換えられ、文字列記憶部１９には普通文字の文字列とＰＴＳのみが保存されるので、後述するアプリケーション部２０によって様々な方法で利用することができる。

アプリケーション部２０は、本実施の形態では字幕データから映像コンテンツ中のシーンを検出するシーン検出部２０Ａと、シーン検出部２０Ａに検出されたシーンの情報を記憶するシーン情報記憶部２０Ｂとから構成されている。シーン検出部２０Ａは、文字列記憶部１９に記録されているＤＲＣＳ推定部１７の結果を用いて動画中のシーンを検出するものである。シーン検出の詳細については後述する。シーン情報記憶部２０Ｂは、シーン検出部２０Ａによって検出された記憶するものである。

以上のように構成されている字幕情報解析装置１の各部は、制御部２１に接続されている。制御部２１には、ＲＯＭ（Read Only Memory）２２、入力部２３、通信部２４、表示部２５が接続されている。

制御部２１は、ＣＰＵ（Central Processing Unit）などにより構成されるマイクロコンピュータであり、ＲＯＭ２２に予め記録されているプログラムに従い、字幕情報解析装置１の各部を制御するものである。入力部２３は、ユーザが検索したいキーワードの入力や字幕情報解析装置１に対して各種指示を入力するために用いられるリモートコントローラ、キーボード等の種々の入力装置である。

通信部２４は、インターネットに接続されており、詳しくは後述するが、字幕情報解析装置１はインターネットおよび通信部２４を介してビットパターン、文脈データおよび登場頻度情報をダウンロードすることができる。表示部２５は、ＬＣＤ（Liquid Crystal Display）、ＣＲＴ（Cathode Ray Tube display）、有機ＥＬ（Electro luminescence）ディスプレイ等の表示デバイスと、そのインターフェースとから構成されている。表示部２５によって、動画コンテンツが表示され、また、シーン検出部２０Ａによる判別結果がサムネイル抽出部１５によって抽出されてサムネイルを用いてサムネイル表示される。

［字幕情報解析装置の動作］
以下、字幕情報解析装置１の構成要素であるＤＲＣＳ推定部１７が行う、パターンマッチング、文脈判定、登場頻度選択、およびＤＲＣＳの置き換え処理について図３乃至図５に基づいて説明する。

図３に示すように、ＤＲＣＳ推定部１７が行う処理に用いられる標本ＤＲＣＳのビットパターン、文脈データ、登場頻度情報は、標本ＤＲＣＳが表す文字、または、記号の意味を示す文字列と対応付けられて標本データ記憶部１８に記憶されている。

図３においては、「一」（漢数字の一）の標本ＤＲＣＳには普通文字の「一」（漢数字の一）が対応付けられている。「ー」（長音記号）には普通文字の「ー」（長音記号）が対応付けられている。「‐」（ハイフン）には、普通文字の「‐」（ハイフン）が対応付けられている。標本ＤＲＣＳが記号である場合は、その記号の意味内容を簡潔に理解することができるような普通文字による文字列が対応付けられている。標本ＤＲＣＳが♪である場合、「音符マーク」という文字列が対応付けられている。また、携帯電話機マークである場合は、「通話シーン」という文字列が対応付けられている。なお、対応付ける文字列は一種類に限定されるものではなく、後述するアプリケーション部２０による用途を考慮して適宜設定するとよい。例えば、♪には、「音符マーク」以外にも「音楽シーン」、「音楽が流れているシーン」という文字列を対応付けることが考えられる。携帯電話機マークでは、「携帯電話機での通話シーン」とういう文字列を対応付けることが考えられる。

ビットパターンとは、ビットマップデータである標本ＤＲＣＳのビットパターンを示すものである。文脈データとは、過去の映画、テレビ番組等から字幕中においてＤＲＣＳの前後に位置して用いられる文字列の様々な組合せをデータベース化したものである。図３では、例示として、「一」（漢数字の一）には、「（一）般人」「（一）般的」、「日本（一）」、「世界（一）」などの「一」（漢数字の一）と組み合わせて用いられる文字列が対応付けられて記憶されている。「ー」（長音記号）には、「コンピュータ（ー）」、「サーバ（ー）」など、「ー」（長音記号）と組み合わせて用いられる文字列が対応付けられて記憶されている。「‐」（ハイフン）には、ＣＤ（‐）ＲＯＭ、ＤＶＤ（‐）ＲＯＭなどの文字列が対応付けられて記憶されている。「口」（漢字のくち）には、「入（口）」、「出（口）」等の文字列が対応付けられて記憶されている。「♪」（音符マーク）には、「（♪）〜」、『（♪）〜「ピアノ」』等の文字列が対応付けられて記憶されている。なお、『（♪）〜「ピアノ」』の「」（括弧）は曲名や楽器の種類等を表示するために用いられるものである。「携帯電話機マーク」には、「もしもし」等の文字列が対応付けられて記憶されている。

登場頻度情報とは、過去の映画、テレビ番組等の字幕中におけるＤＲＣＳの登場回数に基づいて標本ＤＲＣＳを順位付けしてデータベース化したものである。図３においては、登場頻度は、「口」、「一」、「ー」、「‐」、「♪」、「携帯電話機マーク」という順位になっている。なお、登場頻度情報はＤＲＣＳの登場回数を順位付けしたものに限られず、登場回数そのものでもよい。

まず、ＤＲＣＳ推定部１７は、字幕データの中にＤＲＣＳが含まれているか否かを判断する（ステップＳ１）。字幕データ中にＤＲＣＳが含まれていると判断した場合は（ステップＳ１のＹｅｓ）、次にパターンマッチングを行う（ステップＳ２）。なお、字幕データ中にＤＲＣＳが含まれていない場合（ステップＳ１のＮｏ）は、ＤＲＣＳ推定部１７による処理は終了となる。

パターンマッチングを行う際には、標本データ記憶部１８から標本ＤＲＣＳのビットパターンが読み出される。その標本ＤＲＣＳと処理対象である字幕データに含まれるＤＲＣＳとのビットパターンを比較（パターンマッチング）することにより、複数の標本ＤＲＣＳの中から字幕中のＤＲＣＳとビットパターンが一致するものを同一のＤＲＣＳであると推定する。なお、ビットパターンの一致とは、完全一致に限られず、一致するピクセルが全体に対して一定の割合を占めた場合に同一であると判定するようにしてもよい。パターンマッチングは、字幕データに含まれている全てのＤＲＣＳに対して行われる。

そして、パターンマッチングを行った後、処理対象である字幕データ中のＤＲＣＳが標本データ記憶部１８に記憶されている複数の標本ＤＲＣＳの中の１つの標本ＤＲＣＳとビットパターンが一致したか否かを判断する（ステップＳ３）。１つの標本ＤＲＣＳと一致してはいない場合（ステップＳ３のＮｏ）、次に複数の標本ＤＲＣＳと一致したか否かを判断する（ステップＳ４）。ステップＳ４で複数の標本ＤＲＣＳと一致したと判断した場合、次に文脈判定を行う（ステップＳ５）。

文脈判定を行う場合、標本データ記憶部１８から文脈データが読み出される。文脈判定では、ステップＳ３のパターンマッチングで字幕データ中のＤＲＣＳとビットパターンが一致すると判定された複数の標本ＤＲＣＳに対応する文脈データと、字幕データに含まれるＤＲＣＳの前後に並ぶ文字列とを比較する。これにより、パターンマッチングで同一であると推定された複数の標本ＤＲＣＳの中からより字幕データ中のＤＲＣＳと近似するものを同一のものとして推定することができる。

以下、文脈判定の具体例について、字幕データに含まれる処理対象のＤＲＣＳが「一」（漢数字の一）であり、「般人」という文字列と組み合わせて「一般人」という言葉で用いられている場合を例にして説明する。「一」（漢数字の一）というＤＲＣＳについてパターンマッチングを行うと、「一」（漢数字の一）の他にも、「ー」（長音記号）、および「‐」（ハイフン）とビットパターンが類似しているとして、３つの標本ＤＲＣＳと同一であると推定される可能性がある。そこで、同一であると推定された３つの標本ＤＲＣＳ「一」（漢数字の一）、「ー」（長音記号）、「‐」（ハイフン）の文脈データと、字幕データ中のＤＲＣＳである「一」（漢数字の一）の前後の文字列を比較する。この例では、字幕データ中のＤＲＣＳ「一（漢数字の一）」は「般人」という文字と組み合わせて使用されているので、標本ＤＲＣＳである「一」（漢数字の一）の文脈データである「（一）般人」と一致するとして、そのＤＲＣＳは漢数字の一であると推定する。このような処理を行うことによって、パターンマッチングで複数の標本ＤＲＣＳと同一であるとする推定結果が出ても、推定結果を絞り込んで、推定の精度を高めることができる。

次に、文脈判定の結果、１つの標本ＤＲＣＳに絞り込むことができたか否かを判断する（ステップＳ６）。１つの標本ＤＲＣＳに絞り込むことができなかった場合（ステップＳ６のＮｏ）、すなわち、文脈判定を行っても複数の標本ＤＲＣＳと同一であると推定した場合は、次に登場頻度選択を行う（ステップＳ７）。

登場頻度選択とは、字幕データ中のＤＲＣＳが、文脈判定によって複数の標本ＤＲＣＳと同一であると推定された場合に、その複数の標本ＤＲＣＳの中から字幕中における登場頻度が最も高い標本ＤＲＣＳが字幕データ中のＤＲＣＳと同一であると推定するものである。例えば、図３に示す登場頻度情報では、「一」（漢数字の一）、「ー」（長音記号）および「‐」（ハイフン）という３つのＤＲＣＳでは、「一」（漢数字の一）が最も字幕中での登場頻度が高い。そうすると、登場頻度選択によって、字幕データ中のＤＲＣＳ「一」（漢数字の一）は、登場頻度が最も高い「一」（漢数字の一）と同一であると推定される。これにより字幕データ中のＤＲＣＳを必ず１つの標本ＤＲＣＳと同一であると推定することができる。

そして、登場頻度選択終了後、字幕データ中のＤＲＣＳを同一であると推定した標本ＤＲＣＳに対応付けられている普通文字に置き換える（ステップＳ８）。また、上述のステップＳ４のパターンマッチングのみで１つの標本ＤＲＣＳと同一であると推定した場合もステップＳ８で置き換えを行う。さらに、ステップＳ５の文脈判定の結果、１つの標本ＤＲＣＳと同一であると推定した場合も同様に、ステップＳ８でＤＲＣＳを普通文字に置き換える。

ステップＳ８による置き換え処理では、字幕データ中のＤＲＣＳが文字を表している場合、例えば、「一（漢数字の一）」、「口（漢字のくち）」などである場合、それを普通文字の「「一（漢数字の一）」、「口（漢字のくち）」に置き換える。また、判定対象であるＤＲＣＳが記号である♪である場合、その記号が表す意味を示す「音符マーク」という文字列に置き換える。

そして、ＤＲＣＳ推定部１７によって普通文字の文字列と、ＤＲＣＳが置き換えられた普通文字の文字列とが、図４に示すように動画コンテンツの種類ごとに、その文字列の表示時刻を示すＰＴＳと対応付けられて文字列情報として文字列記憶部１９に保存される。字幕データに含まれるＤＲＣＳは、ＤＲＣＳ推定部１７によって全て普通文字による文字列に置き換えられるため、文字列記憶部１９には普通文字による文字列とＰＴＳが保存される。

なお、本実施の形態では、標本データ記憶部１８内に予めビットパターン、文脈データおよび登場頻度情報が記憶されているという前提で説明を行った。しかし、通信部２４を介して字幕情報解析装置１をインターネット等のネットワークに接続し、ネットワークを介してサーバ等からダウンロードすることにより、ビットパターン、文脈データ、登場頻度情報を標本データ記憶部１８に記憶させるようにしてもよい。サーバ上のビットパターン、文脈データおよび登場頻度情報を随時更新することにより、標本データ記憶部１８のそれらデータおよび情報を常に最新の状態にしておくことができる。これにより、字幕中に従来にはない新たなＤＲＣＳ使用されるようになっても、即座にそのＤＲＣＳに対応することができる。

次に、アプリケーション部２０のシーン検出部２０Ａが行うシーン検出処理について、図６及び図７に基づいて説明する。図６に示すフローチャートは、ユーザが検索したい字幕中の文字を検索用キーワードとして入力した後の処理の流れを示すものである。ユーザによるキーワード入力は入力部２３を介して行われる。なお、ユーザによるキーワード入力操作は、映像再生の停止時に行うようにしてもよく、再生中の画面上で行うようにしてもよい。

シーン検出部２０Ａには、シーン検出を行うために、文字列記憶部１９から図４に示す動画コンテンツ毎に文字列とその文字列を表示する時刻を示すＰＴＳとが対応付けられた文字列情報が供給される。また、分離部１３から映像データおよび音声データが供給される。シーン検出を開始すると、まず、文字列情報を参照して、ユーザが入力したキーワードを含む文字列が字幕中にあるか否かを判定する（ステップＳ２１）。なお、この判定は、ユーザが動画コンテンツを指定して特定の動画コンテンツに対して行ってもよいし、動画コンテンツを指定せず、文字列記憶部１９に記憶されている全ての文字列情報について行ってもよい。字幕中にキーワードを含む文字列がない場合（ステップＳ２１のＮｏ）は、ユーザが入力したキーワードを含む字幕が表示されるシーンはないとしてシーン検出は終了する。なお、その際、表示部２５にユーザが入力したキーワードに類似するキーワードや、関連するキーワードを表示してユーザに新たな入力を促すようにしてもよい。

キーワードを含む文字列が字幕中に存在する場合（ステップＳ２１のＹｅｓ）、次に、その文字列に対応付けられているＰＴＳを参照して、その文字列が表示される時刻情報を所得する（ステップＳ２２）。そして、分離部１３から供給されたＡＶデータとキーワードを含む文字列が表示される時刻情報とを対応付けることにより、時刻情報とその時刻における動画のシーンを対応付けてシーン情報として出力する（ステップＳ２３）。出力されたシーン情報はシーン情報記憶部２０Ｂに記録される（ステップＳ２４）。

そして、シーン検出の結果、すなわち、ユーザが入力したキーワードを含む字幕が表示されるシーンが、サムネイル抽出部１５によって抽出されたサムネイルと対応付けられて、図７に示すように表示部２５にサムネイル表示されてユーザに提供される（ステップＳ２５）。

従来は、字幕に含まれるＤＲＣＳはビットマップデータで表されるいわゆる外字であるため、字幕によるシーン検出の対象とはならなかった。これに対し、この発明では字幕中に含まれるＤＲＣＳを全て普通文字に置き換えるため、ＤＲＣＳを用いて表された文字や記号も全てキーワード検索の対象とすることができる。したがって、従来に比べてシーン検出の精度を高めることができる。また、例えば、動画中音楽が流れていることを表すＤＲＣＳである♪（音符マーク）は、その記号の意味内容を表す普通文字を用いた文字列（例えば、「音楽シーン」）に置き換えられる。よって、ユーザが検索するキーワードを「音楽シーン」と設定することによって、動画中の音楽が流れるシーンを検出することができる。このように、ＤＲＣＳを普通文字に置き換えることによって、検出方法および検出することができるシーンの幅を広げて、より詳細なシーン検出を行うことができる。

本実施の形態では、アプリケーション部２０が実行するアプリケーションとしてシーン検出を例にして説明したが、実行するアプリケーションはシーン検出に限られない。上述のように、シーン情報記憶部２０Ｂには動画コンテンツ毎に字幕とその字幕が表示される時刻情報が対応付けられて記憶されているので、ユーザが入力したキーワードを含む字幕が表示される動画コンテンツを検索することも可能である。そして、その動画コンテンツ検索の結果は、シーン検出結果と同様にサムネイル抽出部１５によって抽出されたサムネイルと対応付けられて、表示部２５にサムネイル表示されてユーザに提供される。これは、ユーザが望む番組を容易に見つけることができるので、この発明を大量の番組コンテンツをハードディスクに記録することができるハードディスクレコーダに適用した場合に有用である。

以上、この発明の実施の形態について具体的に説明したが、この発明は、上述の実施形態に限定されるものではなく、この発明の技術的思想に基づく範囲内で各種の変形や適用が可能である。例えば、ＤＲＣＳ推定部１７におけるパターンマッチング、文脈判定、登場頻度選択は常に全てを行う必要はなく、パターンマッチングと文脈判定、またはパターンマッチングと登場頻度選択のように組み合わせて用いてもよい。また、テレビジョン放送をアンテナ１０を介して入力する場合に限られず、ＵＳＢ（Universal Serial Bus）等を介してハードディスクやメモリカードから字幕データを含む動画コンテンツを入力するようにしてもよい。

また、この発明は、地上デジタル放送を受信する場合に限られず、ＩＰＴＶ（Internet Protocol Television）サービスを受信する場合にも用いることができる。ＩＰＴＶとは、ＩＰ（Internet Protocol）を利用してデジタルテレビ放送を配信するサービスである。

さらに、この発明は、動画コンテンツを保存することができるハードディスクレコーダ、パーソナルコンピュータ、携帯電話機等に用いることができる。また、記録媒体に記録された動画コンテンツを再生することができるＤＶＤ（Digital Versatile Disc）プレーヤ、ＢＤ（Blu-ray Disc）プレーヤ等にも用いることができる。なお、ハードディスクレコーダ等の放送された動画コンテンツを録画して再生することができる機器にこの発明を用いる場合は、ＤＲＣＳ推定部１７による判定および置き換え処理を行いつつ、録画処理行うとよい。そうすることにより、録画終了後直ちに字幕データを用いてシーン検出等を行うことができる。

１・・・・文字情報解析装置
１３・・・分離部
１６・・・字幕解析部
１７・・・ＤＲＣＳ推定部
１８・・・標本データ記憶部
１９・・・文字列記憶部
２０Ａ・・シーン検出部
２０Ｂ・・シーン情報記憶部
２４・・・通信部

Claims

文字または記号を表すビットマップデータを含む字幕データを分離する分離手段と、
文字または記号を表す標本ビットマップデータのビットパターンと、該標本ビットマップデータが表す情報とを対応させて記憶する記憶手段と、
前記ビットマップデータと前記標本ビットマップデータとのビットパターンを比較して、前記標本ビットマップデータの中から前記ビットマップデータと同一の標本ビットマップデータを推定する推定手段と、
前記ビットマップデータを、前記推定手段によって同一であると推定された前記標本ビットマップデータが表す情報に置き換える置き換え手段と、
を備える字幕情報解析装置。
前記記憶手段はさらに、前記標本ビットマップデータの字幕中の前または／および後ろに並ぶ文字の組合せを、該標本ビットマップデータが表す情報と対応させて記憶し、
前記推定手段は、前記ビットマップデータが複数の前記標本ビットマップデータと同一であると推定した場合、さらに、同一であると推定した複数の該標本ビットマップデータと前記ビットマップデータとの字幕中の前または／および後ろに並ぶ文字の組合せを比較して、前記標本ビットマップデータの中から前記ビットマップデータと同一の標本ビットマップデータを推定する請求項１に記載の字幕情報解析装置。
前記記憶手段はさらに、前記標本ビットマップデータの字幕中における登場頻度を、該標本ビットマップデータが表す情報と対応させて記憶し、
前記推定手段は、前記ビットマップデータが複数の前記標本ビットマップデータと同一であると推定した場合、さらに、同一であると推定した複数の該標本ビットマップデータの中から登場頻度が最も高い標本ビットマップデータを選択して、前記標本ビットマップデータの中から前記ビットマップデータと同一の標本ビットマップデータを推定する請求項１または２に記載の字幕情報解析装置。
前記情報は、前記標本ビットマップデータが文字を表す場合にはその文字であり、前記ビットマップデータが記号を表す場合は、その記号が表す文字列である請求項１に記載の字幕情報解析装置。
ネットワークと接続する通信手段をさらに備え、該ネットワークを介してダウンロードすることにより、前記標本ビットマップデータのビットパターン、字幕中の前または／および後ろに並ぶ文字の組合せ、字幕中における登場頻度および前記ビットマップデータが表す情報を更新する請求項１に記載の字幕情報解析装置。
文字または記号を表すビットマップデータを含む字幕データを分離する分離ステップと、
文字または記号を表す標本ビットマップデータのビットパターンと、該標本ビットマップデータが表す情報とを対応させて記憶する記憶ステップと、
前記ビットマップデータと前記標本ビットマップデータとのビットパターンを比較して、前記標本ビットマップデータの中から前記ビットマップデータと同一の標本ビットマップデータを推定する推定ステップと、
前記ビットマップデータを、前記推定ステップによって同一であると推定された前記標本ビットマップデータが表す情報に置き換える置き換えステップと、
を備える字幕情報解析方法。