JP2010283568A - 字幕情報解析装置および字幕情報解析方法 - Google Patents

字幕情報解析装置および字幕情報解析方法 Download PDF

Info

Publication number
JP2010283568A
JP2010283568A JP2009134925A JP2009134925A JP2010283568A JP 2010283568 A JP2010283568 A JP 2010283568A JP 2009134925 A JP2009134925 A JP 2009134925A JP 2009134925 A JP2009134925 A JP 2009134925A JP 2010283568 A JP2010283568 A JP 2010283568A
Authority
JP
Japan
Prior art keywords
bitmap data
drcs
sample
caption
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2009134925A
Other languages
English (en)
Inventor
Akito Masumura
明人 益村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009134925A priority Critical patent/JP2010283568A/ja
Priority to US12/800,297 priority patent/US20100310235A1/en
Priority to CN2010101941786A priority patent/CN101909164B/zh
Publication of JP2010283568A publication Critical patent/JP2010283568A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3027Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is digitally coded

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】字幕データに含まれるDRCSを普通の文字に変換することによって高精度で字幕情報の解析を行うことができる字幕情報解析装置および字幕情報解析方法を提供する。
【解決手段】字幕情報解析装置1は、分離部13、字幕解析部16、DRCS推定部17、標本データ記憶部18、文字列記憶部19とを備える。DRCS推定部17は、ビットパターンによるパターンマッチング、字幕中の前後の文字列による文脈判定、字幕中における登場頻度に基づく選択を行うことにより、DRCSが文字を表している場合には、それがどのような文字を表しているのかを推定し、そのDRCSを普通文字に置き換える。また、DRCSが記号を表している場合は、その記号がどのような意味を表しているのかを推定し、さらに、そのDRCSをその意味を表す普通文字による文字列に置き換える。
【選択図】図2

Description

この発明は、字幕情報解析装置および字幕情報解析方法に関する。
近年、大容量の記録媒体を備えるハードディスクレコーダ等の録画機器の普及により、1つの録画機器内に大量、長時間の動画コンテンツを保存することが一般的になっている。しかし、ユーザが動画コンテンツを視聴することができる時間には限りがあるため、録画した動画コンテンツを短時間で効率よく視聴できることが求められている。
一方、地上デジタル放送では、聴力に障害がある視聴者や高齢者のために、放送している番組内のセリフやコメントを字幕として表示するサービス、いわゆる字幕放送サービスが行われている。この字幕は、字幕データとして動画ストリームに含まれて放送事業者から送信されてくるものである。そこで、この字幕データを利用して番組情報の解析や、録画機器内のコンテンツの検索、動画中のシーン検索等を行おうとする試みが行われている。
しかし、地上デジタル放送で送られてくる字幕データには、普通文字の他に、文字放送およびデータ放送文字符号化の規格に基づく外字をビットマップデータで表すDRCS(Dynamically Re-definable Character Set)と称されるものが含まれている。DRCSは、文字または記号をビットマップデータで表したものであり、様々な用途に用いられている。
例えば、図1Aに示す「一」(漢数字の一)や、図1Bに示す「口」(漢字のくち)などは普通文字でも表示可能であるが、画面上の表示状態を考慮して、あえてDRCSで表現する場合がある。他にも「元」、「騨」、「濱」、「旺」等の字もDRCSで表現する場合がある。また、「薙」のように普通文字では表示することができないものもDRCSで表現する場合がある。さらに、DRCSは文字だけでなく、動画中のシーンが現在どのようなシーンであるかを表すための記号を表示するのにも用いられている。例えば、音楽が流れているシーンでは、図1Cに示すような音楽が流れていることを表すDRCSである♪(音符マーク)が表示される。また、携帯電話機による通話シーンでは、図1Dに示すような携帯電話機のマークが表示される。他にも図1Eに示すマイクロホンや、図1Fに示すテレビジョン受像機を表すマーク等も用いられている。
DRCSは再定義可能な外字であるため、普通文字とは異なり、放送される番組毎や、放送コンテンツデータを送信する放送事業者ごとに異なる場合がある。したがって、そのままでは字幕データに基づくコンテンツ検索や、シーン検索に用いることができない。
そこで、動画ストリームに含まれる字幕データ中の外字と、データベースに記憶してある外字の字形との異同をピクセルの一致によって判定し、さらに音声データに基づいて動画ストリームのシーン種別判定を行う動画シーン種別判定装置が提案されている(特許文献1)。
特開2008―269460号公報
しかし、特許文献1に記載の動画シーン種別判定装置は、外字と外字の字形の異同判定をピクセルの一致でのみ行うものである。そのため、例えば、「一」(漢字の一)、「ー」(長音記号)や「‐」(ハイフン)とでは異なる文字であるにもかかわらずピクセルがほぼ一致するため、同一のものであると判定される可能性がある。したがって、DRCSを含む字幕データに基づいて精度の高いシーン種別判定を行うことができない場合がある。
また、上記動画シーン種別判定装置は、ピクセルの一致で外字と外字の字形の異同を判定し、さらに音声データに基づいてシーン種別判定を行うため、音声処理のために動画シーン種別判定装置の部品点数が増加し、コストが上がってしまう。
したがって、この発明の目的は、字幕データに含まれるDRCSを普通文字に変換することによって、高精度で字幕情報の解析を行うことができる字幕情報解析装置および字幕情報解析方法を提供することにある。
上述した課題を解決するために、第1の発明は、文字または記号を表すビットマップデータを含む字幕データを分離する分離手段と、文字または記号を表す標本ビットマップデータのビットパターンと、標本ビットマップデータが表す情報とを対応させて記憶する記憶手段と、ビットマップデータと標本ビットマップデータとのビットパターンを比較して、標本ビットマップデータの中からビットマップデータと同一の標本ビットマップデータを推定する推定手段と、ビットマップデータを、推定手段によって同一であると推定された標本ビットマップデータが表す情報に置き換える置き換え手段とを備える字幕情報解析装置である。
また、第2の発明は、文字または記号を表すビットマップデータを含む字幕データを分離する分離ステップと、文字または記号を表す標本ビットマップデータのビットパターンと、標本ビットマップデータが表す情報とを対応させて記憶する記憶ステップと、ビットマップデータと標本ビットマップデータとのビットパターンを比較して、標本ビットマップデータの中からビットマップデータと同一の標本ビットマップデータを推定する推定ステップと、ビットマップデータを、推定ステップによって同一であると推定された標本ビットマップデータが表す情報に置き換える置き換えステップとを備える字幕情報解析方法である。
この発明によれば、DRCSを普通文字を用いた文字列に変換することにより、普通文字と同様に解析することができるので、DRCSを含む字幕データを利用した番組コンテンツ検索、シーン検索、ダイジェスト再生等をより高精度で行うことができる。
DRCSを用いて表現される文字または記号の例を示す図である。 この発明の一実施形態に係る字幕情報解析装置の構成を示すブロック図である。 標本データ記憶部に記憶されるビットパターン、文脈データ、登場頻度情報の一例を示す図である。 文字列記憶部に記憶される文字列情報を示す図である。 DRCS推定部が実行する処理を示すフローチャートである。 シーン検出部が実行する処理を示すフローチャートである。 シーン検出結果のサムネイル表示の一例を示す図である。
[字幕情報解析装置の構成]
以下、この発明の一実施形態について、図面を参照して詳細に説明する。図2に示すように、字幕情報解析装置1は、アンテナ10、チューナ11、復調部12、分離部13、動画記憶部14、サムネイル抽出部15、字幕解析部16、DRCS推定部17、標本データ記憶部18、文字列記憶部19、アプリケーション部20とを備える。アプリケーション部20はシーン検出部20A、シーン情報記憶部20Bとを備える。
アンテナ10は地上デジタル放送の放送波を受信し、その受信信号はチューナ11に供給され、中間周波信号に変換される。中間周波信号は復調部12に供給されて、復調部12によって動画ストリームであるトランスポートストリームが復調されて取り出され、トランスポートストリームは分離部13に供給される。。
分離部13は、トランスポートストリームを分離するデマルチプレクサとデコードを行うデコーダを含むものである。分離部13は、パケットのヘッダ部に記述されているパケット識別子(PID)に基づいて、トランスポートストリームを映像PES(Packetized Elementary Stream)、音声PES、字幕PES、PSI(Program Specific Information)およびSI(Service Information )に分離する。SIでは、番組のチャンネル、タイトル、開始日時、放送継続時間、詳細内容、進行状況、ジャンル、シリーズに関する情報等、様々な情報が伝送される。SIを読み取ることによってEPG(Electronic Program Guide)データが取得される。また、映像PES、音声PESおよび字幕PESには同期再生のための時間情報であるPTS(Presentation Time Stamp)が含まれている。そして、分離された映像PES、音声PESおよび字幕PESは所定の信号処理を施されて映像データ、音声データおよび字幕データに変換される。そして、その映像データおよび音声データは動画記憶部14に供給されて記憶保持される。また、字幕データは字幕解析部16に供給される。
サムネイル抽出部15は、動画記憶部14に記録された映像データから1フレームを抜き出し、そのフレームからサムネイルを作成する。詳しくは後述するが、サムネイル抽出部15によって抽出されたサムネイルは後述するシーン検出部20Aによるシーン検出結果を表示部25に表示する際に用いられる。
字幕解析部16は、分離部13から供給された字幕データに所定の解析処理を施すことによって、字幕データからJISコード形式で表す文字(以下、普通文字と称する。)を生成する。なお、上述のように字幕データには普通文字に変換できるもの以外にDRCSが含まれている場合がある。DRCSは記号や特殊文字などのいわゆる外字をビットマップデータとして表したものである。したがって、上述の解析処理では処理を行うことできないため、字幕データ中のDRCSはDRCSのまま、DRCS推定部17に供給される。したがって、字幕解析部16によって解析処理された文字列、DRCS、PTSがDRCS推定部に供給される。
DRCS推定部17は、字幕解析部16から供給されたDRCSが文字を表している場合には、それがどのような文字を表しているのかを推定し、さらに、そのDRCSをそのDRCSが表している普通文字に置き換える。また、判定対象のDRCSが記号を表している場合は、その記号がどのような意味を表しているのかを推定し、さらに、そのDRCSをその意味を表す普通文字による文字列に置き換える。DRCS推定部17は、推定手段および置き換え手段に相当するものである。DRCS推定部17は、DRCSがどのような文字または記号を表しているかを推定するために、パターンマッチング、文脈判定、および字幕中における登場頻度に基づく選択(以下、登場頻度選択と称する。)という3つの処理を行う。ただし、必ず3つの処理を行う必要はなく、いずれか2つを組み合わせて行ってもよい。それぞれの処理の内容およびDRCSの置き換えの具体的内容については後述する。
標本データ記憶部18には、図3に示すように、DRCS推定部17が行う処理に用いられる標本データとしてのDRCS(以下、標本DRCSと称する。)のビットパターン、文脈データおよび登場頻度情報が記憶されている。なお、ビットパターン、文脈データおよび登場頻度情報は、その標本DRCSが表す普通文字、または、その標本DRCSが表す記号の意味を示す普通文字による文字列と対応付けられて記憶されている。DRCS推定部17がパターンマッチングを行う場合はビットパターンが読み出される。DRCS推定部17が文脈判定を行う場合は文脈データが読み出される。また、DRCS推定部17が登場頻度選択を行う場合は登場頻度情報が読み出される。なお、ビットパターン、文脈データおよび登場頻度情報の詳細については後述する。図3に示すビットパターン、文脈データおよび登場頻度情報は例示であり、それに限定されるものではない。
文字列記憶部19は、図4に示すように、字幕に含まれる普通文字と、DRCS推定部17によってDRCSを普通文字に置き換えたものとをPTSと対応付けて、動画ごとに記憶するものである。また、番組情報も記憶されている。DRCS推定部17によってDRCSは全て普通文字に置き換えられ、文字列記憶部19には普通文字の文字列とPTSのみが保存されるので、後述するアプリケーション部20によって様々な方法で利用することができる。
アプリケーション部20は、本実施の形態では字幕データから映像コンテンツ中のシーンを検出するシーン検出部20Aと、シーン検出部20Aに検出されたシーンの情報を記憶するシーン情報記憶部20Bとから構成されている。シーン検出部20Aは、文字列記憶部19に記録されているDRCS推定部17の結果を用いて動画中のシーンを検出するものである。シーン検出の詳細については後述する。シーン情報記憶部20Bは、シーン検出部20Aによって検出された記憶するものである。
以上のように構成されている字幕情報解析装置1の各部は、制御部21に接続されている。制御部21には、ROM(Read Only Memory)22、入力部23、通信部24、表示部25が接続されている。
制御部21は、CPU(Central Processing Unit)などにより構成されるマイクロコンピュータであり、ROM22に予め記録されているプログラムに従い、字幕情報解析装置1の各部を制御するものである。入力部23は、ユーザが検索したいキーワードの入力や字幕情報解析装置1に対して各種指示を入力するために用いられるリモートコントローラ、キーボード等の種々の入力装置である。
通信部24は、インターネットに接続されており、詳しくは後述するが、字幕情報解析装置1はインターネットおよび通信部24を介してビットパターン、文脈データおよび登場頻度情報をダウンロードすることができる。表示部25は、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube display)、有機EL(Electro luminescence)ディスプレイ等の表示デバイスと、そのインターフェースとから構成されている。表示部25によって、動画コンテンツが表示され、また、シーン検出部20Aによる判別結果がサムネイル抽出部15によって抽出されてサムネイルを用いてサムネイル表示される。
[字幕情報解析装置の動作]
以下、字幕情報解析装置1の構成要素であるDRCS推定部17が行う、パターンマッチング、文脈判定、登場頻度選択、およびDRCSの置き換え処理について図3乃至図5に基づいて説明する。
図3に示すように、DRCS推定部17が行う処理に用いられる標本DRCSのビットパターン、文脈データ、登場頻度情報は、標本DRCSが表す文字、または、記号の意味を示す文字列と対応付けられて標本データ記憶部18に記憶されている。
図3においては、「一」(漢数字の一)の標本DRCSには普通文字の「一」(漢数字の一)が対応付けられている。「ー」(長音記号)には普通文字の「ー」(長音記号)が対応付けられている。「‐」(ハイフン)には、普通文字の「‐」(ハイフン)が対応付けられている。標本DRCSが記号である場合は、その記号の意味内容を簡潔に理解することができるような普通文字による文字列が対応付けられている。標本DRCSが♪である場合、「音符マーク」という文字列が対応付けられている。また、携帯電話機マークである場合は、「通話シーン」という文字列が対応付けられている。なお、対応付ける文字列は一種類に限定されるものではなく、後述するアプリケーション部20による用途を考慮して適宜設定するとよい。例えば、♪には、「音符マーク」以外にも「音楽シーン」、「音楽が流れているシーン」という文字列を対応付けることが考えられる。携帯電話機マークでは、「携帯電話機での通話シーン」とういう文字列を対応付けることが考えられる。
ビットパターンとは、ビットマップデータである標本DRCSのビットパターンを示すものである。文脈データとは、過去の映画、テレビ番組等から字幕中においてDRCSの前後に位置して用いられる文字列の様々な組合せをデータベース化したものである。図3では、例示として、「一」(漢数字の一)には、「(一)般人」「(一)般的」、「日本(一)」、「世界(一)」などの「一」(漢数字の一)と組み合わせて用いられる文字列が対応付けられて記憶されている。「ー」(長音記号)には、「コンピュータ(ー)」、「サーバ(ー)」など、「ー」(長音記号)と組み合わせて用いられる文字列が対応付けられて記憶されている。「‐」(ハイフン)には、CD(‐)ROM、DVD(‐)ROMなどの文字列が対応付けられて記憶されている。「口」(漢字のくち)には、「入(口)」、「出(口)」等の文字列が対応付けられて記憶されている。「♪」(音符マーク)には、「(♪)〜」、『(♪)〜「ピアノ」』等の文字列が対応付けられて記憶されている。なお、『(♪)〜「ピアノ」』の「」(括弧)は曲名や楽器の種類等を表示するために用いられるものである。「携帯電話機マーク」には、「もしもし」等の文字列が対応付けられて記憶されている。
登場頻度情報とは、過去の映画、テレビ番組等の字幕中におけるDRCSの登場回数に基づいて標本DRCSを順位付けしてデータベース化したものである。図3においては、登場頻度は、「口」、「一」、「ー」、「‐」、「♪」、「携帯電話機マーク」という順位になっている。なお、登場頻度情報はDRCSの登場回数を順位付けしたものに限られず、登場回数そのものでもよい。
まず、DRCS推定部17は、字幕データの中にDRCSが含まれているか否かを判断する(ステップS1)。字幕データ中にDRCSが含まれていると判断した場合は(ステップS1のYes)、次にパターンマッチングを行う(ステップS2)。なお、字幕データ中にDRCSが含まれていない場合(ステップS1のNo)は、DRCS推定部17による処理は終了となる。
パターンマッチングを行う際には、標本データ記憶部18から標本DRCSのビットパターンが読み出される。その標本DRCSと処理対象である字幕データに含まれるDRCSとのビットパターンを比較(パターンマッチング)することにより、複数の標本DRCSの中から字幕中のDRCSとビットパターンが一致するものを同一のDRCSであると推定する。なお、ビットパターンの一致とは、完全一致に限られず、一致するピクセルが全体に対して一定の割合を占めた場合に同一であると判定するようにしてもよい。パターンマッチングは、字幕データに含まれている全てのDRCSに対して行われる。
そして、パターンマッチングを行った後、処理対象である字幕データ中のDRCSが標本データ記憶部18に記憶されている複数の標本DRCSの中の1つの標本DRCSとビットパターンが一致したか否かを判断する(ステップS3)。1つの標本DRCSと一致してはいない場合(ステップS3のNo)、次に複数の標本DRCSと一致したか否かを判断する(ステップS4)。ステップS4で複数の標本DRCSと一致したと判断した場合、次に文脈判定を行う(ステップS5)。
文脈判定を行う場合、標本データ記憶部18から文脈データが読み出される。文脈判定では、ステップS3のパターンマッチングで字幕データ中のDRCSとビットパターンが一致すると判定された複数の標本DRCSに対応する文脈データと、字幕データに含まれるDRCSの前後に並ぶ文字列とを比較する。これにより、パターンマッチングで同一であると推定された複数の標本DRCSの中からより字幕データ中のDRCSと近似するものを同一のものとして推定することができる。
以下、文脈判定の具体例について、字幕データに含まれる処理対象のDRCSが「一」(漢数字の一)であり、「般人」という文字列と組み合わせて「一般人」という言葉で用いられている場合を例にして説明する。「一」(漢数字の一)というDRCSについてパターンマッチングを行うと、「一」(漢数字の一)の他にも、「ー」(長音記号)、および「‐」(ハイフン)とビットパターンが類似しているとして、3つの標本DRCSと同一であると推定される可能性がある。そこで、同一であると推定された3つの標本DRCS「一」(漢数字の一)、「ー」(長音記号)、「‐」(ハイフン)の文脈データと、字幕データ中のDRCSである「一」(漢数字の一)の前後の文字列を比較する。この例では、字幕データ中のDRCS「一(漢数字の一)」は「般人」という文字と組み合わせて使用されているので、標本DRCSである「一」(漢数字の一)の文脈データである「(一)般人」と一致するとして、そのDRCSは漢数字の一であると推定する。このような処理を行うことによって、パターンマッチングで複数の標本DRCSと同一であるとする推定結果が出ても、推定結果を絞り込んで、推定の精度を高めることができる。
次に、文脈判定の結果、1つの標本DRCSに絞り込むことができたか否かを判断する(ステップS6)。1つの標本DRCSに絞り込むことができなかった場合(ステップS6のNo)、すなわち、文脈判定を行っても複数の標本DRCSと同一であると推定した場合は、次に登場頻度選択を行う(ステップS7)。
登場頻度選択とは、字幕データ中のDRCSが、文脈判定によって複数の標本DRCSと同一であると推定された場合に、その複数の標本DRCSの中から字幕中における登場頻度が最も高い標本DRCSが字幕データ中のDRCSと同一であると推定するものである。例えば、図3に示す登場頻度情報では、「一」(漢数字の一)、「ー」(長音記号)および「‐」(ハイフン)という3つのDRCSでは、「一」(漢数字の一)が最も字幕中での登場頻度が高い。そうすると、登場頻度選択によって、字幕データ中のDRCS「一」(漢数字の一)は、登場頻度が最も高い「一」(漢数字の一)と同一であると推定される。これにより字幕データ中のDRCSを必ず1つの標本DRCSと同一であると推定することができる。
そして、登場頻度選択終了後、字幕データ中のDRCSを同一であると推定した標本DRCSに対応付けられている普通文字に置き換える(ステップS8)。また、上述のステップS4のパターンマッチングのみで1つの標本DRCSと同一であると推定した場合もステップS8で置き換えを行う。さらに、ステップS5の文脈判定の結果、1つの標本DRCSと同一であると推定した場合も同様に、ステップS8でDRCSを普通文字に置き換える。
ステップS8による置き換え処理では、字幕データ中のDRCSが文字を表している場合、例えば、「一(漢数字の一)」、「口(漢字のくち)」などである場合、それを普通文字の「「一(漢数字の一)」、「口(漢字のくち)」に置き換える。また、判定対象であるDRCSが記号である♪である場合、その記号が表す意味を示す「音符マーク」という文字列に置き換える。
そして、DRCS推定部17によって普通文字の文字列と、DRCSが置き換えられた普通文字の文字列とが、図4に示すように動画コンテンツの種類ごとに、その文字列の表示時刻を示すPTSと対応付けられて文字列情報として文字列記憶部19に保存される。字幕データに含まれるDRCSは、DRCS推定部17によって全て普通文字による文字列に置き換えられるため、文字列記憶部19には普通文字による文字列とPTSが保存される。
なお、本実施の形態では、標本データ記憶部18内に予めビットパターン、文脈データおよび登場頻度情報が記憶されているという前提で説明を行った。しかし、通信部24を介して字幕情報解析装置1をインターネット等のネットワークに接続し、ネットワークを介してサーバ等からダウンロードすることにより、ビットパターン、文脈データ、登場頻度情報を標本データ記憶部18に記憶させるようにしてもよい。サーバ上のビットパターン、文脈データおよび登場頻度情報を随時更新することにより、標本データ記憶部18のそれらデータおよび情報を常に最新の状態にしておくことができる。これにより、字幕中に従来にはない新たなDRCS使用されるようになっても、即座にそのDRCSに対応することができる。
次に、アプリケーション部20のシーン検出部20Aが行うシーン検出処理について、図6及び図7に基づいて説明する。図6に示すフローチャートは、ユーザが検索したい字幕中の文字を検索用キーワードとして入力した後の処理の流れを示すものである。ユーザによるキーワード入力は入力部23を介して行われる。なお、ユーザによるキーワード入力操作は、映像再生の停止時に行うようにしてもよく、再生中の画面上で行うようにしてもよい。
シーン検出部20Aには、シーン検出を行うために、文字列記憶部19から図4に示す動画コンテンツ毎に文字列とその文字列を表示する時刻を示すPTSとが対応付けられた文字列情報が供給される。また、分離部13から映像データおよび音声データが供給される。シーン検出を開始すると、まず、文字列情報を参照して、ユーザが入力したキーワードを含む文字列が字幕中にあるか否かを判定する(ステップS21)。なお、この判定は、ユーザが動画コンテンツを指定して特定の動画コンテンツに対して行ってもよいし、動画コンテンツを指定せず、文字列記憶部19に記憶されている全ての文字列情報について行ってもよい。字幕中にキーワードを含む文字列がない場合(ステップS21のNo)は、ユーザが入力したキーワードを含む字幕が表示されるシーンはないとしてシーン検出は終了する。なお、その際、表示部25にユーザが入力したキーワードに類似するキーワードや、関連するキーワードを表示してユーザに新たな入力を促すようにしてもよい。
キーワードを含む文字列が字幕中に存在する場合(ステップS21のYes)、次に、その文字列に対応付けられているPTSを参照して、その文字列が表示される時刻情報を所得する(ステップS22)。そして、分離部13から供給されたAVデータとキーワードを含む文字列が表示される時刻情報とを対応付けることにより、時刻情報とその時刻における動画のシーンを対応付けてシーン情報として出力する(ステップS23)。出力されたシーン情報はシーン情報記憶部20Bに記録される(ステップS24)。
そして、シーン検出の結果、すなわち、ユーザが入力したキーワードを含む字幕が表示されるシーンが、サムネイル抽出部15によって抽出されたサムネイルと対応付けられて、図7に示すように表示部25にサムネイル表示されてユーザに提供される(ステップS25)。
従来は、字幕に含まれるDRCSはビットマップデータで表されるいわゆる外字であるため、字幕によるシーン検出の対象とはならなかった。これに対し、この発明では字幕中に含まれるDRCSを全て普通文字に置き換えるため、DRCSを用いて表された文字や記号も全てキーワード検索の対象とすることができる。したがって、従来に比べてシーン検出の精度を高めることができる。また、例えば、動画中音楽が流れていることを表すDRCSである♪(音符マーク)は、その記号の意味内容を表す普通文字を用いた文字列(例えば、「音楽シーン」)に置き換えられる。よって、ユーザが検索するキーワードを「音楽シーン」と設定することによって、動画中の音楽が流れるシーンを検出することができる。このように、DRCSを普通文字に置き換えることによって、検出方法および検出することができるシーンの幅を広げて、より詳細なシーン検出を行うことができる。
本実施の形態では、アプリケーション部20が実行するアプリケーションとしてシーン検出を例にして説明したが、実行するアプリケーションはシーン検出に限られない。上述のように、シーン情報記憶部20Bには動画コンテンツ毎に字幕とその字幕が表示される時刻情報が対応付けられて記憶されているので、ユーザが入力したキーワードを含む字幕が表示される動画コンテンツを検索することも可能である。そして、その動画コンテンツ検索の結果は、シーン検出結果と同様にサムネイル抽出部15によって抽出されたサムネイルと対応付けられて、表示部25にサムネイル表示されてユーザに提供される。これは、ユーザが望む番組を容易に見つけることができるので、この発明を大量の番組コンテンツをハードディスクに記録することができるハードディスクレコーダに適用した場合に有用である。
以上、この発明の実施の形態について具体的に説明したが、この発明は、上述の実施形態に限定されるものではなく、この発明の技術的思想に基づく範囲内で各種の変形や適用が可能である。例えば、DRCS推定部17におけるパターンマッチング、文脈判定、登場頻度選択は常に全てを行う必要はなく、パターンマッチングと文脈判定、またはパターンマッチングと登場頻度選択のように組み合わせて用いてもよい。また、テレビジョン放送をアンテナ10を介して入力する場合に限られず、USB(Universal Serial Bus)等を介してハードディスクやメモリカードから字幕データを含む動画コンテンツを入力するようにしてもよい。
また、この発明は、地上デジタル放送を受信する場合に限られず、IPTV(Internet Protocol Television)サービスを受信する場合にも用いることができる。IPTVとは、IP(Internet Protocol)を利用してデジタルテレビ放送を配信するサービスである。
さらに、この発明は、動画コンテンツを保存することができるハードディスクレコーダ、パーソナルコンピュータ、携帯電話機等に用いることができる。また、記録媒体に記録された動画コンテンツを再生することができるDVD(Digital Versatile Disc)プレーヤ、BD(Blu-ray Disc)プレーヤ等にも用いることができる。なお、ハードディスクレコーダ等の放送された動画コンテンツを録画して再生することができる機器にこの発明を用いる場合は、DRCS推定部17による判定および置き換え処理を行いつつ、録画処理行うとよい。そうすることにより、録画終了後直ちに字幕データを用いてシーン検出等を行うことができる。
1・・・・文字情報解析装置
13・・・分離部
16・・・字幕解析部
17・・・DRCS推定部
18・・・標本データ記憶部
19・・・文字列記憶部
20A・・シーン検出部
20B・・シーン情報記憶部
24・・・通信部

Claims (6)

  1. 文字または記号を表すビットマップデータを含む字幕データを分離する分離手段と、
    文字または記号を表す標本ビットマップデータのビットパターンと、該標本ビットマップデータが表す情報とを対応させて記憶する記憶手段と、
    前記ビットマップデータと前記標本ビットマップデータとのビットパターンを比較して、前記標本ビットマップデータの中から前記ビットマップデータと同一の標本ビットマップデータを推定する推定手段と、
    前記ビットマップデータを、前記推定手段によって同一であると推定された前記標本ビットマップデータが表す情報に置き換える置き換え手段と、
    を備える字幕情報解析装置。
  2. 前記記憶手段はさらに、前記標本ビットマップデータの字幕中の前または/および後ろに並ぶ文字の組合せを、該標本ビットマップデータが表す情報と対応させて記憶し、
    前記推定手段は、前記ビットマップデータが複数の前記標本ビットマップデータと同一であると推定した場合、さらに、同一であると推定した複数の該標本ビットマップデータと前記ビットマップデータとの字幕中の前または/および後ろに並ぶ文字の組合せを比較して、前記標本ビットマップデータの中から前記ビットマップデータと同一の標本ビットマップデータを推定する請求項1に記載の字幕情報解析装置。
  3. 前記記憶手段はさらに、前記標本ビットマップデータの字幕中における登場頻度を、該標本ビットマップデータが表す情報と対応させて記憶し、
    前記推定手段は、前記ビットマップデータが複数の前記標本ビットマップデータと同一であると推定した場合、さらに、同一であると推定した複数の該標本ビットマップデータの中から登場頻度が最も高い標本ビットマップデータを選択して、前記標本ビットマップデータの中から前記ビットマップデータと同一の標本ビットマップデータを推定する請求項1または2に記載の字幕情報解析装置。
  4. 前記情報は、前記標本ビットマップデータが文字を表す場合にはその文字であり、前記ビットマップデータが記号を表す場合は、その記号が表す文字列である請求項1に記載の字幕情報解析装置。
  5. ネットワークと接続する通信手段をさらに備え、該ネットワークを介してダウンロードすることにより、前記標本ビットマップデータのビットパターン、字幕中の前または/および後ろに並ぶ文字の組合せ、字幕中における登場頻度および前記ビットマップデータが表す情報を更新する請求項1に記載の字幕情報解析装置。
  6. 文字または記号を表すビットマップデータを含む字幕データを分離する分離ステップと、
    文字または記号を表す標本ビットマップデータのビットパターンと、該標本ビットマップデータが表す情報とを対応させて記憶する記憶ステップと、
    前記ビットマップデータと前記標本ビットマップデータとのビットパターンを比較して、前記標本ビットマップデータの中から前記ビットマップデータと同一の標本ビットマップデータを推定する推定ステップと、
    前記ビットマップデータを、前記推定ステップによって同一であると推定された前記標本ビットマップデータが表す情報に置き換える置き換えステップと、
    を備える字幕情報解析方法。
JP2009134925A 2009-06-04 2009-06-04 字幕情報解析装置および字幕情報解析方法 Abandoned JP2010283568A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009134925A JP2010283568A (ja) 2009-06-04 2009-06-04 字幕情報解析装置および字幕情報解析方法
US12/800,297 US20100310235A1 (en) 2009-06-04 2010-05-12 Subtitle information analysis apparatus and subtitle information analysis method
CN2010101941786A CN101909164B (zh) 2009-06-04 2010-05-28 字幕信息分析装置和字幕信息分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009134925A JP2010283568A (ja) 2009-06-04 2009-06-04 字幕情報解析装置および字幕情報解析方法

Publications (1)

Publication Number Publication Date
JP2010283568A true JP2010283568A (ja) 2010-12-16

Family

ID=43264471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009134925A Abandoned JP2010283568A (ja) 2009-06-04 2009-06-04 字幕情報解析装置および字幕情報解析方法

Country Status (3)

Country Link
US (1) US20100310235A1 (ja)
JP (1) JP2010283568A (ja)
CN (1) CN101909164B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071385A (ja) * 2014-09-26 2016-05-09 日本電気株式会社 字幕変換装置及び字幕変換方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106851397B (zh) * 2017-02-28 2020-03-10 青岛海信电器股份有限公司 一种台标更换方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004201100A (ja) * 2002-12-19 2004-07-15 Nec Corp 付加情報挿入装置及びその方法
KR100667751B1 (ko) * 2003-10-01 2007-01-11 삼성전자주식회사 텍스트 기반의 자막 정보를 포함하는 저장 매체, 재생장치 및 그 재생 방법
CN100401750C (zh) * 2004-01-12 2008-07-09 松下电器产业株式会社 字幕编码装置
TWI309389B (en) * 2005-05-06 2009-05-01 Sunplus Technology Co Ltd Digital audio-video information reproducing apparatus and reproducing method thereof
US7991271B2 (en) * 2007-02-14 2011-08-02 Sony Corporation Transfer of metadata using video frames
JP2008269460A (ja) * 2007-04-24 2008-11-06 Matsushita Electric Ind Co Ltd 動画シーン種別判定装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071385A (ja) * 2014-09-26 2016-05-09 日本電気株式会社 字幕変換装置及び字幕変換方法

Also Published As

Publication number Publication date
CN101909164A (zh) 2010-12-08
CN101909164B (zh) 2013-04-24
US20100310235A1 (en) 2010-12-09

Similar Documents

Publication Publication Date Title
CN101605223B (zh) 用于选择节目的方法及其设备
JP5135024B2 (ja) コンテンツのシーン出現を通知する装置、方法およびプログラム
JP4403432B2 (ja) 録画再生装置及び録画再生方法
KR20160057085A (ko) 디스플레이 장치 및 그 제어 방법
JP2006245907A (ja) 放送記録再生装置
JP4525711B2 (ja) 番組情報処理装置及び番組情報処理方法
JP2009118168A (ja) 番組録画再生装置、および、番組録画再生方法
JP2009088634A (ja) デジタルテレビジョン受信装置
JP2009004872A (ja) ワンセグ放送受信装置、ワンセグ放送受信方法、およびワンセグ放送受信プログラムを記録した媒体
US8315384B2 (en) Information processing apparatus, information processing method, and program
JP5649769B2 (ja) 放送受信装置
JP5209129B1 (ja) 情報処理装置、放送受信装置及び情報処理方法
JP2008098793A (ja) 受信装置
JP2010283568A (ja) 字幕情報解析装置および字幕情報解析方法
JP4929128B2 (ja) 録画再生装置
JP2006140603A (ja) 情報処理装置、その方法、そのプログラム、およびそのプログラムを記録した記録媒体、および表示制御装置
JP2009049837A (ja) デジタル放送受信装置
JP4872401B2 (ja) 録画番組管理装置
JP5703321B2 (ja) 情報処理装置及び情報処理方法
JP5554195B2 (ja) コンテンツ記録再生装置
JP2008134825A (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2012034235A (ja) 映像再生装置及び映像再生方法
JP2014207619A (ja) 録画再生装置、及び録画再生装置の制御方法
JP2002354355A (ja) デジタル放送受信装置
JP2009152753A (ja) 映像表示装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120228

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20130416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130524

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130805