JP2005045503A - 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム - Google Patents

字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム Download PDF

Info

Publication number
JP2005045503A
JP2005045503A JP2003202554A JP2003202554A JP2005045503A JP 2005045503 A JP2005045503 A JP 2005045503A JP 2003202554 A JP2003202554 A JP 2003202554A JP 2003202554 A JP2003202554 A JP 2003202554A JP 2005045503 A JP2005045503 A JP 2005045503A
Authority
JP
Japan
Prior art keywords
content
subtitle
utterance
timing
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003202554A
Other languages
English (en)
Other versions
JP4113059B2 (ja
Inventor
Kazuhiko Abe
一彦 阿部
Yasuyuki Masai
康之 正井
Masato Yajima
真人 矢島
Kohei Momozaki
浩平 桃崎
Koichi Yamamoto
幸一 山本
Munehiko Sasajima
宗彦 笹島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003202554A priority Critical patent/JP4113059B2/ja
Priority to US10/899,007 priority patent/US7299183B2/en
Publication of JP2005045503A publication Critical patent/JP2005045503A/ja
Application granted granted Critical
Publication of JP4113059B2 publication Critical patent/JP4113059B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/04Diagnosis, testing or measuring for television systems or their details for receivers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N2017/008Diagnosis, testing or measuring for television systems or their details for television teletext
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • H04N21/42661Internal components of the client ; Characteristics thereof for reading from or writing on a magnetic storage medium, e.g. hard disk drive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • H04N7/087Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
    • H04N7/088Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital
    • H04N7/0884Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection
    • H04N7/0885Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection for the transmission of subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Television Receiver Circuits (AREA)
  • Television Systems (AREA)

Abstract

【課題】音声に対する字幕の提示タイミングのずれを適切に検出することを可能とする。
【解決手段】音声認識部141は、音声信号から発話内容を音声認識するとともに、この発話内容の発話タイミングを検出する。字幕解析部142は、字幕信号から字幕内容を認識するとともに、この字幕内容の提示タイミングを検出する。一致検索部143は、発話内容と字幕内容との一致を検出する。ここで一致が検出された場合にずれ量判定部144は、この一致する発話内容および字幕内容についてそれぞれ検出された発話タイミングおよび提示タイミングの時間差を算出する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、互いに関連した内容を示す音声信号と字幕信号とに基づいての音声再生と字幕提示とを適正なタイミング関係で行うことを可能とするための技術に関する。
【0002】
【従来の技術】
放送局側で番組放送時間に対応して作成されている、例えばニュース原稿のようなテキストデータを利用し、字幕提示時間を調整し、放送電波で送信する仕組みが提案されている(例えば、特許文献1を参照)。
【0003】
また、話し手の話す区切りを検知し、この区切りの間隔から決定される遅延量で映像データを遅延させることで、映像と同期のとれた字幕提示を行うことが提案されている(例えば、特許文献2を参照)。
【0004】
また、番組のメタデータ付与において、映像内の文字情報であるテロップの文字を認識し、形態素解析を行うことで取得した重要な概念をメタデータとして付与方法が考案されている(例えば、特許文献3を参照)。この技術により、テロップ認識能力の範囲内で番組の要約情報を取得することが可能となる。
【0005】
また、字幕文より取得した形態素情報の中で予め用意された語との一致を利用したメタ情報を取得する技術が考案されている(例えば、特許文献4を参照)。この技術により、予め用意された語を利用した、話題の転換点などのインデックス化が可能となっている。
【0006】
【特許文献1】
特開2000−324395公報
【0007】
【特許文献2】
特開2002−10222公報
【0008】
【特許文献3】
特開平10−40260号公報
【0009】
【特許文献4】
特開平11−234611号公報
【0010】
【発明が解決しようとする課題】
特許文献1の技術によると、放送局側での字幕制作時に、正確なタイミング情報を付与する技術であるために、例えば生番組などにおいて、リアルタイムで字幕を付与しなければならないなどの事情がある場合には、字幕が遅延してしまうことを防ぎ得ない。
【0011】
特許文献2の技術によると、音声の有無の変化に基づいて同期を図っているため、字幕が音声の内容の概略のみを示すなどの事情により、字幕の内容と音声の内容とに相違が少なからず存在する場合には、音声の有無が変化するタイミングと字幕の提示タイミングとの間には関係が無く、適切な字幕提示が行えない。
【0012】
このように従来は、字幕制作の段階にて字幕と音声とのタイミングのずれが生じてしまった場合には、このようなずれの量を受信側にて判定することは困難である。従って、字幕の提示タイミングを音声のタイミングに適切に同期させるようなことは困難であり、視聴者は不自然なタイミングで提示される字幕の視聴を余儀なくされている。
【0013】
また、特許文献3や特許文献4の技術のように、字幕の情報を用いてメタ情報を生成することが考えられる。そして、このメタ情報にタイミングの情報を含ませて、例えば情報検索などのために利用することが考えられる。この場合、上述のようにずれた字幕に基づくと、ずれたタイミングの情報しか得られないため、正確なサーチを行うことができない。
【0014】
本発明はこのような事情を考慮してなされたものであり、その目的とするところは、音声に対する字幕の提示タイミングのずれを適切に検出することを可能とすることにある。
【0015】
【課題を解決するための手段】
以上の目的を達成するために本発明は、音声信号から発話内容を認識する音声認識手段と、前記発話内容の発話タイミングを検出する発話タイミング検出手段と、前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、前記発話内容と前記字幕内容との一致を検出する一致検出手段と、一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段とを備えた。
【0016】
このような手段を講じたことにより、音声信号からは発話内容が音声認識されるとともに、この発話内容の発話タイミングが検出される。字幕信号からは、字幕内容が認識されるとともに、この字幕内容の提示タイミングが検出される。発話内容と字幕内容との一致が検出された場合に、この一致する発話内容および字幕内容についてそれぞれ検出された発話タイミングおよび提示タイミングの時間差が算出される。従って、同一内容に関する発話タイミングと字幕の提示タイミングとの実際の時間差が算出され、これに基づいて字幕のずれが検出可能となる。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態につき説明する。
図1は本実施形態に係るハードディスクレコーダ(以下、HDDレコーダと称する)1の構成を示すブロック図である。
図1に示すようにHDDレコーダ1は、テレビ受信回路11、録画制御部12、ハードディスクドライブ(以下、HDDと称する)13、字幕ずれ量判定部14、ずれ情報記憶部15、メタデータ記憶部16、再生制御部17、字幕信号補正部18および字幕合成部19を含む。
【0018】
テレビ受信回路11は、アンテナ2を介してテレビジョン放送を受信する。このHDDレコーダ1が受信対象とするテレビジョン放送は如何なる方式であっても良いが、ここではNTSC方式であることとする。従ってテレビ受信回路11は、NTSC方式に準拠した信号(以下、NTSC信号と称する)を出力する。
【0019】
録画制御部12は、テレビ受信回路11から出力されるベースバンド信号が示す映像情報や音声情報を所定の記録方式に従って圧縮などの処理を施した上でHDD13へ書き込む。録画制御部12は、NTSC信号の垂直帰線期間に多重されている字幕情報を抽出し、HDD13へ書き込む。
【0020】
字幕ずれ量判定部14は、音声認識部141、字幕解析部142、一致検索部143、ずれ量判定部144、ずれ情報生成部145およびメタデータ生成部146を含む。
【0021】
なお、この字幕ずれ量判定部14は、例えばプロセッサを主体として構成できる。そして上記の音声認識部141、字幕解析部142、一致検索部143、ずれ量判定部144、ずれ情報生成部145およびメタデータ生成部146は、上記のプロセッサにプログラムを実行させることにより実現することができる。このときに字幕ずれ量判定部14は、内蔵された図示しないメモリに上記のプログラムが予めインストールされて実現されても良いし、CD−ROMなどのようなリムーバブルな記録媒体に記録して、あるいはネットワークを介して上記のプログラムを配布し、このプログラムを字幕ずれ量判定部14に内蔵された図示しないメモリに適宜インストールして実現されても良い。
【0022】
音声認識部141は、HDD13に保存された音声情報に対して音声認識を行い、発話内容(表記データ、発音データ及び各種形態素情報)と、その発話内容が発話されたタイミングを示す発話タイミング情報とを取得する。
【0023】
字幕解析部142は、HDD13に保存された字幕情報をデコードし、字幕の文字列を示したテキストデータを取得する。字幕解析部142は、字幕の提示タイミングを表わす提示タイミング情報を取得する。字幕解析部142は、上記のテキストデータの形態素解析を行い、テキストデータ内に含まれる各形態素の読みおよび品詞情報を取得する。
【0024】
一致検索部143は、音声認識部141により取得された発話内容と、字幕解析部142により取得されたテキストデータとの一致を検索する。そして一致検索部143は、発話内容と一致したテキストデータ、このテキストデータの提示タイミング情報、ならびにこのテキストデータと一致した発話内容の発話タイミング情報をずれ量判定部144へ出力する。
【0025】
ずれ量判定部144は、一致検索部143から与えられるテキストデータの提示タイミングのずれ量を、同時に与えられる発話タイミング情報および提示タイミング情報がそれぞれ示すタイミングの時間差として判定する。ずれ量判定部144は、判定したずれ量を、テキストデータおよび提示タイミング情報とともにずれ情報生成部145およびメタデータ生成部146へ出力する。
【0026】
ずれ情報生成部145は、ずれ量判定部144から出力されるずれ量を反映させたずれ情報を生成し、このずれ情報をずれ情報記憶部15に書き込む。
【0027】
メタデータ生成部146は、ずれ量判定部144から出力されるテキストデータが所定のメタ登録条件に合致する場合に、ずれ量判定部144から出力されるずれ量を反映させたメタデータを生成し、このメタデータをメタデータ記憶部16へ書き込む。
【0028】
ずれ情報記憶部15は、大容量でアクセスしやすいことが望ましく、例えば半導体メモリやHDDを用いて構成されている。ずれ情報記憶部15は、ずれ情報を蓄積記憶する。
【0029】
メタデータ記憶部16は、大容量でアクセスしやすいことが望ましく、例えば半導体メモリやHDDを用いて構成される。メタデータ記憶部16は、メタデータを蓄積記憶する。
【0030】
再生制御部17は、HDD13に記憶されている映像情報、音声情報および字幕情報を読み出し、これらの情報を示したNTSC信号やAV信号を再生する。再生制御部17は、上記ベースバンド信号は字幕信号補正部18へと出力し、上記AV信号のうちの映像信号と字幕情報とを字幕合成部19へ出力する。
【0031】
字幕信号補正部18は、再生制御部17から出力されるNTSC信号に含まれた字幕情報を、ずれ情報記憶部15に記憶されたずれ情報を参照して補正する。字幕信号補正部18が出力するNTSC信号は、NTSC端子T1よりHDDレコーダ1の外部へ出力される。NTSC端子T1には、例えば字幕放送に対応したテレビジョン受像機(以下、字幕対応TVと称する)が接続される。
【0032】
字幕合成部19は、再生制御部17から出力される映像信号に、同じく再生制御部17から出力される字幕情報に応じた字幕を合成する。このときに字幕合成部19は、ずれ情報記憶部15に記憶されたずれ情報を参照して、映像信号に対する字幕情報の合成タイミングをずらすことができる。字幕合成部19が出力する映像信号は、映像端子T2よりHDDレコーダ1の外部へ出力される。映像端子T2には、例えばAV端子を備えたテレビジョン受像機(以下、TVと称する)が接続される。
【0033】
図2は音声認識部141の内部構造を示すブロック図である。
図2に示すように音声認識部141は、音声特徴量抽出部141a、発音情報推定部141bおよび発話内容推定部141cを含む。
【0034】
音声認識部141は、音声信号の入力から、音声特徴量抽出部141aにて音声特有の特徴量を抽出する。次に音声認識部141は、発音情報推定部141bにて、上記の特徴量と予め用意した音声のモデルとのマッチングを行い、発音情報を推定する。さらに音声認識部141は、発話内容推定部141cにて、上記の発音情報を元に、言語的に意味のある発話内容として推定する。漢字表記とひらがな表記との違いや、同音異義語、その他の認識候補も同時に取得し、これらを音声認識結果として出力する。
【0035】
次に以上のように構成されたHDDレコーダ1の動作につき説明する。なお、通常の録画や再生のための動作は既存の同種の機械と同様であるのでその説明は省略する。そしてここでは、字幕の処理に関わる動作について詳細に説明する。
【0036】
このHDDレコーダ1では、放送される番組をHDD13に一旦記録した上で、ユーザが希望する任意のタイミングで、あるいはほぼリアルタイムで上記の番組を再生することができる。
【0037】
このときに字幕ずれ量判定部14では、HDD13に記録された番組が字幕情報を含んでいる場合、この字幕情報と映像情報とを参照して、ずれ情報およびメタデータの生成を以下のようにして行う。
【0038】
図3は字幕ずれ量判定部14の処理のフローチャートである。
ステップST1では音声認識部141が、HDD13に保存された音声情報に対して音声認識を行い、発話内容と、その発話内容が発話されたタイミングを示す発話タイミング情報とを取得する。音声認識部141は、発話内容としては、表記データと発音データとをそれぞれ取得する。音声認識部141は、例えば番組の先頭を基準時刻とした相対的時刻を発話タイミング情報とする。なお、音声信号の絶対的な位置を示すタイムコードなどの情報が付与されているならば、この情報を発話タイミング情報として用いることもできる。一連の音声のなかで1つの発話内容をどのレベルで区切るかは任意であるが、本実施形態では形態素毎とする。具体的には、「明日は雨です」との発音を示した音声データから音声認識部141は、例えば図4に示すように「明日」「は」「雨」「です」という4つの発話内容を取得する。また音声認識部141は、これら発話内容のそれぞれの発話タイミング情報として、図4に示すt1,t2,t3,t4をそれぞれ取得する。
【0039】
ステップST2では字幕解析部142が、HDD13に保存された字幕情報を解析する。字幕解析部142はここで、HDD13に保存された字幕情報をデコードし、字幕文を示したテキストデータを取得する。そして字幕解析部142はさらに、上記のテキストデータの形態素解析を行い、テキストデータ内に含まれる各形態素の読みおよび品詞情報を取得する。また字幕解析部142は、上記のテキストデータが示す字幕文の提示タイミングを表わす提示タイミング情報を取得する。字幕文の提示タイミングは、例えば字幕情報を取得したタイミングとする。従って字幕解析部142は、NTSC信号にて字幕情報が多重化されていた位置を、例えば番組の先頭を基準時刻とした相対的時刻を提示タイミング情報とする。なお、字幕文の提示タイミングがNTSC信号に重畳された制御情報により指定される場合には、この制御情報を提示タイミング情報として用いることもできる。図4の例では「明日は雨です」の発話の後に「明日は雨です」という字幕文を示したテキストデータが到来した例を示している。この場合に字幕解析部142は、「明日は雨です」というテキストデータを取得するとともに、このテキストデータの到来タイミングであるt5を提示タイミング情報として取得する。また字幕解析部142は、このテキストデータから、「明日」「は」「雨」「です」なる4つの形態素の読みおよび品詞情報を取得する。
【0040】
ステップST3では一致検索部143が、音声認識部141により取得された1つまたは複数の発話内容が示す文字列と、字幕解析部142により取得されたテキストデータが示す文字列との一致を検索する。また一致検索部143は、ひらがな表記と漢字表記の違いなど、発話内容とテキストデータとが表層的な文字で一致しない場合は、音声認識の次候補のデータおよび発音データとテキストデータおよび形態素解析によって取得した読みのデータとの比較を行う。また一致検索部143は、発話タイミングと提示タイミングとが同一である発話内容とテキストデータとに基づく比較のみを行うのではなく、一定の範囲内でタイミングがずれた発話内容とテキストデータとに基づく比較を行う。図4の例では、発話内容が示す文字列とテキストデータが示す文字列とには、ともに「明日は雨です」という文字列が含まれている。このような文字列が一致検索部143により検出されることになる。なお、文字列一致検索を行なう際に、各種形態素情報、例えば品詞情報などを利用することにより、より正確な一致を行なうことも可能である。
【0041】
ステップST4では一致検索部143が、上記の検索により一致する文字列が1つ見つかったか否かを確認する。そして一致する文字列が見つかったならば、ステップST5へ進む。
【0042】
ステップST5では、ずれ量判定部144が、上記の見つかった文字列に対応するテキストデータ、このテキストデータの形態素情報、提示タイミング情報、ならびに上記の見つかった文字列を含む各発話内容の発話タイミング情報を一致検索部143から入力する。そしてずれ量判定部144はステップST5にて、上記発話タイミング情報が示す先頭の発話時刻と上記提示タイミング情報が示す提示時刻との時間差を算出し、これを上記のテキストデータが示す字幕文のずれ量として判定する。またずれ量判定部144は、テキストデータに含まれた形態素のそれぞれについても、一致する発話内容の発話タイミング情報が示す発話時刻と上記提示タイミング情報が示す提示時刻との時間差としてずれ量を判定する。図4の例では、「明日は雨です」なる字幕文に一致する発話内容の発話タイミング情報が示す発話時刻はt1,t2,t3,t4であり、その先頭はt1であるから、ずれ量判定部144は「明日は雨です」なる字幕文のずれ量は[t5−t1]と判定する。また「明日」「は」「雨」「です」なる形態素のそれぞれのずれ量をずれ量判定部144は、[t5−t1]、[t5−t2]、[t5−t3]、[t5−t4]としてそれぞれ判定する。
【0043】
ステップST6では、ずれ情報生成部145が、テキストデータ、形態素情報、提示タイミング情報、ならびに上記テキストデータおよび形態素情報に関して判定されたずれ量をずれ量判定部144から入力する。そしてずれ情報生成部145はステップST6にて、これらのテキストデータ、提示タイミング情報およびそのずれ量を対応付けるとともに、形態素情報とそのずれ量とを対応付けたずれ情報を生成し、このずれ情報をずれ情報記憶部15に格納する。
【0044】
ステップST7ではメタデータ生成部146が、形態素情報、提示タイミング情報、ならびに上記形態素情報に関して判定されたずれ量をずれ量判定部144から入力する。そしてメタデータ生成部146はステップST7にて、入力した形態素情報により示される形態素に、予め定められたメタ登録条件に合致するものが有るか否かを確認する。なお、メタ登録条件は任意であって良いが、例えば「名詞である」などが考えられる。そして該当する形態素があるならば、ステップST8へ進む。
【0045】
ステップST8ではメタデータ生成部146が、メタ登録条件に合致した形態素に、提示タイミング情報と、その形態素のずれ量とを対応付けたメタデータを生成し、このメタデータをメタデータ記憶部16に格納する。
【0046】
字幕ずれ量判定部14は、ステップST8が終了したなら、ステップST3に戻る。メタ登録条件に合致する形態素が無かったなら、字幕ずれ量判定部14はステップST8をパスしてステップST3に戻る。そして字幕ずれ量判定部14は、ステップST4にて一致する文字列が1つも見つからないと判断できるまで、ステップST3乃至ステップST8を繰り返す。そして、ステップST4にて一致する文字列が1つも見つからないと判断できたならば、字幕ずれ量判定部14は処理を終了する。
【0047】
さて、HDD13に記録された番組を再生する場合、字幕信号補正部18は、再生制御部17から出力されるNTSC信号に含まれた字幕情報を、ずれ情報記憶部15に記憶されたずれ情報を参照して補正する。また字幕合成部19は、再生制御部17から出力される映像信号に、同じく再生制御部17から出力される字幕情報に応じた字幕を合成するが、このときに字幕合成部19は、ずれ情報記憶部15に記憶されたずれ情報を参照して、映像信号に対する字幕情報の合成タイミングをずらす。
【0048】
ところで字幕信号補正部18および字幕合成部19は、それぞれ4つの補正モードを備える。第1の補正モードにて字幕信号補正部18および字幕合成部19は、字幕文のずれ量を減少し、一致する発話の先頭のタイミングに字幕の提示タイミングが近づくように補正する。例えば、図4に示す状態であった字幕の提示タイミングを、図5に示すような提示タイミングに補正する。
【0049】
第2の補正モードにて字幕信号補正部18および字幕合成部19は、字幕文に含まれた形態素毎のずれ量を減少し、一致する形態素の発話のタイミングに各形態素の提示タイミングが近づくように補正する。例えば、図4に示す状態であった字幕の提示タイミングを、図6に示すような提示タイミングに補正する。
【0050】
第3の補正モードにて字幕信号補正部18および字幕合成部19は、一致する発話の先頭のタイミングに対して一定時間がずれたタイミングが字幕の提示タイミングとなるように補正する。例えば、図5の状態からさらに一定時間をずらしたタイミングに字幕の提示タイミングを再設定する。このとき、例えば「3秒遅く、名詞のみ提示」といった、予め定義した規則にしたがって、上記の一定時間を決定する。
【0051】
第4の補正モードにて字幕信号補正部18および字幕合成部19は、一致する形態素の発話のタイミングに対して一定時間がずれたタイミングが字幕文の各形態素の提示タイミングとなるように補正する。例えば、図6の状態からさらに一定時間をずらしたタイミングに字幕の提示タイミングを再設定する。このとき、例えば「3秒遅く、名詞のみ提示」といった、予め定義した規則にしたがって、上記の一定時間を決定する。
【0052】
以上のように本実施形態によれば、発話タイミングに対する字幕の提示タイミングのずれ量を判定することができる。
【0053】
また本実施形態によれば、上記の判定したずれ量を考慮して、発話タイミングに対する字幕の提示タイミングのずれを減少するように字幕信号の補正や字幕の合成タイミングの調整を行うことで、適切なタイミングでの字幕提示を実現できるようになる。
【0054】
また本実施形態によれば、上記の判定したずれ量を考慮して、発話タイミングに対する字幕の提示タイミングのずれを一定時間とするように字幕信号の補正や字幕の合成タイミングの調整を行うことで、一律なずれでの字幕提示を実現できるようになる。これは、例えば外国語番組による外国語のヒアリングの訓練を行う場合などに便利な機能となる。
【0055】
また本実施形態によれば、上記の判定したずれ量を反映させたメタデータが生成される。従って、このメタデータを参照することで、ある語句を含む字幕が提示されるべき適切な番組の箇所を識別可能となる。このため、このメタデータを例えば再生制御部17が再生開始箇所の検索のために利用するようにすれば、適切な頭出しを行うことが可能となる。
【0056】
また、メタデータより重要と思われる語句を選択提示することにより番組の情報を理解する一助となる。例えば、早送り再生時に、こうした重要語を提示することにより、内容を確認しながら早送りすることが可能となるなど、様々な利用方法が考えられる。
【0057】
また本実施形態によれば、メタデータに登録する形態素は、発話内容に含まれた形態素と一致するもののみとしているので、音声および字幕の双方に示される重要な語句が抽出されてメタデータとされる。このため、無意味な情報を含まない適正なメタデータを生成することが可能である。
【0058】
この実施形態は、次のような種々の変形実施が可能である。
字幕ずれ量判定部14は、独立したモジュールとして実現され、独立して流通されても良い。
【0059】
字幕ずれ量判定部14は、ずれ情報生成部145やメタデータ生成部146を含まなくても良い。この場合、ずれ量判定部144により判定されたずれ量を外部のコンピュータなどに出力するようにし、判定したずれ量をそのコンピュータにて利用させるなどの運用形態が考えられる。
【0060】
ずれ情報記憶部15に記憶されたずれ情報や、メタデータ記憶部16に記憶されたメタデータを外部のコンピュータに出力するようにし、これらのずれ情報やメタデータをそのコンピュータにて利用させるようにしても良い。
【0061】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0062】
【発明の効果】
本発明によれば、音声に対する字幕の提示タイミングのずれを適切に検出することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るハードディスクレコーダの構成を示すブロック図。
【図2】図1中の音声認識部141の内部構造を示すブロック図。
【図3】図1中の字幕ずれ量判定部14の処理のフローチャート。
【図4】音声認識および字幕解析の具体例を示す図。
【図5】字幕の提示タイミングの補正の一例を示す図。
【図6】字幕の提示タイミングの補正の一例を示す図。
【符号の説明】
1…ハードディスクレコーダ(HDDレコーダ)、2…アンテナ、11…テレビ受信回路、12…録画制御部、13…ハードディスクドライブ(HDD)、14…ずれ量判定部、15…ずれ情報記憶部、16…メタデータ記憶部、17…再生制御部、18…字幕信号補正部、19…字幕合成部、141…音声認識部、142…字幕解析部、143…一致検索部、144…ずれ量判定部、145…ずれ情報生成部、146…メタデータ生成部。

Claims (15)

  1. 音声信号から発話内容を認識する音声認識手段と、
    前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
    前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
    前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
    前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段とを具備したことを特徴とする字幕信号処理装置。
  2. 音声信号から発話内容を認識する音声認識手段と、
    前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
    前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
    前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
    前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
    前記字幕内容から語句を抽出する語句抽出手段と、
    前記語句と、この語句を含んだ前記字幕内容について検出された前記提示タイミングおよび前記時間差を反映したタイミング情報とを含むメタデータを生成するメタデータ生成手段とを具備したことを特徴とする字幕信号処理装置。
  3. 前記語句抽出手段は、前記発話内容に一致するとして検出された前記字幕内容から前記語句を抽出することを特徴とする請求項2に記載の字幕信号処理装置。
  4. 音声信号から発話内容を認識する音声認識手段と、
    前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
    前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
    前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
    前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
    前記時間差を減少するように前記字幕信号を補正する字幕補正手段とを具備したことを特徴とする字幕信号処理装置。
  5. 音声信号から発話内容を認識する音声認識手段と、
    前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
    前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
    前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
    前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
    前記時間差を、予め定められた規定時間差に合わせるように前記字幕信号を補正する字幕補正手段とを具備したことを特徴とする字幕信号処理装置。
  6. 音声信号から発話内容を認識する音声認識手段と、
    前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
    前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
    前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
    前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
    前記音声信号に同期した映像信号が示す映像へ、前記時間差を減少するようにタイミングをずらしながら前記字幕信号が示す字幕内容を合成する字幕合成手段とを具備したことを特徴とする字幕信号処理装置。
  7. 音声信号から発話内容を認識する音声認識手段と、
    前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
    前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
    前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
    前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
    前記音声信号に同期した映像信号が示す映像へ、前記時間差を予め定められた規定時間差に合わせるようにタイミングをずらしながら前記字幕信号が示す字幕内容を合成する字幕合成手段とを具備したことを特徴とする字幕信号処理装置。
  8. コンピュータを、
    音声信号から発話内容を認識する音声認識手段と、
    前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
    前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
    前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
    前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段として機能させることを特徴とする字幕信号処理プログラム。
  9. コンピュータを、
    音声信号から発話内容を認識する音声認識手段と、
    前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
    前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
    前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
    前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
    前記字幕内容から語句を抽出する語句抽出手段と、
    前記語句と、この語句を含んだ前記字幕内容について検出された前記提示タイミングおよび前記時間差を反映したタイミング情報とを含むメタデータを生成するメタデータ生成手段として機能させることを特徴とする字幕信号処理プログラム。
  10. 音声信号から発話内容を音声認識し、
    前記発話内容の発話タイミングを検出し、
    前記音声信号に関連した字幕信号から字幕内容を取得し、
    前記字幕内容の提示タイミングを検出し、
    前記発話内容と前記字幕内容との一致を検出し、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出することを特徴とする字幕信号処理方法。
  11. 音声信号から発話内容を音声認識し、
    前記発話内容の発話タイミングを検出し、
    前記音声信号に関連した字幕信号から字幕内容を取得し、
    前記字幕内容の提示タイミングを検出し、
    前記発話内容と前記字幕内容との一致を検出し、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
    前記字幕内容から語句を抽出し、
    前記語句と、この語句を含んだ前記字幕内容について検出された前記提示タイミングおよび前記時間差を反映したタイミング情報とを含むメタデータを生成することを特徴とする字幕信号処理方法。
  12. 音声信号から発話内容を音声認識し、
    前記発話内容の発話タイミングを検出し、
    前記音声信号に関連した字幕信号から字幕内容を取得し、
    前記字幕内容の提示タイミングを検出し、
    前記発話内容と前記字幕内容との一致を検出し、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
    前記時間差を減少するように前記字幕信号を補正することを特徴とする字幕信号処理方法。
  13. 音声信号から発話内容を音声認識し、
    前記発話内容の発話タイミングを検出し、
    前記音声信号に関連した字幕信号から字幕内容を取得し、
    前記字幕内容の提示タイミングを検出し、
    前記発話内容と前記字幕内容との一致を検出し、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
    前記時間差を、予め定められた規定時間差に合わせるように前記字幕信号を補正することを特徴とする字幕信号処理方法。
  14. 音声信号から発話内容を音声認識し、
    前記発話内容の発話タイミングを検出し、
    前記音声信号に関連した字幕信号から字幕内容を取得し、
    前記字幕内容の提示タイミングを検出し、
    前記発話内容と前記字幕内容との一致を検出し、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
    前記音声信号に同期した映像信号が示す映像へ、前記時間差を減少するようにタイミングをずらしながら前記字幕信号が示す字幕内容を合成することを特徴とする字幕信号処理方法。
  15. 音声信号から発話内容を音声認識し、
    前記発話内容の発話タイミングを検出し、
    前記音声信号に関連した字幕信号から字幕内容を取得し、
    前記字幕内容の提示タイミングを検出し、
    前記発話内容と前記字幕内容との一致を検出し、
    一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
    前記音声信号に同期した映像信号が示す映像へ、前記時間差を予め定められた規定時間差に合わせるようにタイミングをずらしながら前記字幕信号が示す字幕内容を合成することを特徴とする字幕信号処理方法。
JP2003202554A 2003-07-28 2003-07-28 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム Expired - Fee Related JP4113059B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003202554A JP4113059B2 (ja) 2003-07-28 2003-07-28 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
US10/899,007 US7299183B2 (en) 2003-07-28 2004-07-27 Closed caption signal processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003202554A JP4113059B2 (ja) 2003-07-28 2003-07-28 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2005045503A true JP2005045503A (ja) 2005-02-17
JP4113059B2 JP4113059B2 (ja) 2008-07-02

Family

ID=34262236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003202554A Expired - Fee Related JP4113059B2 (ja) 2003-07-28 2003-07-28 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム

Country Status (2)

Country Link
US (1) US7299183B2 (ja)
JP (1) JP4113059B2 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009071483A (ja) * 2007-09-12 2009-04-02 Kddi Corp 映像分類装置、放送設備および受信装置
JP2009130411A (ja) * 2007-11-20 2009-06-11 Nippon Hoso Kyokai <Nhk> 字幕監視装置及び字幕監視プログラム
JP2009182859A (ja) * 2008-01-31 2009-08-13 Ntt Communications Kk 字幕出力装置、字幕出力方法、及びプログラム
JP2010136067A (ja) * 2008-12-04 2010-06-17 Sony Corp データ処理装置、データ処理方法、及び、プログラム
JP2010233019A (ja) * 2009-03-27 2010-10-14 Kddi Corp 字幕ずれ補正装置、再生装置および放送装置
WO2013038636A1 (ja) * 2011-09-14 2013-03-21 シャープ株式会社 表示装置及び録画再生装置
CN103198812A (zh) * 2013-04-19 2013-07-10 浙江大丰实业有限公司 舞台字幕显示屏控制系统
KR101462249B1 (ko) 2010-09-16 2014-11-19 주식회사 케이티 비디오 컨텐츠의 시청각 정보 출력 오류를 검출하는 장치 및 방법
TWI600315B (zh) * 2011-12-28 2017-09-21 Jvc Kenwood Corp 動態影像解碼裝置、動態影像解碼方法及記錄有動態影像解碼程式的記錄媒體
JP6295381B1 (ja) * 2017-08-31 2018-03-14 楽天株式会社 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
KR20190051498A (ko) * 2017-11-07 2019-05-15 서울대학교산학협력단 자막 싱크 조절 방법 및 시스템
JP2020012855A (ja) * 2018-07-13 2020-01-23 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
JP2020166262A (ja) * 2019-03-29 2020-10-08 株式会社ソニー・インタラクティブエンタテインメント 音声確認システム、音声確認方法およびプログラム
JP2021043338A (ja) * 2019-09-11 2021-03-18 株式会社ソケッツ テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
JP2022530201A (ja) * 2019-05-02 2022-06-28 グーグル エルエルシー コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006081061A (ja) * 2004-09-13 2006-03-23 Alpine Electronics Inc 音声出力装置及び音声/映像出力装置
JP4980018B2 (ja) * 2006-09-21 2012-07-18 パナソニック株式会社 字幕生成装置
US9311394B2 (en) * 2006-10-31 2016-04-12 Sony Corporation Speech recognition for internet video search and navigation
JP2008219342A (ja) * 2007-03-02 2008-09-18 Sony Corp 情報処理装置および方法、並びにプログラム
US8159608B2 (en) * 2009-11-23 2012-04-17 At&T Intellectual Property I, Lp System and method for detecting closed captioning data in an internet protocol television system
US9332319B2 (en) * 2010-09-27 2016-05-03 Unisys Corporation Amalgamating multimedia transcripts for closed captioning from a plurality of text to speech conversions
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
KR20150021258A (ko) 2013-08-20 2015-03-02 삼성전자주식회사 디스플레이장치 및 그 제어방법
US9699404B2 (en) * 2014-03-19 2017-07-04 Microsoft Technology Licensing, Llc Closed caption alignment
CN106993227B (zh) * 2016-01-20 2020-01-21 腾讯科技(北京)有限公司 一种进行信息展示的方法和装置
US11070891B1 (en) * 2019-12-10 2021-07-20 Amazon Technologies, Inc. Optimization of subtitles for video content
US20230009957A1 (en) * 2021-07-07 2023-01-12 Voice.ai, Inc Voice translation and video manipulation system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5741136A (en) * 1993-09-24 1998-04-21 Readspeak, Inc. Audio-visual work with a series of visual word symbols coordinated with oral word utterances
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5703655A (en) * 1995-03-24 1997-12-30 U S West Technologies, Inc. Video programming retrieval using extracted closed caption data which has been partitioned and stored to facilitate a search and retrieval process
JP3504439B2 (ja) 1996-07-25 2004-03-08 日本電信電話株式会社 映像検索方法
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
JPH11234611A (ja) 1998-02-12 1999-08-27 Nippon Telegr & Teleph Corp <Ntt> ビデオデッキ用インデックス信号自動生成方法およびその装置およびその方法を記録した記録媒体
JP4140745B2 (ja) 1999-05-14 2008-08-27 独立行政法人情報通信研究機構 字幕へのタイミング情報付与方法
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
EP1295482B1 (en) * 2000-06-09 2010-09-01 British Broadcasting Corporation Generation of subtitles or captions for moving pictures
JP2002010222A (ja) 2000-06-27 2002-01-11 Toshiba Corp 文字多重放送受信装置
US7117231B2 (en) * 2000-12-07 2006-10-03 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
JP2002351490A (ja) 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan 字幕へのタイミング情報付与方法
US7054804B2 (en) * 2002-05-20 2006-05-30 International Buisness Machines Corporation Method and apparatus for performing real-time subtitles translation

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009071483A (ja) * 2007-09-12 2009-04-02 Kddi Corp 映像分類装置、放送設備および受信装置
JP2009130411A (ja) * 2007-11-20 2009-06-11 Nippon Hoso Kyokai <Nhk> 字幕監視装置及び字幕監視プログラム
JP2009182859A (ja) * 2008-01-31 2009-08-13 Ntt Communications Kk 字幕出力装置、字幕出力方法、及びプログラム
JP2010136067A (ja) * 2008-12-04 2010-06-17 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US8781291B2 (en) 2008-12-04 2014-07-15 Sony Corporation Data processing device, data processing method, and program
JP2010233019A (ja) * 2009-03-27 2010-10-14 Kddi Corp 字幕ずれ補正装置、再生装置および放送装置
KR101462249B1 (ko) 2010-09-16 2014-11-19 주식회사 케이티 비디오 컨텐츠의 시청각 정보 출력 오류를 검출하는 장치 및 방법
WO2013038636A1 (ja) * 2011-09-14 2013-03-21 シャープ株式会社 表示装置及び録画再生装置
TWI600315B (zh) * 2011-12-28 2017-09-21 Jvc Kenwood Corp 動態影像解碼裝置、動態影像解碼方法及記錄有動態影像解碼程式的記錄媒體
CN103198812A (zh) * 2013-04-19 2013-07-10 浙江大丰实业有限公司 舞台字幕显示屏控制系统
JP6295381B1 (ja) * 2017-08-31 2018-03-14 楽天株式会社 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
WO2019043871A1 (ja) * 2017-08-31 2019-03-07 楽天株式会社 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
KR20190051498A (ko) * 2017-11-07 2019-05-15 서울대학교산학협력단 자막 싱크 조절 방법 및 시스템
KR101984178B1 (ko) * 2017-11-07 2019-05-31 서울대학교산학협력단 자막 싱크 조절 방법 및 시스템
JP2020012855A (ja) * 2018-07-13 2020-01-23 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
JP2020166262A (ja) * 2019-03-29 2020-10-08 株式会社ソニー・インタラクティブエンタテインメント 音声確認システム、音声確認方法およびプログラム
US11386901B2 (en) 2019-03-29 2022-07-12 Sony Interactive Entertainment Inc. Audio confirmation system, audio confirmation method, and program via speech and text comparison
JP7311450B2 (ja) 2019-03-29 2023-07-19 株式会社ソニー・インタラクティブエンタテインメント 音声確認システム、音声確認方法およびプログラム
JP2022530201A (ja) * 2019-05-02 2022-06-28 グーグル エルエルシー コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
JP7348957B2 (ja) 2019-05-02 2023-09-21 グーグル エルエルシー コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
JP2021043338A (ja) * 2019-09-11 2021-03-18 株式会社ソケッツ テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法

Also Published As

Publication number Publication date
US20050060145A1 (en) 2005-03-17
US7299183B2 (en) 2007-11-20
JP4113059B2 (ja) 2008-07-02

Similar Documents

Publication Publication Date Title
JP4113059B2 (ja) 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP3953886B2 (ja) 字幕抽出装置
TWI332358B (en) Media player apparatus and method thereof
US8781291B2 (en) Data processing device, data processing method, and program
US20180068690A1 (en) Data processing apparatus, data processing method
US20080219641A1 (en) Apparatus and method for synchronizing a secondary audio track to the audio track of a video source
US20060136226A1 (en) System and method for creating artificial TV news programs
KR101100191B1 (ko) 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법
JP6202815B2 (ja) 文字認識装置および文字認識方法並びに文字認識プログラム
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
JP3781715B2 (ja) メタデータ制作装置及び検索装置
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
EP3839953A1 (en) Automatic caption synchronization and positioning
JP2021090172A (ja) 字幕データ生成装置、コンテンツ配信システム、映像再生装置、プログラム及び字幕データ生成方法
JP4172904B2 (ja) 映像・音声検索装置
JP2008022292A (ja) 出演者情報検索システム、出演者情報取得装置、出演者情報検索装置、および、その方法ならびにプログラム
JP3998187B2 (ja) コンテンツ解説データ生成装置、その方法及びそのプログラム、並びに、コンテンツ解説データ提示装置、その方法及びそのプログラム
JP2005286969A (ja) 記録再生装置、表示装置、及び字幕放送の字幕表示遅れ補正方法
JP5033653B2 (ja) 映像記録再生装置及び映像再生装置
WO2013038636A1 (ja) 表示装置及び録画再生装置
JP2008134825A (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2008124551A (ja) ダイジェスト作成装置
JP2009152782A (ja) コンテンツ再生装置及びコンテンツ再生方法
KR20080051876A (ko) 전자사전 검색이 가능한 멀티미디어 파일 재생장치 및검색방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080410

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130418

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130418

Year of fee payment: 5

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140418

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees