JP2009088990A - Reception apparatus, television broadcast playback method, and television broadcast playback program - Google Patents
Reception apparatus, television broadcast playback method, and television broadcast playback program Download PDFInfo
- Publication number
- JP2009088990A JP2009088990A JP2007255866A JP2007255866A JP2009088990A JP 2009088990 A JP2009088990 A JP 2009088990A JP 2007255866 A JP2007255866 A JP 2007255866A JP 2007255866 A JP2007255866 A JP 2007255866A JP 2009088990 A JP2009088990 A JP 2009088990A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- information
- subtitle
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
この発明は、受信装置、テレビジョン放送再生方法およびテレビジョン放送再生プログラムに関し、特に字幕情報を含むテレビジョン放送を受信する受信装置、そのテレビジョン放送を再生するためのテレビジョン放送再生方法およびテレビジョン放送再生プログラムに関する。 The present invention relates to a receiving apparatus, a television broadcast reproduction method, and a television broadcast reproduction program, and more particularly to a receiving apparatus that receives a television broadcast including subtitle information, a television broadcast reproduction method and a television for reproducing the television broadcast. It is related with John broadcast reproduction program.
近年、テレビジョン放送におけるニュースやスポーツ番組等の生放送の番組は、音声を文字で表した字幕情報が付与される場合がある。字幕情報は、放送する番組の音声を放送局側で音声認識等して作成されるため、放送される映像に対して数秒から数十秒遅れて放送信号に付与される。 In recent years, live broadcast programs such as news and sports programs in television broadcasts may be given subtitle information that expresses sound in characters. Since the caption information is created by recognizing the sound of the broadcast program on the broadcast station side, the caption information is added to the broadcast signal with a delay of several seconds to several tens of seconds with respect to the broadcast video.
この問題に対して従来は、字幕と映像とを同期させるために、放送局側で字幕文字列の映像に対する遅延時間を放送信号に付与し、放送信号の受信側で、映像を所定時間遅延させて再生するとともに、映像に対する字幕文字列の遅延時間に基づいて決定されるタイミングで字幕文字列を表示する技術が知られている(例えば、特許文献1〜3)。
Conventionally, in order to synchronize subtitles and video, the broadcast station adds a delay time to the video of the subtitle character string to the broadcast signal, and delays the video by a predetermined time on the broadcast signal reception side. And a subtitle character string are displayed at a timing determined based on the delay time of the subtitle character string with respect to the video (for example,
これら従来の技術では、放送局側で映像と字幕との時間の差を含む放送信号を送信しなければ、受信側で字幕と映像とを同期させることができないといった問題がある。
この発明は上述した問題点を解決するためになされたもので、この発明の目的の一つは、テレビジョン放送に字幕を表示するための情報が含まれていない場合であっても映像と音声に字幕を同期して表示することが可能な受信装置を提供することである。 The present invention has been made to solve the above-described problems, and one of the objects of the present invention is to provide video and audio even when information for displaying subtitles is not included in a television broadcast. It is to provide a receiving apparatus capable of displaying subtitles synchronously.
この発明の他の目的は、テレビジョン放送に字幕を表示するための情報が含まれていない場合であっても映像と音声に字幕を同期して表示することが可能なテレビジョン放送再生方法およびテレビジョン放送再生プログラムを提供することである。 Another object of the present invention is a television broadcast reproduction method capable of synchronizing and displaying subtitles in video and audio even when the information for displaying subtitles is not included in the television broadcast, and It is to provide a television broadcast reproduction program.
上述した目的を達成するためにこの発明のある局面によれば、受信装置は、映像信号と、音声信号と、字幕情報とを含むテレビジョン放送の放送波を受信する受信装置であって、テレビジョン放送の放送波に含まれる映像信号と音声信号とを所定時間遅延させて再生する再生手段と、映像信号と音声信号との少なくとも一方から文字情報を抽出する文字情報抽出手段と、字幕情報と抽出された文字情報との相関に基づいて、字幕情報を表示するタイミングを決定する決定手段と、を備える。 In order to achieve the above-described object, according to one aspect of the present invention, a receiving apparatus is a receiving apparatus that receives a broadcast wave of a television broadcast including a video signal, an audio signal, and caption information. A reproduction means for reproducing a video signal and an audio signal included in a broadcast wave of John Broadcast with a predetermined delay, a character information extraction means for extracting character information from at least one of the video signal and the audio signal, subtitle information, Determining means for determining the timing for displaying the subtitle information based on the correlation with the extracted character information.
この局面に従えば、映像信号と音声信号との少なくとも一方から文字情報が抽出され、字幕情報と文字情報との相関に基づいて、字幕情報を表示するタイミングが決定される。このため、所定時間遅延して再生されるテレビジョン放送の映像と音声に字幕情報を同期させることができる。この結果、テレビジョン放送に字幕を表示するための情報が含まれていない場合であっても映像と音声に字幕を同期して表示することが可能な受信装置を提供することができる。 According to this aspect, character information is extracted from at least one of the video signal and the audio signal, and the timing for displaying the caption information is determined based on the correlation between the caption information and the character information. For this reason, it is possible to synchronize the caption information with the video and audio of the television broadcast reproduced with a predetermined time delay. As a result, it is possible to provide a receiving apparatus that can display subtitles in synchronism with video and audio even when the information for displaying the subtitles is not included in the television broadcast.
好ましくは、文字情報抽出手段は、音声信号を音声認識することにより認識される文字列を文字情報として出力する音声認識手段を含む。 Preferably, the character information extracting means includes voice recognition means for outputting a character string recognized by voice recognition of the voice signal as character information.
好ましくは、決定手段は、字幕情報と音声認識手段により出力される文字列との相関に基づいて、字幕情報を表示するタイミングを決定できない場合、文字列を表示する表示手段を、さらに備える。 Preferably, the determining means further includes a display means for displaying the character string when the timing for displaying the caption information cannot be determined based on the correlation between the caption information and the character string output by the voice recognition means.
この局面に従えば、音声信号に含まれるが字幕情報に含まれない文字列を表示することができる。 According to this aspect, it is possible to display a character string that is included in the audio signal but not included in the caption information.
好ましくは、文字情報抽出手段は、映像信号を文字認識することにより認識される文字列を文字情報として出力する文字認識手段をさらに含み、決定手段は、字幕情報と音声認識手段により出力される文字列との相関に基づいて、字幕情報を表示するタイミングを決定できない場合、字幕情報と文字認識手段が出力する文字列との相関に基づいて、字幕情報を表示するタイミングを決定する。 Preferably, the character information extraction means further includes character recognition means for outputting a character string recognized by character recognition of the video signal as character information, and the determination means is a character output by the caption information and voice recognition means. If the timing for displaying the caption information cannot be determined based on the correlation with the column, the timing for displaying the caption information is determined based on the correlation between the caption information and the character string output by the character recognition means.
この局面に従えば、字幕情報に含まれる文字列を映像に同期して表示することができる。 According to this aspect, the character string included in the subtitle information can be displayed in synchronization with the video.
好ましくは、文字情報抽出手段は、映像信号を文字認識することにより認識される文字列を文字情報として出力する文字認識手段を含む。 Preferably, the character information extraction means includes character recognition means for outputting a character string recognized by character recognition of the video signal as character information.
この局面に従えば、映像信号に含まれるが字幕情報に含まれない文字列を表示することができる。 According to this aspect, it is possible to display a character string that is included in the video signal but not included in the caption information.
好ましくは、文字情報抽出手段は、映像信号に含まれる唇の動きおよび形状を認識することにより母音の配列を文字情報として出力する母音認識手段を含む。 Preferably, the character information extracting means includes vowel recognition means for outputting an array of vowels as character information by recognizing the movement and shape of the lips included in the video signal.
この発明の他の局面によれば、テレビジョン放送再生方法は、映像信号と、音声信号と、字幕情報とを含むテレビジョン放送の放送波を受信するステップと、テレビジョン放送の放送波に含まれる映像信号と音声信号とを所定時間遅延させて再生するステップと、映像信号と音声信号との少なくとも一方から文字情報を抽出するステップと、字幕情報と抽出された文字情報との相関に基づいて、字幕情報を表示するタイミングを決定するステップと、を含む。 According to another aspect of the present invention, a television broadcast reproduction method includes a step of receiving a broadcast wave of a television broadcast including a video signal, an audio signal, and caption information, and a broadcast wave of the television broadcast. Based on a correlation between the step of reproducing the video signal and the audio signal delayed by a predetermined time, the step of extracting the character information from at least one of the video signal and the audio signal, and the subtitle information and the extracted character information Determining the timing for displaying the caption information.
この局面に従えば、テレビジョン放送に字幕を表示するための情報が含まれていない場合であっても映像と音声に字幕を同期して表示することが可能なテレビジョン放送再生方法を提供することができる。 According to this aspect, there is provided a television broadcast reproduction method capable of displaying subtitles in synchronization with video and audio even when the information for displaying the subtitles is not included in the television broadcast. be able to.
この発明のさらに他の局面によれば、テレビジョン放送再生プログラムは、映像信号と、音声信号と、字幕情報とを含むテレビジョン放送の放送波を受信するステップと、テレビジョン放送の放送波に含まれる映像信号と音声信号とを所定時間遅延させて再生するステップと、映像信号と音声信号との少なくとも一方から文字情報を抽出するステップと、字幕情報と抽出された文字情報との相関に基づいて、字幕情報を表示するタイミングを決定するステップと、をコンピュータに実行させる。 According to still another aspect of the present invention, a television broadcast reproduction program receives a broadcast wave of a television broadcast including a video signal, an audio signal, and caption information, and a broadcast wave of the television broadcast. Based on the correlation between the step of reproducing the included video signal and the audio signal with a predetermined time delay, the step of extracting the character information from at least one of the video signal and the audio signal, and the subtitle information and the extracted character information And determining the timing for displaying the subtitle information.
この局面に従えば、テレビジョン放送に字幕を表示するための情報が含まれていない場合であっても映像と音声に字幕を同期して表示することが可能なテレビジョン放送再生プログラムを提供することができる。 According to this aspect, there is provided a television broadcast reproduction program capable of displaying subtitles in synchronization with video and audio even when the information for displaying the subtitles is not included in the television broadcast. be able to.
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明は繰返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.
図1は、本発明の実施の形態の1つにおけるテレビジョン受信機の機能の概要を示す機能ブロック図である。図1を参照して、受信装置としてのテレビジョン受信機1は、テレビジョン放送の放送波を受信し、放送信号を出力するチューナ10と、放送信号を処理するための制御部20と、字幕を一時的に記憶する第1バッファメモリ31と、映像信号と音声信号とを一時的に記憶する第2バッファメモリ33と、放送信号を再生する再生部41と、を含む。
FIG. 1 is a functional block diagram showing an outline of functions of a television receiver in one embodiment of the present invention. Referring to FIG. 1, a
チューナ10は、放送波を選択・受信し、映像信号、音声信号および字幕信号を含む放送信号を制御部20に出力する。チューナ10は、アナログ放送用のチューナであってもよいし、デジタル放送用のチューナであってもよい。チューナ10は、放送波の種類に適したチューナ10が用いられる。
The
制御部20は、映像信号、音声信号および字幕信号を分離する分離部21と、映像信号が入力される文字認識部23と、音声信号が入力される音声認識部25と、字幕信号が入力され、字幕を表示するタイミングを決定する決定部27と、再生部41を制御するための再生制御部29と、を含む。
The
放送信号は、音声信号、映像信号および字幕信号を含む。分離部21は、放送信号を、音声信号と映像信号と字幕信号とに分離し、映像信号を文字認識部23に出力し、音声信号を音声認識部25に出力し、字幕信号を決定部27に出力するとともに、音声信号と映像信号とを第2バッファメモリ33に記憶する。字幕信号は、文字列を含む。
The broadcast signal includes an audio signal, a video signal, and a caption signal. The
なお、分離部21は、音声信号と映像信号とを第2バッファメモリ33に記録するようにしたが、チューナで受信した放送信号をそのまま第2バッファメモリ33に記憶するようにしてもよく、デジタル放送の場合は、パーシャルTSを記憶するようにしてもよい。
The separating
文字認識部23は、分離部21から入力される映像信号に含まれる映像を文字認識する。映像信号に含まれるすべてのフレームを文字認識するようにしてもよいが、すべてのフレームを文字認識しなくてもよい。例えば、所定の時間間隔で抽出したフレーム、または映像の変化の激しいフレームを抽出し、1フレームの画像ごとに文字認識するようにしてもよい。画像(映像)からの文字認識は、画像から文字領域を判別し、判別した文字領域をパターンマッチングして、文字を特定する。文字認識は、OCRなどで広く知られた技術を用いればよい。文字認識部23は、映像信号から文字列を抽出した順に、抽出した文字列に番号を付す。ここでは、文字認識部23が第i番目に抽出した文字列を映像文字列VS(i)(iは正の整数)という。
The
文字認識部23は、フレームを文字認識して映像文字列VS(i)を抽出した場合、映像文字列VS(i)と、その映像文字列VS(i)が抽出されたフレームが再生される映像時間VT(i)との組を、決定部27に出力する。ここでは、説明のために時間を相対時間で説明する。相対時間は、放送信号の再生を開始する時刻を0とし、それからの経過時間で時を示す。映像時間VT(i)は、映像文字列VS(i)を含む最初のフレームが再生される時刻(開始時刻)を少なくとも含む。
When the
音声認識部25は、分離部21から入力される音声信号に含まれる音声を音声認識する。音声認識部25は、無音期間で挟まれた期間の音声を音声認識し、文字列を抽出する。音声認識の方法は、例えば、音響的な特徴を持つ音響(音素)モデルと言語的な特徴を持つ言語モデルを利用する方法を用いる。音響モデルとしては隠れマルコフモデル(HMM)が広く利用されており、HMMを作成するツールとしてHTKが有名である。また、HTKを用いるオープンソースの大語彙連続音声認識エンジンとしてJuliusが知られている。音声認識の方法は、これに限定されることなく、従来周知な方法を用いるようにしてもよい。音声認識部25は、音声信号から文字列を抽出した順に、抽出した文字列に番号を付す。ここでは、音声認識部25が第j番目に抽出した文字列を音声文字列AS(j)(jは正の整数)という。
The
音声認識部25は、音声文字列AS(j)を抽出した場合、音声文字列AS(j)と、その音声文字列AS(j)が抽出された音声が再生される音声時間AT(j)との組を、決定部27に出力する。音声時間AT(j)は、音声文字列AS(j)が抽出された音声が再生される開始時刻と再生が終了する終了時刻とを含む。
When the
決定部27は、文字認識部23から映像文字列VS(i)と映像時間VT(i)との組が入力され、音声認識部25から音声文字列AS(j)と音声時間AT(j)との組が入力され、分離部21から字幕信号が入力される。決定部27は、字幕信号に含まれる文字列に、それが入力される順に番号を付す。ここでは、第k番目に入力される文字列を字幕文字列SS(k)(kは正の整数)という。また、字幕文字列SS(k)が入力される時刻を字幕時間ST(k)に仮に設定する。
The
決定部27は、字幕文字列SS(k)を入力される順に、少なくとも1つの音声文字列AS(j)または映像文字列VS(i)と比較し、字幕文字列SS(k)を再生する字幕時間ST(k)を決定する。決定部27は、字幕文字列SS(k)と、それに対し決定された字幕時間ST(k)との組を第1バッファメモリ31に記憶する。
The
より具体的には、決定部27は、字幕文字列SS(k)を、それが入力される順に、少なくとも1つの音声文字列AS(j)と比較し、所定の相関のある1つを決定する。例えば、音声文字列AS(j)のうち字幕文字列SS(K)と所定の相関のある音声文字列AS(J)が決定されたならば、字幕文字列SS(K)を再生する字幕時間ST(K)を、音声時間AT(J)と同じ値に決定する。これにより、字幕文字列SS(K)を音声時間AT(J)に表示することができるので、字幕文字列SS(K)を音声に同期させることができる。
More specifically, the
さらに、決定部27は、音声文字列AS(j)のうち字幕文字列SS(K)と所定の相関のある音声文字列AS(J)が決定されなければ、字幕文字列SS(K)を少なくとも1つの映像文字列VS(i)と比較し、所定の相関のある1つを決定する。例えば、映像文字列VS(i)のうち字幕文字列SS(K)と所定の相関のある映像文字列VS(I)が決定されたならば、字幕文字列SS(K)を再生する字幕時間ST(K)を、映像時間VT(I)と同じ値に決定する。これにより、字幕文字列SS(K)を映像時間VT(I)に表示することができるので、字幕文字列SS(K)を映像に同期させることができる。
Further, the
決定部27は、映像文字列VS(i)のうち字幕文字列SS(K)と所定の相関のある映像文字列VS(I)が決定されなければ、字幕文字列SS(K)を再生する字幕時間ST(K)を、字幕文字列SS(K)の前後の字幕文字列SS(K−1)および字幕文字列SS(K+1)それぞれを再生する字幕時間ST(K−1)および字幕時間ST(K+1)の間に設定する。これにより、音声信号または映像信号から、字幕文字列SS(K)を表示するタイミングが定まらない場合であっても、字幕文字列SS(K)を適切なタイミングで表示することができる。
If the video character string VS (I) having a predetermined correlation with the subtitle character string SS (K) is not determined in the video character string VS (i), the
さらに、決定部27は、音声文字列AS(j)のうち字幕文字列SS(k)のいずれとも所定の相関がないとされた音声文字列AS(J)を、新たな字幕文字列SSに設定する。新たな字幕文字列SSは、音声文字列AS(J)の音声時間AT(J)前後の字幕時間STを有する2つの字幕文字列SSの間に挿入する。新たな字幕文字列SSの字幕時間STは音声時間AT(J)と同じ値に設定する。これにより、字幕情報に含まれないが、音声信号に含まれる文字列を音声に同期して表示することができる。
Further, the
また、決定部27は、映像文字列VS(i)のうち字幕文字列SS(k)のいずれとも所定の相関がないとされた映像文字列VS(I)を、新たな字幕文字列SSに設定する。新たな字幕文字列SSは、映像文字列VS(I)の映像時間VT(I)の前後の字幕時間STを有する2つの字幕文字列SSの間に挿入する。新たな字幕文字列SSの字幕時間STは映像時間VT(I)と同じ値に設定する。これにより、字幕情報に含まれないが、映像信号に含まれる文字列を映像に同期して表示することができる。
In addition, the
再生制御部29は、再生部41を制御する。再生部41は、再生制御部29から入力される指示に従って、第1バッファメモリ31から字幕文字列SS(k)と字幕時間ST(k)とを読み出し、第2バッファメモリ33から映像信号および音声信号を読み出す。再生部41は、第2バッファメモリ33から映像信号および音声信号を、それらが記憶されてから所定時間経過した後に再生する。これにより、映像信号および音声信号が、放送信号が受信されてから所定時間遅延して再生される。
The
再生部41は、第1バッファメモリ31から読み出した字幕文字列SS(k)を、映像信号および音声信号を再生する時間が、字幕時間ST(k)となった時に表示する。これにより、映像の表示および音声の出力に同期して字幕文字列を表示することができる。字幕文字列SS(k)の表示は、映像信号に重畳して表示する。映像信号に字幕文字列SS(k)の画像を合成してもよいし、OSD等のディスプレイのオンスクリーン機能を用いて、表示するようにしてもよい。
The
第1バッファメモリ31および第2バッファメモリ33は、DRAM(Dynamic RAM)またはSDRAM(Symchronous Dynamic RAM)である。また、フラッシュメモリなどの半導体メモリであってもよい。
The
制御部20は、フラッシュメモリ51に記憶されたプログラムをロードして実行する。なお、制御部20が実行するプログラムをフラッシュメモリ51に記録する場合に限らず、他の記録媒体に記録するようにしてもよい。
The
ここでいうプログラムは、制御部20により直接実行可能なプログラムだけでなく、ソースプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。
The program here includes not only a program directly executable by the
なお、ここでは、文字認識部23が映像信号から映像文字列VS(i)を抽出する例を示したが、文字認識部23に代えて、映像信号に含まれる唇の動きおよび形状を認識することにより母音の配列を文字情報として出力する母音認識部を備えるようにしてもよい。母音認識部が出力する母音の配列を、文字認識部23が出力する映像文字列VS(i)と同様に処理することができる。また、母音認識部と文字認識部23を備えるようにして、双方から出力される文字列のいずれか一方を映像文字列VS(i)とするようにしてもよいし、いずれか一方でなくて両方用いてもよい。
In this example, the
図2は、決定部の詳細な機能を示す機能ブロック図である。図2を参照して、決定部27は、相関算出部61と、選択部63とを含む。相関算出部61は、選択部63から映像文字列VS(i)と字幕文字列SS(k)の組、または、音声文字列AS(j)と字幕文字列SS(k)の組、が入力される。相関算出部61は、字幕文字列SS(k)と映像文字列VS(i)との相関を求め、選択部に相関値XC(k,i)を出力する。また、字幕文字列SS(k)と音声文字列AS(j)との相関を求め、選択部に相関値XC(k、j)を出力する。
FIG. 2 is a functional block diagram illustrating detailed functions of the determination unit. Referring to FIG. 2,
相関値の算出方法は、種々の方法があり、いずれを用いもよいが、ここでは、音声の音素ごとの系列を比較する例を示す。なお、相関値の算出方法を音声の音素ごとの系列を比較する方法に限定するものではない。図3は、二つの音素系列の比較を説明するための図である。ここでは、音声文字列AS(j)の音素系列をai(konbanha)とし、字幕文字列SS(k)の音素系列をbi(konbanha)としている。この場合、相互相関関数は次式で与えられる。但し、aibi+τは、aiとbi+τとが一致するときに「1」となり、異なるときに「0」となる。Cτが最大となるτが最も相関の強いことを示す。 There are various methods for calculating the correlation value, and any of them may be used. Here, an example in which sequences of speech phonemes are compared is shown. Note that the correlation value calculation method is not limited to the method of comparing sequences for each phoneme of speech. FIG. 3 is a diagram for explaining comparison between two phoneme sequences. Here, the phoneme sequence of the speech character string AS (j) is a i (konbanha), and the phoneme sequence of the subtitle character string SS (k) is b i (konbanha). In this case, the cross-correlation function is given by However, a i b i + τ is “1” when a i and b i + τ match, and is “0” when they are different. Τ that maximizes C τ indicates the strongest correlation.
相関算出部61は、τ=0から順番に相関値XC=Cτを計算し、XCがしきい値Tを超えた時、相関値XCとして選択部63に出力する。しきい値を超えるXCがない場合、選択部63には何も出力されない。または、しきい値を超えるXCがなかったことを示す値を出力しても良い。ここでは、しきい値を超えるXCがなかったことを示す値として0を出力することとする。なお、相関値XCの強い値が得られない場合は、字幕文字列SS(k)の音素系列を、子音部分を省略した母音部分のみで構成し、相関を求めても良い。また、相関値XCを求めるのに用いる系列は、音素以外に、音節や単語単位等を用いても良い。さらに、相関値XCは音声文字列AS(j)または字幕文字列SS(k)のどちらか一方をずらしてそれぞれ相関値XCを算出し、しきい値を超えた相関値XCを用いるか、音声文字列AS(j)と字幕文字列SS(k)がずれないことが明白であれば、音声文字列AS(j)または字幕文字列SS(k)のどちらもずらさずに求めた相関値XCを用いてもよい。また、相関を求める場合、ある音声文字列AS(j)および字幕文字列SS(k)の全てを比較する必要はなく、初めの10文字分など予め定めた文字数に限定して比較するようにしてもよい。これにより、相関値XCを算出する時間を短くすることができる。
The
相関算出部61が相関値を算出する組合せは、選択部63により決定される。図2に戻って、選択部63は、文字認識部23から映像文字列VS(i)および映像時間VT(i)が入力され、音声認識部25から音声文字列AS(j)および音声時間AT(j)が入力され、分離部21から入力される字幕信号に含まれる字幕文字列SS(k)および字幕時間ST(k)が入力される。
The combination for which the
選択部63は、字幕文字列SS(k)を、それが入力される順に処理対象に設定する。ここでは、字幕文字列SS(K)を処理対象とする場合を例に説明する。選択部63は、最初に、字幕文字列SS(K)の字幕時間ST(K)より前で、最も近い時を音声時間AT(J)とする音声文字列AS(J)を比較対象に設定する。そして、相関算出部61に字幕文字列SS(K)と音声文字列AS(J)との相関を算出させる。相関算出部61で算出される相関値XCがしきい値Tを超えていれば、相関算出部61は相関値XCを出力し、選択部63は、音声文字列AS(J)を選択し、字幕文字列SS(K)に対応する対応音声文字列AS(J)に決定する。そして、字幕文字列SS(K)を再生する字幕時間ST(K)を、対応音声文字列に決定された音声文字列AS(J)の音声時間AT(J)と同じ値に変更する。
The
一方、相関算出部61で算出される相関値XCがしきい値Tを超えなければ、相関算出部61はしきい値Tを超える相関値XCがなかったことを示す値として0を出力し、選択部63は、音声文字列AS(J)の一つ前の音声文字列AS(J−1)を処理対象に決定し、相関算出部61に相関値を求めさせる。処理対象とされる音声文字列AS(J−m)(mは正の整数)が、既に対応音声文字列に決定されたものであれば、字幕文字列SS(K)と相関のある音声文字列AS(j)が存在しないと判断する。
On the other hand, if the correlation value XC calculated by the
次に、選択部63は、最初に、字幕文字列SS(K)の字幕時間ST(K)より前で、最も近い時を映像時間VT(I)とする映像文字列VS(I)を比較対象に設定する。そして、相関算出部61に字幕文字列SS(K)と映像文字列VS(I)との相関を算出させる。相関算出部61で算出される相関値XCがしきい値Tを超えていれば、相関算出部61は相関値XCを出力し、選択部63は、映像文字列VS(I)を字幕文字列SS(K)に対応する対応映像文字列に決定する。そして、字幕文字列SS(K)を再生する字幕時間ST(K)を、対応映像文字列に決定された映像文字列VS(I)の映像時間VT(I)と同じ値に変更する。
Next, the
なお、字幕時間ST(K)は、開始時刻と終了時刻を含み、映像時間VT(I)は開始時刻のみを含む場合、字幕時間ST(K)の開始時刻を映像時間VT(I)の開始時刻に設定し、終了時刻は、開始時刻から所定時間経過後の時刻に設定すればよい。また、次の字幕時間ST(K+1)の開始時刻を、字幕時間ST(K)の終了時刻に設定するようにしてもよい。 When the caption time ST (K) includes a start time and an end time, and the video time VT (I) includes only the start time, the start time of the caption time ST (K) is set as the start of the video time VT (I). The time is set, and the end time may be set to a time after a predetermined time has elapsed from the start time. Further, the start time of the next caption time ST (K + 1) may be set to the end time of the caption time ST (K).
一方、相関算出部61で算出される相関値XCがしきい値Tを超えなければ、相関算出部61はしきい値Tを超える相関値XCがなかったことを示す値として0を出力し、選択部63は、映像文字列VS(I)の一つ前の映像文字列VS(I−1)を処理対象に決定し、相関算出部61に相関値を求めさせる。処理対象とされる映像文字列VS(I−n)(nは正の整数)が、既に対応映像文字列に決定されたものであれば、字幕文字列SS(K)と相関のある映像文字列VS(i)が存在しないと判断する。
On the other hand, if the correlation value XC calculated by the
選択部63は、映像文字列VS(i)のうち字幕文字列SS(K)と所定の相関のある映像文字列VS(I)が決定されなければ、字幕文字列SS(K)を再生する字幕時間ST(K)を、字幕文字列SS(K)の前後の字幕文字列SS(K−1)および字幕文字列SS(K+1)それぞれを再生する字幕時間ST(K−1)と字幕時間ST(K+1)との間に設定する。
If the video character string VS (I) having a predetermined correlation with the subtitle character string SS (K) is not determined in the video character string VS (i), the
図4は、同期処理の流れの一例を示すフローチャートである。同期処理は、制御部20がフラッシュメモリ53に記録されたプログラムを実行することにより、制御部20により実行される処理である。図7〜図11は、音声文字列ASと、映像文字列VSと、字幕文字列SSとの時間的な配置を示すタイムチャートである。T0が映像または音声の再生が開始される時刻である。例えば、図7を参照して、音声文字列AS(1)に対応する音声時間AT(1)の開始時刻は時刻T0あり、終了時刻は時刻T1である。また、映像文字列VS(1)に対応する映像時間VT(1)の開始時刻は時刻T0であり、終了時刻は時刻T1である。また、字幕文字列SS(1)に対応する字幕時間ST(1)の開始時刻は時刻T1であり、終了時刻は時刻T2である。
FIG. 4 is a flowchart illustrating an example of the flow of synchronization processing. The synchronization process is a process executed by the
以下、図4に示す同期処理の流れを、図7〜図11を参照しながら説明する。図4を参照して、制御部20は、変数k,j,i,amin,vminをそれぞれ初期値「1」に設定する(ステップS01)。変数kは、処理対象となる字幕文字列SS(k)および字幕時間ST(k)を特定するために用いられる。変数jは、処理対象となる音声文字列AS(j)および音声時間AT(j)を特定するために用いられる。変数iは、処理対象となる映像文字列VS(i)および映像時間VT(i)を特定するために用いられる。変数aminは、字幕文字列SSと比較の対象となる最後の音声文字列ASを特定するために用いられる。変数vminは、字幕文字列SSと比較の対象となる最後の映像文字列VSを特定するために用いられる。ステップS01が実行されることにより、変数kに「1」が設定されるので、第1番目の字幕文字列SS(1)および字幕時間ST(1)が処理対象に設定される。
Hereinafter, the flow of the synchronization process shown in FIG. 4 will be described with reference to FIGS. Referring to FIG. 4,
次のステップS02においては、音声時間AT(j)のうちで、字幕時間ST(k)よりも時間的に前であり、最も字幕時間ST(k)に近い音声時間AT(J)を選択する。音声文字列AS(J)は、複数の音声文字列のうち字幕文字列SS(k)と比較の対象となる最初の音声文字列である。ST(k)に近いほうから順番に過去に遡っていくので、比較の対象としては最初になる。例えば、図7を参照して、字幕時間ST(1)の開始時刻T1よりも前で、最も時刻T1に近いのは音声文字列AS(1)なので、音声時間AT(1)を選ぶ。次に変数jにステップS02で選択した「J」を設定し(ステップS03)、処理をステップS04に進める。 In the next step S02, the audio time AT (J) that is temporally earlier than the caption time ST (k) and is closest to the caption time ST (k) is selected from the audio time AT (j). . The voice character string AS (J) is the first voice character string to be compared with the subtitle character string SS (k) among the plurality of voice character strings. Since it goes back to the past in order from the closest to ST (k), it becomes the first comparison target. For example, referring to FIG. 7, the voice character string AS (1) is the closest to the time T1 before the start time T1 of the caption time ST (1), so the voice time AT (1) is selected. Next, “J” selected in step S02 is set in variable j (step S03), and the process proceeds to step S04.
ステップS04においては、字幕文字列SS(k)と音声文字列AS(j)との相関値XCを算出する。そして、相関値XCとしきい値Tとを比較する(ステップS05)。相関値XCがしきい値Tを超えるならば処理をステップS06に進め、そうでなければ処理をステップS11に進める。 In step S04, a correlation value XC between the subtitle character string SS (k) and the voice character string AS (j) is calculated. Then, the correlation value XC is compared with the threshold value T (step S05). If correlation value XC exceeds threshold value T, the process proceeds to step S06; otherwise, the process proceeds to step S11.
ステップS06においては、字幕時間ST(k)に音声時間AT(j)を設定する。字幕文字列SS(k)と音声文字列AS(j)との相関値XCがしきい値Tを超えていれば、字幕文字列SS(k)が音声文字列AS(j)と類似する。このため、字幕文字列SS(k)を音声文字列AS(j)が再生される音声時間AT(j)に表示するようにして、同期させる。ここで、図7に示した字幕文字列SS(1)と音声文字列AS(1)との相関値XCがしきい値Tを越えた場合のタイムチャートを図8に示す。このとき、字幕時間ST(1)に音声時間AT(1)が設定される。 In step S06, the audio time AT (j) is set as the caption time ST (k). If the correlation value XC between the subtitle character string SS (k) and the audio character string AS (j) exceeds the threshold value T, the subtitle character string SS (k) is similar to the audio character string AS (j). For this reason, the subtitle character string SS (k) is synchronized by being displayed at the audio time AT (j) when the audio character string AS (j) is reproduced. Here, FIG. 8 shows a time chart when the correlation value XC between the caption character string SS (1) and the voice character string AS (1) shown in FIG. At this time, the audio time AT (1) is set to the caption time ST (1).
なお、相関値XCを求める時に相関値Cτのτが「0」でない場合は、字幕時間ST(k)を音声時間AT(j)からτの分だけ増減させた値に設定する。 If τ of correlation value C τ is not “0” when obtaining correlation value XC, subtitle time ST (k) is set to a value obtained by increasing or decreasing audio time AT (j) by τ.
次のステップS06Aにおいては、音声文字列の未割り当て文字列挿入処理を実行する。図5は、未割り当て音声文字列挿入処理の流れの一例を示すフローチャートである。図5を参照して、ステップS31において、音声文字列AS(j)以前に、字幕文字列SSが割り当てられていない音声文字列ASの数M=(j−1)−amin+1を計算する。そして、ステップS32において、Mが正であるか確認をすることにより、音声文字列AS(j)以前に、字幕文字列SSが割り当てられていない音声文字列ASが存在するか否かを判断する。Mが正であれば音声文字列AS(j)以前に、字幕文字列SSが割り当てられていない音声文字列ASが存在すると判断し、処理をステップS33に進め、Mが正でなければそのような音声文字列ASが存在しないと判断し、処理を同期処理に戻す。
In the next step S06A, an unassigned character string insertion process for a speech character string is executed. FIG. 5 is a flowchart showing an example of the flow of unassigned speech character string insertion processing. Referring to FIG. 5, in step S31, the number M = (j−1) −
ステップS33〜S40において、字幕文字列SS(k)とその一つ前の字幕文字列SS(k−1)の間に、字幕文字列SSが割り当てられていない音声文字列ASを挿入する。SSが配列の場合、SS(k)以降の字幕文字列SSを、未割り当て音声文字列の数Mの分だけ繰り下げる必要があるため、ステップS33〜ステップS36においてSS(k)以降の字幕文字列SSを全てコピーし、その後のステップS37〜ステップS40において、字幕文字列SSが割り当てられていない音声文字列ASを挿入する。なお、SSを双方向の連結リストとして構成しておけば、SS(k−1)の次のリストへのポインタおよびSS(k)の前のリストへのポインタを書き換えて挿入する処理のみで済む。 In steps S33 to S40, an audio character string AS to which no subtitle character string SS is assigned is inserted between the subtitle character string SS (k) and the immediately preceding subtitle character string SS (k-1). When SS is an array, the subtitle character string SS after SS (k) needs to be moved down by the number M of unassigned speech character strings, so that the subtitle character string after SS (k) in steps S33 to S36. All SSs are copied, and in subsequent steps S37 to S40, a speech character string AS to which no subtitle character string SS is assigned is inserted. If the SS is configured as a bi-directional linked list, only the process of rewriting and inserting the pointer to the next list of SS (k−1) and the pointer to the list before SS (k) is sufficient. .
次のステップS41において、NおよびkにMをそれぞれ加算する。このステップS41や図4のステップS09などは、双方向の連結リストの場合不要であり、ステップS10などの条件式を変更する必要がある。双方向の連結リストとして構成した場合の詳細例は、当業者に自明であるのでここでは繰り返さない。 In the next step S41, M is added to N and k, respectively. Step S41 and step S09 in FIG. 4 are not necessary in the case of a bidirectional linked list, and it is necessary to change the conditional expression such as step S10. A detailed example in the case of a bi-directional linked list is obvious to those skilled in the art and will not be repeated here.
図4に戻って、ステップS07においては、変数aminを変数jに1を加算した値に設定する。ステップS06において、音声時間AT(j)を、字幕時間ST(k)に割り当てたため、比較の対象となる最後の音声文字列AS(amin)を、音声時間AT(j)の次の音声時間AT(j+1)の音声文字列AS(j+1)に設定するためである。これにより、1つの字幕文字列SS(k)と比較の対象となる音声文字列の数を制限することができ、処理速度を早くすることができる。 Returning to FIG. 4, in step S07, the variable amin is set to a value obtained by adding 1 to the variable j. In step S06, since the audio time AT (j) is assigned to the caption time ST (k), the last audio character string AS (amin) to be compared is set to the audio time AT next to the audio time AT (j). This is because the voice character string AS (j + 1) of (j + 1) is set. Thereby, the number of voice character strings to be compared with one subtitle character string SS (k) can be limited, and the processing speed can be increased.
一方、処理をステップS11に進める場合、字幕文字列SS(k)と音声文字列AS(j)との相関値XCがしきい値Tを超えていない。この場合には、字幕文字列SS(k)と比較の対象を、音声文字列AS(j)の1つ前の音声文字列AS(j−1)に変更するために、変数jを1減算する(ステップS11)。そして、比較の対象となる最後の音声文字列AS(amin)よりも前になったか否かを判断するために、変数jが変数aminよりも小さくなったか否かを判断する(ステップS12)。変数jが変数aminよりも小さければ処理をステップS13に進め、そうでなければ処理をステップS04に戻す。 On the other hand, when the process proceeds to step S11, the correlation value XC between the subtitle character string SS (k) and the voice character string AS (j) does not exceed the threshold value T. In this case, the variable j is decremented by 1 in order to change the subject of comparison with the subtitle character string SS (k) to the voice character string AS (j−1) immediately before the voice character string AS (j). (Step S11). Then, it is determined whether or not the variable j is smaller than the variable amin in order to determine whether or not it is before the last phonetic character string AS (amin) to be compared (step S12). If variable j is smaller than variable amin, the process proceeds to step S13; otherwise, the process returns to step S04.
処理をステップS13に進める場合、処理対象としている字幕文字列SS(k)と比較の対象とする音声文字列AS(j)が存在しないと判断された場合である。この場合、字幕文字列SS(k)を映像文字列VS(i)と比較する。ステップS13〜ステップS18は、比較対象が異なるのみでステップS02〜ステップS07と同様であり、ステップS19およびステップS20は、ステップS11およびステップS12と同様である。従って、ここでは説明を繰り返さない。また、ステップS17Aで実行される未割り当て映像文字列挿入処理を図6に示す。図6に示す未割り当て映像文字列挿入処理は、図5に示した未割り当て音声文字列挿入処理と、挿入する文字列が異なるのみなので、ここでは説明を繰り返さない。 When the process proceeds to step S13, it is determined that the subtitle character string SS (k) to be processed and the voice character string AS (j) to be compared do not exist. In this case, the subtitle character string SS (k) is compared with the video character string VS (i). Steps S13 to S18 are the same as steps S02 to S07 except that the comparison targets are different, and steps S19 and S20 are the same as steps S11 and S12. Therefore, the description will not be repeated here. FIG. 6 shows the unassigned video character string insertion process executed in step S17A. The unassigned video character string insertion process shown in FIG. 6 is different from the unassigned audio character string insertion process shown in FIG. 5 only in the character string to be inserted, and therefore description thereof will not be repeated here.
ステップS20において、i<vminとなった時は、処理対象としている字幕文字列SS(k)と比較の対象とする映像文字列VS(i)が存在しないと判断された場合である。この場合は処理対象としている字幕文字列SS(k)の字幕時間ST(k)を、次のいずれかの方法で決定する(ステップS21)。
(1)処理対象としている字幕文字列SS(k)に対して計算したすべての相関値XCのうちの最大値を与えた音声文字列ASの音声時間ATまたは映像文字列VSの映像時間VTを、字幕時間ST(k)に設定する。
(2)処理対象としている字幕文字列SS(k)より前の字幕文字列SS(1)〜字幕文字列SS(k−1)の字幕時間ST(1)〜字幕時間ST(k−1)が変更された時間(ずれ時間)の平均だけ、字幕時間ST(k)を増減させる。
(3)字幕時間ST(k)を予め定めた時間だけ増減させる。
In step S20, when i <vmin, it is determined that the subtitle character string SS (k) to be processed and the video character string VS (i) to be compared do not exist. In this case, the caption time ST (k) of the caption character string SS (k) to be processed is determined by one of the following methods (step S21).
(1) The audio time AT of the audio character string AS or the video time VT of the video character string VS giving the maximum value among all the correlation values XC calculated for the caption character string SS (k) to be processed. , Subtitle time ST (k) is set.
(2) Subtitle time ST (1) to subtitle time ST (k-1) of subtitle character string SS (1) to subtitle character string SS (k-1) before the subtitle character string SS (k) to be processed The subtitle time ST (k) is increased / decreased by the average of the time (shift time) at which is changed.
(3) Increase or decrease the caption time ST (k) by a predetermined time.
ステップS21において、字幕文字列SS(k)の字幕時間ST(k)を決定した場合、次のステップS22においては、決定された字幕時間ST(k)より後の音声時間ATの音声文字列AS、および決定された字幕時間ST(k)より後の映像時間VTの映像文字列VSが比較の対象となるように、変数amin,vminを更新する。その後、処理をステップS08に進める。 When the subtitle time ST (k) of the subtitle character string SS (k) is determined in step S21, in the next step S22, the audio character string AS of the audio time AT after the determined subtitle time ST (k) is determined. The variables amin and vmin are updated so that the video character string VS of the video time VT after the determined subtitle time ST (k) is to be compared. Thereafter, the process proceeds to step S08.
図7に示したタイムチャートにおいて、字幕文字列SS(2)と音声文字列AS(2)との相関値XCがしきい値Tを超えた場合、字幕時間ST(2)に音声時間AT(2)が設定される。このときのタイムチャートを図9に示す。音声文字列AS(2)が再生される時間に字幕文字列SS(2)が表示され、同期する。 In the time chart shown in FIG. 7, when the correlation value XC between the subtitle character string SS (2) and the audio character string AS (2) exceeds the threshold value T, the audio time AT ( 2) is set. A time chart at this time is shown in FIG. The subtitle character string SS (2) is displayed and synchronized with the time when the audio character string AS (2) is reproduced.
さらに、図9に示した状態から字幕文字列SS(3)については、字幕時間ST(3)よりも時間的に前で一番近い音声文字列AS(4)が比較の対象となるが、相関値XCがしきい値Tを超えなければ、音声文字列AS(3)が比較の対象となる。字幕文字列SS(3)と音声文字列AS(3)との相関値XCがしきい値Tを超えた場合、字幕時間ST(3)に音声時間AT(3)が設定される。このときのタイムチャオートを図10に示す。音声文字列AS(3)が再生される時間に字幕文字列SS(3)が表示され、同期する。このように、字幕文字列SS(3)を、音声文字列AS(4)だけでなく、さらに遡ったより前の音声文字列AS(3)と比較するようにしたので、字幕文字列SS(3)を適切な位置に表示することができ、正確に音声と同期させることができる。 Furthermore, for the subtitle character string SS (3) from the state shown in FIG. 9, the closest sound character string AS (4) in time before the subtitle time ST (3) is the object of comparison. If the correlation value XC does not exceed the threshold value T, the phonetic character string AS (3) is to be compared. When the correlation value XC between the subtitle character string SS (3) and the audio character string AS (3) exceeds the threshold value T, the audio time AT (3) is set as the subtitle time ST (3). The time chart auto at this time is shown in FIG. The subtitle character string SS (3) is displayed and synchronized with the time when the audio character string AS (3) is reproduced. In this way, the subtitle character string SS (3) is compared not only with the audio character string AS (4) but also with the previous audio character string AS (3) that goes back further. ) Can be displayed at an appropriate position, and can be accurately synchronized with the sound.
図4に戻って、ステップS08においては、字幕文字列SS(k)を必要に応じて分割する。音声文字列AS(j)の長さと、字幕文字列SS(k)の長さとが異なる場合に、音声文字列AS(j)と字幕文字列SS(k)のうち長いほうの文字列を分割する。音声文字列AS(j)を分割する場合、後半の音声文字情報がj+1番目の音声文字列AS(j+1)となる。後半の音声時間AT(j+1)は、前半の音声時間AT(j)と同じにしてもよいが、音素や文字ごとに時間が分かっているのであれば、分割後の音声文字列AS(j+1)の最初の音素や文字の時間をAT(j+1)としてもよい。また、この分割処理は、文字列が配列の場合、以降の文字列を全てコピーする必要があるが、双方向の連結リストとして構成すれば、前後のポインタを書き換えるだけでよい。 Returning to FIG. 4, in step S08, the subtitle character string SS (k) is divided as necessary. When the length of the voice character string AS (j) is different from the length of the subtitle character string SS (k), the longer character string of the voice character string AS (j) and the subtitle character string SS (k) is divided. To do. When the phonetic character string AS (j) is divided, the second half phonetic character information becomes the j + 1th phonetic character string AS (j + 1). The voice time AT (j + 1) in the second half may be the same as the voice time AT (j) in the first half, but if the time is known for each phoneme or character, the divided voice character string AS (j + 1) The time of the first phoneme or character may be AT (j + 1). Further, in this division processing, when the character string is an array, it is necessary to copy all the subsequent character strings. However, if it is configured as a bidirectional linked list, it is only necessary to rewrite the front and rear pointers.
字幕文字列SS(k)を分割する場合は、字幕文字列SSの個数が増加するので字幕文字列SSの総個数を示す定数Nを1加算した値に変更する(N=N+1)。後半の字幕時間ST(k+1)は、音素や文字ごとに時間が分からない場合は次の字幕時間ST(k+2)と同じにするか、一定時間遅延される。例えば、図8において音声文字列AS(2)と字幕文字列SS(2)との相関値XCがしきい値Tよりも高い場合であって、音声文字列AS(2)が字幕文字列SS(2)よりも短い場合、字幕文字列SS(2)が分割されて図11のようになる。この場合、図11における字幕文字列SS(3)が図8における字幕文字列SS(2)の後半部分に相当し、図11における字幕文字列SS(4)が図8における字幕文字列SS(3)に相当する。 When the subtitle character string SS (k) is divided, the number of subtitle character strings SS increases, so that the constant N indicating the total number of subtitle character strings SS is changed to a value obtained by adding 1 (N = N + 1). The subtitle time ST (k + 1) in the latter half is the same as the next subtitle time ST (k + 2) or is delayed for a certain time when the time is unknown for each phoneme or character. For example, in FIG. 8, the correlation value XC between the audio character string AS (2) and the subtitle character string SS (2) is higher than the threshold value T, and the audio character string AS (2) is the subtitle character string SS. When the length is shorter than (2), the subtitle character string SS (2) is divided as shown in FIG. In this case, the subtitle character string SS (3) in FIG. 11 corresponds to the latter half of the subtitle character string SS (2) in FIG. 8, and the subtitle character string SS (4) in FIG. It corresponds to 3).
次のステップS09においては、処理対象とする字幕文字列SS(k)を次の字幕文字列SS(k+1)に変更するために、変数kに1を加算し、処理をステップS10に進める。ステップS10においては、変数kが定数Nを超えていないか確認する。定数Nは、字幕文字列SSの総個数を示す。変数kが定数Nを超えていなければ、処理をステップS02に戻し、次の字幕文字列SS(k)を処理対象として、上述したのと同様の処理を繰り返す。変数kが定数Nを超えていれば、それ以上、字幕文字列SSが存在しないと判断して処理を終了する。 In the next step S09, in order to change the caption character string SS (k) to be processed to the next caption character string SS (k + 1), 1 is added to the variable k, and the process proceeds to step S10. In step S10, it is confirmed whether the variable k does not exceed the constant N. The constant N indicates the total number of subtitle character strings SS. If the variable k does not exceed the constant N, the process returns to step S02, and the same processing as described above is repeated with the next caption character string SS (k) as the processing target. If the variable k exceeds the constant N, it is determined that there is no more subtitle character string SS and the process is terminated.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
<付記>
(1) 前記決定手段は、前記文字情報抽出手段により出力される少なくとも1つの前記文字情報のうちから前記字幕情報に対応する1つの対応文字情報を選択する対応文字情報選択手段を含み、
前記文字情報抽出手段により前記対応文字情報が抽出された前記音声信号または前記映像信号の部分が前記再生手段により再生される時を、前記字幕情報を表示するタイミングに決定する、請求項1に記載の受信装置。
(2) 前記決定手段は、前記音声認識手段が出力する少なくとも1つの前記文字列のうちから前記字幕情報との相関が所定の値以上の対応文字列を選択する対応文字列選択手段を含み、
前記文字情報抽出手段により前記対応文字列が抽出された前記音声信号の部分が前記再生手段により再生される時を、前記字幕情報を表示するタイミングに決定する、請求項2に記載の受信装置。
(3) 前記決定手段は、前記文字認識手段が出力する少なくとも1つの前記文字列のうちから前記字幕情報との相関が所定の値以上の対応文字列を選択する対応文字列選択手段を含み、
前記文字情報抽出手段により前記対応文字列が抽出された前記映像信号の部分が前記再生手段により再生される時を、前記字幕情報を表示するタイミングに決定する、請求項4または5に記載の受信装置。
(4) 前記決定手段は、前記母音認識手段が出力する少なくとも1つの前記母音の配列のうちから前記字幕情報との相関が所定の値以上の対応母音配列を選択する対応母音配列選択手段を含み、
前記文字情報抽出手段により前記対応母音配列が抽出された前記映像信号の部分が前記再生手段により再生される時を、前記字幕情報を表示するタイミングに決定する、請求項6に記載の受信装置。
<Appendix>
(1) The determination unit includes a corresponding character information selection unit that selects one corresponding character information corresponding to the caption information from at least one character information output by the character information extraction unit,
2. The time when the subtitle information is displayed is determined when the reproduction unit reproduces the portion of the audio signal or the video signal from which the corresponding character information has been extracted by the character information extraction unit. Receiver.
(2) The determination unit includes a corresponding character string selection unit that selects a corresponding character string whose correlation with the caption information is a predetermined value or more from at least one of the character strings output by the voice recognition unit,
The receiving apparatus according to
(3) The determination unit includes a corresponding character string selection unit that selects a corresponding character string whose correlation with the caption information is a predetermined value or more from at least one of the character strings output by the character recognition unit,
6. The reception according to
(4) The determination unit includes a corresponding vowel array selection unit that selects a corresponding vowel array whose correlation with the caption information is a predetermined value or more from at least one array of the vowels output by the vowel recognition unit. ,
The receiving apparatus according to
1 テレビジョン受信機、10 チューナ、20 制御部、21 分離部、23 文字認識部、25 音声認識部、27 決定部、29 再生制御部、31 第1バッファメモリ、33 第2バッファメモリ、41 再生部、53 カード、61 相関算出部、63 選択部。 1 TV receiver, 10 tuner, 20 control unit, 21 separation unit, 23 character recognition unit, 25 speech recognition unit, 27 determination unit, 29 playback control unit, 31 first buffer memory, 33 second buffer memory, 41 playback Part, 53 cards, 61 correlation calculation part, 63 selection part.
Claims (8)
テレビジョン放送の放送波に含まれる映像信号と音声信号とを所定時間遅延させて再生する再生手段と、
前記映像信号と前記音声信号との少なくとも一方から文字情報を抽出する文字情報抽出手段と、
前記字幕情報と前記抽出された文字情報との相関に基づいて、前記字幕情報を表示するタイミングを決定する決定手段と、を備えた受信装置。 A receiving device for receiving a broadcast wave of a television broadcast including a video signal, an audio signal, and caption information,
Reproduction means for reproducing a video signal and an audio signal included in a broadcast wave of a television broadcast with a predetermined time delay;
Character information extraction means for extracting character information from at least one of the video signal and the audio signal;
And a determination unit configured to determine a timing for displaying the caption information based on a correlation between the caption information and the extracted character information.
前記決定手段は、前記字幕情報と前記音声認識手段により出力される前記文字列との相関に基づいて、前記字幕情報を表示するタイミングを決定できない場合、前記前記字幕情報と前記文字認識手段が出力する前記文字列との相関に基づいて、前記字幕情報を表示するタイミングを決定する、請求項2に記載の受信装置。 The character information extraction means further includes character recognition means for outputting a character string recognized by character recognition of the video signal as the character information,
If the determination means cannot determine the timing for displaying the subtitle information based on the correlation between the subtitle information and the character string output by the voice recognition means, the subtitle information and the character recognition means output The receiving device according to claim 2, wherein timing for displaying the caption information is determined based on a correlation with the character string to be performed.
前記テレビジョン放送の放送波に含まれる映像信号と音声信号とを所定時間遅延させて再生するステップと、
前記映像信号と前記音声信号との少なくとも一方から文字情報を抽出するステップと、
前記字幕情報と前記抽出された前記文字情報との相関に基づいて、前記字幕情報を表示するタイミングを決定するステップと、を含むテレビジョン放送再生方法。 Receiving a broadcast wave of a television broadcast including a video signal, an audio signal, and caption information;
Reproducing a video signal and an audio signal included in a broadcast wave of the television broadcast with a predetermined delay;
Extracting character information from at least one of the video signal and the audio signal;
Determining a timing for displaying the subtitle information based on a correlation between the subtitle information and the extracted character information.
前記テレビジョン放送の放送波に含まれる映像信号と音声信号とを所定時間遅延させて再生するステップと、
前記映像信号と前記音声信号との少なくとも一方から文字情報を抽出するステップと、
前記字幕情報と前記抽出された前記文字情報との相関に基づいて、前記字幕情報を表示するタイミングを決定するステップと、をコンピュータに実行させるテレビジョン放送再生プログラム。 Receiving a broadcast wave of a television broadcast including a video signal, an audio signal, and caption information;
Reproducing a video signal and an audio signal included in a broadcast wave of the television broadcast with a predetermined delay;
Extracting character information from at least one of the video signal and the audio signal;
The television broadcast reproduction program which makes a computer perform the step which determines the timing which displays the said caption information based on the correlation with the said caption information and the extracted said character information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007255866A JP2009088990A (en) | 2007-09-28 | 2007-09-28 | Reception apparatus, television broadcast playback method, and television broadcast playback program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007255866A JP2009088990A (en) | 2007-09-28 | 2007-09-28 | Reception apparatus, television broadcast playback method, and television broadcast playback program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009088990A true JP2009088990A (en) | 2009-04-23 |
Family
ID=40661811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007255866A Pending JP2009088990A (en) | 2007-09-28 | 2007-09-28 | Reception apparatus, television broadcast playback method, and television broadcast playback program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009088990A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103680499A (en) * | 2013-11-29 | 2014-03-26 | 北京中科模识科技有限公司 | High-precision recognition method and high-precision recognition system on basis of voice and subtitle synchronization |
WO2018084910A1 (en) * | 2016-11-07 | 2018-05-11 | Axon Enterprise, Inc. | Systems and methods for interrelating text transcript information with video and/or audio information |
-
2007
- 2007-09-28 JP JP2007255866A patent/JP2009088990A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103680499A (en) * | 2013-11-29 | 2014-03-26 | 北京中科模识科技有限公司 | High-precision recognition method and high-precision recognition system on basis of voice and subtitle synchronization |
WO2018084910A1 (en) * | 2016-11-07 | 2018-05-11 | Axon Enterprise, Inc. | Systems and methods for interrelating text transcript information with video and/or audio information |
US10755729B2 (en) | 2016-11-07 | 2020-08-25 | Axon Enterprise, Inc. | Systems and methods for interrelating text transcript information with video and/or audio information |
US10943600B2 (en) | 2016-11-07 | 2021-03-09 | Axon Enterprise, Inc. | Systems and methods for interrelating text transcript information with video and/or audio information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7286749B2 (en) | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period | |
JP4980018B2 (en) | Subtitle generator | |
JP4113059B2 (en) | Subtitle signal processing apparatus, subtitle signal processing method, and subtitle signal processing program | |
JP4599244B2 (en) | Apparatus and method for creating subtitles from moving image data, program, and storage medium | |
JP4127668B2 (en) | Information processing apparatus, information processing method, and program | |
US8311832B2 (en) | Hybrid-captioning system | |
US20070168864A1 (en) | Video summarization apparatus and method | |
US20060136226A1 (en) | System and method for creating artificial TV news programs | |
JP2008546016A (en) | Method and apparatus for performing automatic dubbing on multimedia signals | |
CN110149548B (en) | Video dubbing method, electronic device and readable storage medium | |
JP2010136067A (en) | Data processing device, data processing method, and program | |
JP2010233019A (en) | Caption shift correction device, reproduction device, and broadcast device | |
JP2007101945A (en) | Apparatus, method, and program for processing video data with audio | |
WO2012164818A1 (en) | Region of interest identification device, region of interest identification method, region of interest identification program, and region of interest identification integrated circuit | |
KR101996551B1 (en) | Apparatus and method for generating subtitles using speech recognition and script | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
JP2013171089A (en) | Voice correction device, method, and program | |
KR100636386B1 (en) | A real time movie dubbing system and its method | |
JP2009088990A (en) | Reception apparatus, television broadcast playback method, and television broadcast playback program | |
JP2009237285A (en) | Personal name assignment apparatus and method | |
JP2005286969A (en) | Recording and reproducing device, display device, and method for correcting caption display delay of captioned broadcast | |
JP4807189B2 (en) | Information processing apparatus and program | |
JP6295381B1 (en) | Display timing determination device, display timing determination method, and program | |
JP2023007405A (en) | Voice conversion device, voice conversion method, program, and storage medium | |
JPWO2011161820A1 (en) | Video processing apparatus, video processing method, and video processing program |