JP2008301340A - Digest creating apparatus - Google Patents
Digest creating apparatus Download PDFInfo
- Publication number
- JP2008301340A JP2008301340A JP2007146917A JP2007146917A JP2008301340A JP 2008301340 A JP2008301340 A JP 2008301340A JP 2007146917 A JP2007146917 A JP 2007146917A JP 2007146917 A JP2007146917 A JP 2007146917A JP 2008301340 A JP2008301340 A JP 2008301340A
- Authority
- JP
- Japan
- Prior art keywords
- digest
- subtitle
- speed
- time
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は、映像コンテンツのダイジェスト作成装置に関し、特に、テレビ番組などのコンテンツを要約し効率的に視聴するためのダイジェストコンテンツを生成するダイジェスト作成装置に関する。 The present invention relates to a video content digest creation device, and more particularly to a digest creation device that summarizes content such as a television program and generates digest content for efficient viewing.
デジタル放送及びインターネット放送の一般化やDVD(Digtal Versatile Disk)レコーダなどの普及によって、テレビ番組の長時間録画やいわゆるタイムシフト再生が一般的におこなわれている。しかしユーザのテレビ視聴時間は限られているため、録画した全てのテレビ番組を視聴する時間は必ずしも確保できない。録画したテレビ番組を短時間で視聴するために、テレビ番組のコンテンツをただ単に早送り再生すると、重要な場面もそうでない場面も区別なく一律に高速再生されてしまう。この方法では、ユーザがコンテンツの内容を十分に理解できないおそれがある。そこでユーザにとっては、録画したテレビ番組を視聴する際に視聴時間の短縮と番組内容の正確な把握とをいかにして両立するかが重要な問題となる。 With the generalization of digital broadcasting and Internet broadcasting and the widespread use of DVD (Digital Versatile Disk) recorders and the like, long-time recording of TV programs and so-called time-shifted reproduction are generally performed. However, since the user's television viewing time is limited, it is not always possible to secure time for viewing all recorded television programs. In order to view a recorded television program in a short time, if the content of the television program is simply played back at a high speed, both important scenes and other scenes will be played back at high speed uniformly. With this method, the user may not be able to fully understand the content. Therefore, for a user, when viewing a recorded television program, an important issue is how to balance viewing time reduction and accurate grasp of the program contents.
このための技術として特許文献1〜4には、コンテンツに含まれる映像、音声、及び字幕などのデータを解析して重要であると判断した場面のみを抽出し、これら重要なシーンを繋いで再生するダイジェスト作成技術、またはユーザの操作で場面間の往来を簡単に可能にする技術が示されている。特許文献5には、重要だと判断した場面を通常の速度で再生し、そうでないシーンを高速再生する技術が示されている。特許文献6には、高速再生によってユーザが字幕の内容を理解し損なうことを防ぐために、字幕の文字数に応じて字幕の入った場面の再生を一時的に停止する技術が示されている。
ドラマなどのコンテンツでは、セリフの入る場面が重要な意味を持つことが多い。このため、この種のコンテンツ全編を効率よく短時間で視聴するには、セリフの部分はできるだけ通常に近い速度で再生してセリフを聞き取りやすくし、それ以外の部分はできるだけ高速で再生することが好ましい。しかし、高速再生においてもユーザがコンテンツの内容を理解できるようにしなければならないので、再生速度には自ずと上限がある。短時間でより効率的にコンテンツを視聴するためには、セリフの入る場面はユーザがセリフの内容を聞き取れる範囲で最も高速に再生し、セリフの入らない場面は場面の展開が理解できる範囲の速度で、セリフの入る場面よりも高速で再生することが重要となる。 In the case of content such as dramas, the scenes where the lines enter are often important. For this reason, in order to efficiently view the entire content of this kind in a short time, the part of the speech can be played at a speed as close to normal as possible to make it easy to hear the speech, and the rest of the content can be played as fast as possible. preferable. However, since the user must be able to understand the content even during high-speed playback, the playback speed naturally has an upper limit. In order to view the content more efficiently in a short time, the scene where the speech enters is played at the highest speed within the range where the user can hear the content of the speech, and the scene where the speech does not enter is a speed that can understand the development of the scene. Therefore, it is important to play at a higher speed than the scene where the dialogue enters.
しかし、上記特許文献4が示す技術では、セリフが入っている場面の抽出を行うが、その場面をどのように再生するかはユーザの操作にゆだねられる。このため、高速再生か通常再生かスキップするかをユーザが指定しなければならず操作が煩雑になる。
However, in the technique shown in
また、上記特許文献6が示す技術では、字幕の文字数だけを基にして再生速度を制御するため、長い字幕では無条件に再生速度が低下する。この技術は、発話速度が低く再生速度を上げることができる場合でも、長い字幕があれば再生速度が低下するので、視聴時間の効率的な短縮には適さない。
In the technique disclosed in
このような問題点に鑑み本発明は、ユーザがコンテンツの内容を理解できる範囲でコンテンツの場面ごとに再生速度を変化させたダイジェストを作成し、コンテンツ全体の視聴時間の短縮と効率的なコンテンツ視聴を実現することを課題とする。 In view of these problems, the present invention creates a digest with a playback speed changed for each scene of content within a range in which the user can understand the content, thereby reducing the overall viewing time and efficient content viewing. It is a problem to realize.
この課題を解決するために、本発明のダイジェスト作成装置は、映像コンテンツを要約したダイジェストコンテンツを生成するダイジェスト作成装置であって、前記映像コンテンツで表示される字幕の文字数及び字幕表示時間を検出する字幕解析部と、字幕の文字数、及び当該字幕表示時間から発話速度を算出し、当該発話速度を基に前記字幕表示時間での映像コンテンツの再生速度を決定するシーン抽出部と、前記シーン抽出部により決定された再生速度に従ってダイジェストコンテンツを生成するダイジェスト生成部と、を備えるものである。 In order to solve this problem, a digest creation device according to the present invention is a digest creation device that generates digest content summarizing video content, and detects the number of subtitle characters and subtitle display time displayed in the video content. A subtitle analysis unit, a scene extraction unit that calculates a speech speed from the number of subtitle characters and the subtitle display time, and determines a playback speed of the video content at the subtitle display time based on the speech speed, and the scene extraction unit And a digest generation unit that generates digest content according to the playback speed determined by.
ここで前記ダイジェスト生成部は、字幕表示時間以外は一定速度で再生するダイジェストコンテンツを生成するようにしてもよい。 Here, the digest generation unit may generate digest content that is played back at a constant speed except for the caption display time.
ここで前記ダイジェスト生成部は、字幕表示時間以外は映像コンテンツ開始からの経過時間に従って速度を速めて再生するダイジェストコンテンツを生成するようにしてもよい。 Here, the digest generation unit may generate digest content to be played back at a higher speed according to the elapsed time from the start of the video content except for the caption display time.
ここで前記ダイジェスト生成部は、前記シーン抽出部により決定された再生速度で、字幕表示時間のみを再生するダイジェストコンテンツを生成するようにしてもよい。 Here, the digest generation unit may generate digest content that reproduces only the caption display time at the reproduction speed determined by the scene extraction unit.
この課題を解決するために、本発明のダイジェスト作成装置は、映像コンテンツを要約したダイジェストコンテンツを生成するダイジェスト作成装置であって、前記映像コンテンツで表示される字幕の文字数及び字幕表示時間を検出する字幕解析部と、前記字幕表示時間に再生される映像コンテンツの音声を解析し、基本周波数、音量のうちの少なくとも1つと音声再生時間とを検出する音声解析部と、前記字幕の文字数、及び音声再生時間から発話速度を算出し、前記基本周波数、音量、の少なくとも1つ及び発話速度を基にして当該音声再生時間での映像コンテンツの再生速度を決定するシーン抽出部と、前記シーン抽出部により決定された再生速度に従ってダイジェストコンテンツを生成するダイジェスト生成部と、を備えるものである。 In order to solve this problem, a digest creation device according to the present invention is a digest creation device that generates digest content summarizing video content, and detects the number of subtitle characters and subtitle display time displayed in the video content. A subtitle analysis unit; an audio analysis unit that analyzes audio of video content reproduced during the subtitle display time and detects at least one of a fundamental frequency and a volume; and an audio reproduction time; the number of characters of the subtitle; and audio A scene extraction unit that calculates an utterance speed from a reproduction time and determines a reproduction speed of video content in the audio reproduction time based on at least one of the fundamental frequency and the volume and the utterance speed; and the scene extraction unit A digest generation unit that generates digest content according to the determined playback speed. .
ここで前記ダイジェスト生成部は、音声再生時間以外は一定速度で再生するダイジェストコンテンツを生成するようにしてもよい。 Here, the digest generation unit may generate digest content that is played back at a constant speed except for the audio playback time.
ここで前記ダイジェスト生成部は、音声表示時間以外は映像コンテンツ開始からの経過時間に従って速度を速めて再生するダイジェストコンテンツを生成するようにしてもよい。 Here, the digest generation unit may generate digest content to be played back at a higher speed according to the elapsed time from the start of the video content except for the audio display time.
ここで前記ダイジェスト生成部は、前記シーン抽出部により決定された再生速度で、音声再生時間のみを再生するダイジェストコンテンツを生成するようにしてもよい。 Here, the digest generation unit may generate digest content that reproduces only the audio reproduction time at the reproduction speed determined by the scene extraction unit.
ここで前記シーン抽出部は、前記発話速度と前記映像コンテンツのジャンルを基に前記字幕表示時間での映像コンテンツの再生速度を決定するようにしてもよい。 Here, the scene extraction unit may determine the playback speed of the video content during the caption display time based on the utterance speed and the genre of the video content.
ここで前記シーン抽出部は、前記基本周波数、音量の少なくとも1つ及び前記発話速度と前記映像コンテンツのジャンルを基に前記音声再生時間での映像コンテンツの再生速度を決定するようにしてもよい。 Here, the scene extraction unit may determine the playback speed of the video content during the audio playback time based on at least one of the fundamental frequency and volume, the speech rate, and the genre of the video content.
ここで前記シーン抽出部は、前記基本周波数、音量の少なくとも1つ及び前記発話速度と前記音声再生時間の音声の種類を基に前記音声再生時間での映像コンテンツの再生速度を決定するようにしてもよい。 Here, the scene extraction unit determines the playback speed of the video content during the audio playback time based on at least one of the fundamental frequency, the volume, the speech rate and the audio type of the audio playback time. Also good.
ここで前記字幕の文字数は、字幕の文字をすべて仮名で表記した場合の前記仮名の文字数としてもよい。 Here, the number of characters of the subtitle may be the number of characters of the kana when all the characters of the subtitle are expressed in kana.
ここで前記映像コンテンツに含まれる映像信号に重畳された字幕から前記字幕の文字数を検出し、前記検出した字幕の文字数を前記字幕解析部に送信する入力処理部を備えるようにしてもよい。 Here, an input processing unit may be provided that detects the number of subtitle characters from subtitles superimposed on a video signal included in the video content and transmits the detected number of subtitle characters to the subtitle analysis unit.
ここで前記シーン抽出部は、複数の段階に分けた発話速度を基に、各段階の発話速度に対応した再生速度を決定するようにしてもよい。 Here, the scene extraction unit may determine a playback speed corresponding to the speech speed of each stage based on the speech speed divided into a plurality of stages.
ここで前記シーン抽出部は、複数の段階に分けた発話速度と、複数の段階に分けた基本周波数と、複数の段階に分けた音量を基に、対応する再生速度を決定するようにしてもよい。 Here, the scene extraction unit may determine the corresponding playback speed based on the speech speed divided into a plurality of stages, the fundamental frequency divided into the plurality of stages, and the volume divided into the plurality of stages. Good.
以上のような本発明によると、映像コンテンツの場面ごとに、セリフが含む感情や盛り上がりに適した再生速度を算出しダイジェストコンテンツを作成することができる。これによってユーザは、映像コンテンツを短時間で視聴できるだけでなく、盛り上がった場面の見逃しや聞き逃しを防ぐことができ、映像コンテンツの内容の正確な理解を伴った効率的な視聴ができる。 According to the present invention as described above, the digest content can be created by calculating the playback speed suitable for the emotion and excitement included in the speech for each scene of the video content. As a result, the user can not only watch the video content in a short time, but also can prevent the overlooked scene from being missed or missed, and can efficiently view the video content with an accurate understanding of the content of the video content.
(第1の実施の形態)
以下、本発明の第1の実施の形態について、図面を参照しながら説明する。図1は、本実施の形態に係るダイジェスト作成装置の構成を示す図である。ダイジェスト作成装置1は、蓄積部11、入力処理部12、字幕解析部13、音声解析部14、シーン抽出部15、ダイジェスト生成部16、制御部17、及び出力インタフェース(I/F)18を備えている。
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a configuration of a digest creation apparatus according to the present embodiment. The
蓄積部11は、例えばテレビ番組や映画等の映像コンテンツデータを始め、後述する字幕テーブル、音声テーブル、再生速度テーブル、ダイジェストテーブル、及び映像コンテンツを要約したダイジェストコンテンツを格納するものである。具体的に蓄積部11は、半導体メモリ、ハードディスクドライブ、光ディスクドライブ、またはその他の記憶装置である。
The
入力処理部12は、放送波やインターネットに代表されるネットワークなどから有線又は無線により映像コンテンツデータを受信し、それを蓄積部11に格納するものである。入力処理部12は、チューナーやネットワークアダプタなどを含んで構成されている。なお、入力処理部12において映像コンテンツデータの受信はUSBやIEEE1394などのバスを経由して、あるいはハードディスクやメモリカードなどのリムーバブルメディアを経由して行ってもよい。
The
字幕解析部13は、蓄積部11が格納する映像コンテンツデータを解析し、映像コンテンツデータに含まれる各々の字幕の表示が始まる字幕表示開始時刻、字幕の表示が終わる字幕表示開始時刻、及び字幕文字数を検出及び算出し、これら字幕表示開始時刻、字幕表示終了時刻、及び字幕文字数を後述する字幕テーブルとして蓄積部11に格納するものである。尚、字幕表示開始時刻から字幕表示開始時刻までを字幕表示時間とよぶ。
The
音声解析部14は、蓄積部11に格納された字幕テーブルを参照するとともに、蓄積部11が格納する映像コンテンツデータの音声データを解析し、後述する音声テーブルを生成するものである。音声解析部14は、字幕テーブルに保持された字幕表示時間に再生される音声データを、いくつかの音声ジャンルに分類する。さらに音声解析部14は、その音声や効果音が再生される音声開始時刻Ts、終了する音声終了時刻Te、当該音声の基本周波数、及び音量を検出する。そして音声ジャンル、音声開始時刻、音声終了時刻、基本周波数、及び音量を後述する音声テーブルとして蓄積部11に記録するものである。尚、音声開始時刻から音声終了時刻までを音声再生時間とよぶ。
The
シーン抽出部15は、蓄積部11に格納された音声テーブルの中から音声開始時刻Tss及び音声終了時刻Tseを抽出する。さらにシーン抽出部15は、蓄積部11に格納された字幕テーブルから、音声再生時間で表示される字幕文字数Ncを抽出する。その上で字幕文字数Ncと、音声開始時刻Tssから音声終了時刻Tseまでの音声が再生される時間の長さとを用いて、各音声再生時間における発話速度Svを以下の式で算出する。
Sv=(Tse−Tss)/Nc
さらにシーン抽出部15は再生速度テーブルを用いて、この発話速度と音声テーブルに保持される基本周波数及び音量とを基に各音声再生時間での再生速度を指定し、後述するダイジェストテーブルを生成し蓄積部11に格納するものである。
The
Sv = (Tse−Tss) / Nc
Further, the
ダイジェスト生成部16は、蓄積部11が格納するダイジェストテーブルを参照して、コンテンツのダイジェストデータを生成し、当該生成したダイジェストデータを蓄積部11に記録するものである。
The digest
制御部17は、字幕解析部13、音声解析部14、シーン抽出部15及びダイジェスト生成部16の各動作を制御する。制御部17はさらに、蓄積部11からダイジェストデータを適宜読み出して、出力インタフェース18を通じて当該ダイジェストを外部に出力するものである。
The
ここで本実施の形態における映像コンテンツデータの形態として、MPEG2トランスポートストリームを想定している。図2は、本実施の形態におけるMPEG2トランスポートストリームのデータ構造を示す図である。映像コンテンツデータは、字幕PES(Packetized Elementary Stream)からなる字幕ストリーム、音声PESからなる音声ストリーム、映像PESからなる映像ストリーム、コンテンツデータに付随したデータのデータストリーム、及びPCR(Program Clock Reference)ストリームを含んでいる。PCRは送信機側の基準時刻であって、タイムスタンプの基準ともなる時刻情報である。映像コンテンツデータに含まれる字幕、音声、映像のそれぞれの実データを表示又は出力する時刻は、タイムスタンプとして各PESに記載されている。本図において、字幕PESは字幕データとタイムスタンプが記載されたもの、音声PESは音声データとタイムスタンプが記載されたもの、映像PESは映像データとタイムスタンプが記載されたものである。このような上記各ストリームを多重化して1つのトランスポートストリームを構成している。尚、MPEG2トランスポートストリーム及び各PESの詳細はISO/IEC13818−1 MPEG2SYSTEMSに規定されているものである。 Here, an MPEG2 transport stream is assumed as a form of video content data in the present embodiment. FIG. 2 is a diagram showing a data structure of the MPEG2 transport stream in the present embodiment. The video content data includes a subtitle stream made up of subtitled PES (Packetized Elementary Stream), an audio stream made up of audio PES, a video stream made up of video PES, a data stream of data attached to content data, and a PCR (Program Clock Reference) stream. Contains. PCR is time information that is a reference time on the transmitter side and also serves as a reference for a time stamp. The time for displaying or outputting the actual data of subtitles, audio, and video included in the video content data is described in each PES as a time stamp. In this figure, subtitle PES has subtitle data and time stamps written therein, audio PES has audio data and time stamps written therein, and video PES has video data and time stamps written therein. Each of the above streams is multiplexed to constitute one transport stream. The details of the MPEG2 transport stream and each PES are defined in ISO / IEC13818-1 MPEG2 SYSTEMS.
尚、MPEG2トランスポートストリームから映像、音声及び字幕を再生する場合、コンテンツ再生装置は内部時計をPCRで記述された時刻に設定する。そしてコンテンツ再生装置は、上記ストリームから、映像、音声、字幕の各PESを分離し、内部時計の時刻が各PESに記載されたタイムスタンプの時刻になった時点で当該PESに記載されたデータをデコードして表示又は出力する。 When playing back video, audio, and subtitles from the MPEG2 transport stream, the content playback device sets the internal clock to the time described in PCR. Then, the content playback apparatus separates each PES of video, audio, and subtitles from the stream, and when the time of the internal clock becomes the time of the time stamp described in each PES, the data described in the PES is Decode and display or output.
次に字幕PESについて説明する。図3は、映像コンテンツデータの字幕ストリームに含まれる字幕PESの構成を示す図である。1つの字幕PESはタイムスタンプ及び字幕データを含んでいる。字幕データは文字データを備える部分字幕データや、その文字データの装飾や表示を制御する制御データを備える部分字幕データを含んでいる。例えば図3の字幕PES20は、タイムスタンプ21及び字幕データ22を含んでおり、字幕データ22は、部分字幕データ23〜26を含んでいる。タイムスタンプ21には、字幕PES20に含まれる文字データの表示を開始する時刻が記載されている。部分字幕データ23は字幕として表示する文字データとして「こんにちは」を保持している。部分字幕データ24は、「TIME」及び表示維持時間Tdである「10」を制御データとして保持している。「TIME」は前の部分字幕データ23に含まれる文字データの表示を維持することを指示するものであり、「10」はその表示を維持する時間的な長さを示している。部分字幕データ25は、制御データとして「CS」を保持している。「CS」は、表示されている字幕の表示を消去することを指示するものである。部分字幕データ26は、字幕として表示する文字データとして「ありがとうございます」を保持している。字幕PESのデータは図の左から順番に読み取られるので、タイムスタンプ21〜部分字幕データ26の順に読み取られ、順に実行される構成となっている。
Next, caption PES will be described. FIG. 3 is a diagram illustrating a configuration of a caption PES included in a caption stream of video content data. One caption PES includes a time stamp and caption data. The caption data includes partial caption data including character data and partial caption data including control data for controlling decoration and display of the character data. For example, the
字幕PESの内容を実行する手順を以下に説明する。図3に示した字幕PES20の場合、まず映像コンテンツデータにおけるPCRと字幕PES20中のタイムスタンプ21を参照して、字幕データが有効になる時刻を算出する。そして、当該算出した時刻に部分字幕データ23の文字データ「こんにちは」を表示する。次の部分字幕データ24に制御データ“TIME”“10”とあり、さらに次の部分字幕データ25に“CS”とあることから、最初の文字データ「こんにちは」の表示を10秒間維持し、表示開始時刻から10秒後に消去する。そして、文字データ“こんにちは”の表示終了時刻に、次の部分字幕データ26の文字データ「ありがとうございます」を表示する。また、「ありがとうございます」の表示終了時刻は、次の字幕PES30の部分字幕データ33に含まれる文字データ「ごきげんよう」の表示開始時刻である。この時刻は、字幕PES30のタイムスタンプ31に記載されている。
A procedure for executing the contents of the caption PES will be described below. In the case of the
次に、字幕テーブルについて説明する。図4は、本実施の形態の字幕テーブルを示す図である。字幕テーブルは、1つの部分字幕データに含まれる文字データごとに字幕表示の開始時刻、字幕表示の終了時刻、及び字幕の文字数を保持するものである。たとえば、図4のNo.1では、ある文字データに対して、字幕表示開始時刻00:01:15、字幕表示終了時刻00:01:22、及び字幕文字数3が保持されている。
Next, the caption table will be described. FIG. 4 is a diagram illustrating a caption table according to the present embodiment. The caption table holds a caption display start time, a caption display end time, and the number of caption characters for each character data included in one partial caption data. For example, in FIG. 1, subtitle display start time 00:01:15, subtitle display end time 00:01:22, and
次に音声テーブルについて説明する。図5は、本実施の形態の音声テーブルを示す図である。音声テーブルは、字幕テーブルの字幕表示開始時刻から字幕表示終了時刻までの間で再生される音声データのジャンル、音声の再生開始時刻、音声の再生終了時刻、音声の基本周波数、及び音量を保持している。図4の字幕テーブルでNo.1に示される字幕表示開始時刻00:01:15から字幕表示終了時刻00:01:22の間に再生される音声データには、図5で音声ジャンルが「SPC」であるNo.1のデータと、同じく音声ジャンルが「EFF」であるNo.2のデータが存在する。ここで、音声ジャンルは、応援・喝采であれば“APP”、効果音であれば“EFF”、絶叫であれば“SCR”、解説・発声であれば“SPC”、音楽であれば“MSC”と表記するものとする。なお、音声ジャンルの分類は必ずしもこのとおりでなくてもよく、セリフが含まれる可能性があるかどうかが明確にわかる分類であればよい。 Next, the voice table will be described. FIG. 5 is a diagram showing an audio table according to the present embodiment. The audio table holds the genre of audio data, the audio playback start time, the audio playback end time, the audio fundamental frequency, and the volume that are played between the subtitle display start time and the subtitle display end time of the subtitle table. ing. In the caption table of FIG. In the audio data reproduced between the subtitle display start time 00:01:15 shown in FIG. 1 and the subtitle display end time 00:01:22, No. 1 whose audio genre is “SPC” in FIG. No. 1 with the same audio genre as “EFF”. There are two data. Here, the audio genre is “APP” for cheering / going, “EFF” for sound effects, “SCR” for screaming, “SPC” for commentary / speaking, “MSC” for music. ". Note that the classification of the audio genre does not necessarily have to be as described above, and may be a classification that clearly indicates whether or not there is a possibility that a speech is included.
尚、図4の字幕テーブルでNo.2に示される字幕表示開始時刻00:01:48の字幕データに対応するデータが図5の音声テーブルには存在しないが、これは字幕表示に対応する音声データがないためである。 In the subtitle table of FIG. The data corresponding to the caption data at the caption display start time 00:01:48 shown in FIG. 2 does not exist in the audio table in FIG. 5 because there is no audio data corresponding to the caption display.
次に再生速度テーブルについて説明する。図6は、本実施の形態の再生速度テーブルを示す図である。本図では、音声データの基本周波数と音量との組み合わせ及び発話速度によって1つの再生速度を指定している。例えば、音声データの基本周波数が高くかつ音量が大きい場合、発話速度が高ければ聞き取りが困難になりやすいため再生速度を通常の再生速度である1.0倍速に指定し、発話速度が低ければ再生速度を高めても聞き取りやすいので再生速度を1.5倍速に指定している。このようにして再生速度テーブルは、基本周波数、音量、及び発話速度から各音声再生時間での再生速度を指定するためのものである。 Next, the playback speed table will be described. FIG. 6 shows a playback speed table of the present embodiment. In this figure, one playback speed is designated by the combination of the fundamental frequency and volume of the audio data and the speech rate. For example, if the basic frequency of audio data is high and the volume is high, listening is likely to be difficult if the speech speed is high, so the playback speed is designated as the normal playback speed of 1.0 times speed, and playback is performed if the speech speed is low. Since it is easy to hear even if the speed is increased, the playback speed is set to 1.5 times speed. In this way, the playback speed table is for designating the playback speed for each voice playback time from the fundamental frequency, volume, and speech speed.
次にダイジェストテーブルについて説明する。図7は、本実施の形態のダイジェストテーブルを示す図である。本図は、図6の再生速度テーブルを基にして特に再生速度を指定した部分をまとめたテーブルである。図7は、No.1〜4の4箇所を特に再生速度を指定した部分として示しており、例えばNo.1の音声開始時刻00:01:15から再生終了時刻00:01:19までの部分は、2.0倍速で再生することを示している。
Next, the digest table will be described. FIG. 7 is a diagram showing a digest table of the present embodiment. This figure is a table in which the parts for which the reproduction speed is specified are summarized based on the reproduction speed table of FIG. FIG. Four
このような構成のダイジェスト作成装置1の動作について、図8に示したフローチャートを参照しながら説明する。まず、入力処理部12は映像コンテンツデータを受信して(S11)、蓄積部11に記録する。次に、字幕解析部13は映像コンテンツデータを解析して字幕テーブルを生成し(S12)、この字幕テーブルを蓄積部11に記録する。続いて音声解析部14は、字幕テーブルに記載された字幕表示時間についてのみ、映像コンテンツデータ中の音声データを解析して音声テーブルを生成し(S13)、この音声テーブルを蓄積部11に記録する。そしてシーン抽出部15は、音声テーブル中のデータである音声開始時刻、音声終了時刻、基本周波数および音量を抽出するとともに発話速度を算出する。さらにシーン抽出部15は、これら音声テーブルのデータと発話速度に基づいて再生速度テーブルを参照し、当該音声再生時間での再生速度を指定する。このときの音声開始時刻、音声終了時刻、及び再生速度を保持するダイジェストテーブルを生成し(S14)、蓄積部11に格納する。その後ダイジェスト生成部16は、ダイジェストテーブルを参照してダイジェストコンテンツを生成し、当該生成されたダイジェストコンテンツを蓄積部11に格納するか、出力インタフェース18を介して外部に出力する(S15)。
The operation of the digest creating
以下、図8のS12における字幕解析部13の動作、S13における音声解析部14の動作、及びS14におけるシーン抽出部15の動作について詳細に説明する。
Hereinafter, the operation of the
<字幕解析部13の動作>
図9A及び図9Bは、字幕解析部13の動作を示すフローチャートである。字幕解析部13は、まず図2に示す映像コンテンツ(映像ストリーム)のデータを解析して1番目と2番目のPCRを検索し取得する。そしてこれら2つのPCRの時刻の差分及びストリーム内での位置の差分、並びに1番目のPCRのストリーム内での位置から、ストリームの先頭基準時刻を近似算出する(S21)。つまり、1番目と2番目のPCRの時刻をそれぞれTp1及びTp2、またストリーム内での位置をそれぞれPp1及びPp2とすると、先頭基準時刻Tsは以下の式により求められる。
Ts=(Tp1*Pp2−Tp2*Pp1)/(Pp2−Pp1)
<Operation of
9A and 9B are flowcharts illustrating the operation of the
Ts = (Tp1 * Pp2-Tp2 * Pp1) / (Pp2-Pp1)
以下の説明においては、カウント値n(n:整数)を用いて文字データを含む部分字幕データを区別する。すなわち、カウンタ値n=0のときは文字データがまだ検出されていないことを示しており、1番目に検出された文字データにはカウント値n=1を与える。カウント値nを用いて、各文字データの表示開始時刻及び表示終了時刻をそれぞれTsc(n)及びTce(n)で表す。 In the following description, partial subtitle data including character data is distinguished using a count value n (n: integer). That is, when the counter value n = 0, it indicates that character data has not been detected yet, and the count value n = 1 is given to the first detected character data. Using the count value n, the display start time and display end time of each character data are represented by Tsc (n) and Tce (n), respectively.
先頭基準時刻Tsを決定すると、字幕解析部13は、映像コンテンツデータ中の字幕PESをストリームの先頭から順に検索する(S22)。続いて、字幕PESを検出したかどうかを判断する(S23)。ここで、図3の字幕PES20を最初の字幕PESとして検出すると、当該字幕PES20中のタイムスタンプ21に記述したタイムスタンプTptsを抽出し、表示開始時刻及び表示終了時刻の候補となる解析中時刻Tccの初期値を算出する(S24)。解析中時刻Tccの初期値は、以下の式により字幕PES20のタイムスタンプTptsと先頭基準時刻Tsとの差分で求められる。
Tcc=Tpts−Ts
When the head reference time Ts is determined, the
Tcc = Tpts-Ts
なお、検出した字幕PES中にタイムスタンプTptsが指定されていない場合には、映像コンテンツデータにおける当該字幕データのPCRを基準とした位置及び先頭基準時刻Tsに基づいて、最初の字幕を有効化する時刻を算出して解析中時刻Tccとしてもよい。 If the time stamp Tpts is not specified in the detected caption PES, the first caption is validated based on the position of the caption data in the video content data based on the PCR and the start reference time Ts. The time may be calculated and used as the analysis time Tcc.
次に、検出した字幕PES20の字幕データ22からまず部分字幕データ23を読み出す(S25)。そして、読み出した部分字幕データ23を解析し、データが含まれるかどうかを判断する(S26)。データが含まれていなかった場合、ステップS22に戻って、次の字幕PESを検索する。
Next,
部分字幕データ23のデータが文字データであるかどうかを判断する(S27)。部分字幕データ23のデータは文字データであるので、文字データの文字数を算出し、文字数Ncとして保持する(S28)。続いて、カウンタ値nが0より大きく且つ表示終了時刻Tce(n)が未決定であるかどうかを判断する(S29)。ここでカウンタ値は初期値のn=0であるので、カウンタ値をインクリメントしてn=1とし、解析中時刻Tccを表示開始時刻Tcs(1)とする(S31)。
It is determined whether the data of the
続いて、次の部分字幕データ24を読み出す(S25)。部分字幕データ24のデータが「TIME」であるかどうかを判断する(S32)。部分字幕データ24は制御データである「TIME」と表示維持時間Tdである「10」を含んでいるので、解析中時刻Tccに表示維持時間Tdの10秒を加算して更新する(S33)。次に部分字幕データ25を読み出す(S25)。部分字幕データ25のデータが「CS」であるかどうかを判断する(S34)。部分字幕データ25は制御データである「CS」であるので、次のステップへ進んで、カウンタ値nが0より大きく且つ表示終了時刻Tce(n)が未決定であるかどうかを判断する(S35)。いま、カウンタ値はn=1であり表示終了時刻Tce(1)が未決定であるので、解析中時刻Tccを表示終了時刻Tce(1)とし、保持している文字数Ncを文字数Nc(1)とする(S36)。ここまでで、カウンタ値n=1に対して表示開始時刻Tcs(1)、表示終了時刻Tce(1)、及び文字数Nc(1)が決定する。
Subsequently, the next
続いて、次の部分字幕データ26を読み出す(S25)。部分字幕データ26は文字データであるので、文字データの文字数を算出し、文字数Ncとして保持する(S28)。カウンタ値nが0より大きく且つ表示終了時刻Tce(n)が未決定であるかどうかを判断し(S29)、カウンタ値はn=1であり、表示終了時間Tce(1)がすでに決定しているので、カウンタ値をインクリメントしてn=2とし、解析中時刻Tccを表示開始時刻Tcs(2)とする(S31)。
Subsequently, the next
続いて、部分字幕データを読み出す(S25)し、データがあるかどうかを判断する(S26)。字幕データ22には部分字幕データ26に続く部分字幕データが存在しないので、データがないと判断してS22に戻り、次の字幕PESを検索する(S22)。続いて、字幕PESを検出したかどうかを判断し(S23)、次の字幕PES30を検出すると、当該字幕PES30のタイムスタンプ31に記述したタイムスタンプTptsを抽出し、解析中時刻Tccを算出する(S24)。次に、検出した字幕PES30の字幕データ32から部分字幕データ33を読み出す(S25)。読み出した部分字幕データ33を解析し、データが含まれるかどうかを判断し(S26)、部分字幕データ33のデータが文字データであるかどうかを判断する(S27)。部分字幕データ33には文字データが含まれているので、文字データの文字数を算出し、文字数Ncとして保持する(S28)。続いて、カウンタ値nが0より大きく且つ表示終了時刻Tce(n)が未決定であるかどうかを判断する(S29)。ここでカウンタ値はn=2であり、表示終了時間Tce(2)が未決定であるので(S29のYES肢)、解析中時刻Tccを表示終了時間Tce(2)とし、保持している文字数Ncを文字数Nc(2)とする(S30)。ここまでで、カウンタ値n=2に対して表示開始時刻Tcs(2)、表示終了時刻Tce(2)、及び文字数Nc(2)が決定する。これに続いてカウンタ値をインクリメントしてn=3とし、解析中時刻Tccを表示開始時刻Tcs(3)とする(S31)。
Subsequently, partial subtitle data is read (S25), and it is determined whether there is data (S26). Since there is no partial caption data following the
続いて部分字幕データを読み出すし(S25)、データがあるかどうかを判断する(S26)。字幕データ32には部分字幕データ33に続く部分字幕データが存在しないので、データがないと判断してS22に戻り、次の字幕PESを検索する(S22)。このような処理を繰り返して字幕PES40、字幕PES50、及びそれ以降の全ての字幕PESについて同様に解析し、順次字幕テーブルの表示開始時刻、表示終了時刻、及び字幕文字数を決定する。
Subsequently, partial subtitle data is read (S25), and it is determined whether there is data (S26). Since there is no partial subtitle data following the
全ての字幕PESの解析が終了し、検出すべき字幕PESが無くなると、カウンタ値nが0より大きく且つ表示終了時刻Tce(n)が未決定であるかどうかを判断する(S37)。現在のカウンタ値nがn>0でありかつ表示終了時刻Tce(n)が未決定であるので、表示終了時刻Tce(n)にストリームの終端時刻を代入し、保持している文字数Ncを文字数Nc(n)とする(S38)。これで、最終の文字データについても表示開始時刻、表示終了時刻、及び字幕文字数が決定したので、字幕の表示開始時刻Tcs(k)(kは1からnまでの各整数)、表示終了時刻Tce(k)、及び字幕文字数Nc(k)を蓄積部11に記録し(S39)、字幕テーブル生成の一連のフローを終了する。なお、S37で現在のカウンタ値nがn>0でありかつ表示終了時刻Tce(n)が未決定でなければ、直ちに字幕テーブルを蓄積部11に記録して(S39)、字幕テーブル生成の一連のフローを終了する。 When the analysis of all subtitles PES is completed and there are no more subtitles PES to be detected, it is determined whether the counter value n is greater than 0 and whether the display end time Tce (n) is undetermined (S37). Since the current counter value n is n> 0 and the display end time Tce (n) is undecided, the end time of the stream is substituted for the display end time Tce (n), and the retained character count Nc is the number of characters. Nc (n) is set (S38). Since the display start time, the display end time, and the number of subtitle characters have been determined for the final character data, the subtitle display start time Tcs (k) (k is an integer from 1 to n) and the display end time Tce. (K) and the number of subtitle characters Nc (k) are recorded in the storage unit 11 (S39), and the series of subtitle table generation flow is terminated. If the current counter value n is n> 0 and the display end time Tce (n) is not yet determined in S37, the caption table is immediately recorded in the storage unit 11 (S39), and a series of caption table generation is performed. End the flow.
なお、字幕解析部13は字幕文字数を算出する場合に、漢字の場合には読み仮名変換を行って実際の文字数を検出してもよい。例えば、文字データ“元気です”の場合4文字であるが、読み仮名変換すると“げんきです”となって5文字となるので、この場合当該文字データの字幕文字数は5とみなす。
Note that, when calculating the number of subtitle characters, the
<音声解析部14の動作>
図10は、音声解析部14の動作を示すフローチャートである。まず、音声解析部14は、先に生成された字幕テーブルから字幕の表示開始時刻Tcs及び表示終了時刻Tceを1つ目のデータから順に読み出す(S51)。続いて字幕テーブルの全てのデータを読み出したかどうかを判断する(S52)。字幕テーブルのデータから検出した表示開始時刻Tcsを解析中時刻Tccに代入する(S53)。そして、映像コンテンツデータ中で解析中時刻Tccの位置に該当する音声PESの音声データを解析し、音声の種類(音声ジャンル)、発声終了時刻、基本周波数及び音量の検出する(S54)。
<Operation of the
FIG. 10 is a flowchart showing the operation of the
ここで音声解析は、音声データを各音声ジャンルの音声データサンプル(応援・喝采、効果音、絶叫、解説・発声、音楽など)の音声波形と比較し、波形が類似しているジャンルに分類するのが一般的である。 Here, the voice analysis compares the voice data with the voice waveform of the voice data sample of each voice genre (support / 喝采, sound effects, screaming, commentary / speech, music, etc.), and classifies them into genres with similar waveforms. It is common.
S54の解析結果を音声テーブルのデータとして蓄積部11に格納する(S55)。S54で得られた音声終了時刻が字幕テーブルに示された表示終了時刻Tceを超えたかどうかを判断し(S56)、表示終了時刻Tceを超えていれば、S51に戻って字幕テーブルの次のデータの表示開始時刻Tcs及び表示終了時刻Tceを読み出す。一方、表示終了時刻Tceを超えていなければ、S54で得られた音声終了時刻を解析中時刻Tccとして(S57)、ステップS54に戻る。
The analysis result of S54 is stored in the
<シーン抽出部105の動作>
図11は、シーン抽出部105の動作を示すフローチャートである。まず、シーン抽出部15は、音声テーブルから1つ目の音声ジャンル、音声開始時刻、音声終了時刻、基本周波数、及び音量を読み出す(S61)。続いて音声テーブルの全てのデータを読み出したかどうかを判断する(S52)。音声テーブルのデータを最後まで読み出していれば処理を終了するが、まだ1つ目のデータを読み出しただけなので、処理はS63に進む。読み出した音声ジャンルが効果音“EFF”又は音楽“MSC”以外であるかどうかを判断し(S63)、効果音“EFF”又は音楽“MSC”であればステップS61に戻って次のデータを読み出す。一方、読み出した音声ジャンルが効果音“EFF”又は音楽“MSC”以外であれば、読み出した音声開始時刻及び音声終了時刻をダイジェストテーブルのデータとして蓄積部11に格納する(S64)。すなわち、音声ジャンルが効果音又は音楽のときの音声開始時刻から音声終了時刻までの期間はセリフのある期間とはみなさず、ダイジェストテーブルに記載する対象とはしない。
<Operation of Scene Extraction Unit 105>
FIG. 11 is a flowchart showing the operation of the scene extraction unit 105. First, the
次に、S61で読み出した音声開始時刻から音声終了時刻までの字幕文字数Ncを字幕テーブルから読み出し、読み出した字幕文字数Ncを該期間長で除する、または該期間長を読み出した字幕文字数Ncで除することによって発話速度を算出する(S65)。 Next, the number Nc of subtitle characters from the audio start time to the audio end time read in S61 is read from the subtitle table, and the read subtitle character number Nc is divided by the period length, or the period length is divided by the read subtitle character number Nc. As a result, the speech rate is calculated (S65).
さらに再生速度テーブルを参照して、算出した発話速度及びS61で読み出した基本周波数並びに音量を基にして再生速度を抽出し、この再生速度をS64で格納した音声開始時刻及び音声終了時刻に加えて、ダイジェストテーブルのデータとして蓄積部11に格納する(S66)。
Further, referring to the playback speed table, the playback speed is extracted based on the calculated speech speed and the basic frequency and volume read in S61, and this playback speed is added to the voice start time and voice end time stored in S64. The data is stored in the
その後処理はS61に戻って、音声テーブルから次のデータを読み出し同様の処理を繰り返す。音声テーブルのデータを最後まで読み出したかどうかをS62で判断し、最後まで読み出していればこの処理は終了する。このとき蓄積部11は、図7に示すダイジェストテーブルを格納している。
Thereafter, the processing returns to S61, the next data is read from the voice table, and the same processing is repeated. In step S62, it is determined whether or not the voice table data has been read to the end. If the data has been read to the end, this process ends. At this time, the
ダイジェスト生成部16は以上のような処理を経て生成されたダイジェストテーブルを参照して、蓄積部11に格納する映像コンテンツデータからダイジェストコンテンツを生成し蓄積部11に格納する。このときのダイジェストコンテンツは、ダイジェストテーブルに記載された部分は指定の再生速度で再生するものである。反対に、ダイジェストテーブルで記載されなかった部分については、全く再生しない、一定速度で再生する、当該部分の時間が長いほど高速で再生する、番組の経過とともに速度を速めて再生する等するものである。
The digest
なお、本実施の形態のダイジェストは、ダイジェストテーブルに記載された部分以外を一定速度で再生するものであるが、ダイジェストテーブルに記載された部分のみを抽出してダイジェストコンテンツを生成することもできる。これにより、さらに短時間のダイジェストコンテンツを生成することもできる。さらに、記載された部分の再生速度を重要度を示す指標とみなし、重要な部分として再生速度の低い部分のみを抽出してダイジェストコンテンツを生成することもできる。 Note that the digest of the present embodiment is to reproduce a part other than the part described in the digest table at a constant speed, but it is also possible to extract only the part described in the digest table and generate the digest content. This makes it possible to generate digest content for a shorter time. Furthermore, the playback speed of the described part can be regarded as an index indicating the importance, and only the part with a low playback speed can be extracted as the important part to generate the digest content.
本実施の形態のダイジェスト作成装置によると、基本周波数、音量、及び発話速度を基にして場面に適した再生速度のダイジェストコンテンツを生成することができる。このためユーザは、セリフを聞きもらさないだけでなく、出演者の感情が高揚しているような重要な場面を見逃すこともなく、短時間で効率的な視聴が可能となる。 According to the digest creation device of the present embodiment, digest content with a playback speed suitable for a scene can be generated based on the fundamental frequency, volume, and speech rate. For this reason, the user can not only listen to the speech but also miss an important scene where the performer's emotions are uplifted, and can efficiently watch in a short time.
なお、本実施の形態の再生速度テーブルは、基本周波数、音量、及び発話速度のパラメータをそれぞれ高低または大小の2段階に分けて組み合わせを作り、それぞれの組み合わせに応じた再生速度を指定しているが、2段階に限らずより多くの段階に分けてもよい。また、それぞれの組み合わせ方を変えた再生速度テーブルでもよいし、パラメータに優先順位を付け、優先順位の高いパラメータから順に値を判定して再生速度を指定する再生速度テーブルでもよい。 In the playback speed table of the present embodiment, the basic frequency, volume, and speech speed parameters are divided into two levels, high, low, and large, and combinations are made, and the playback speeds corresponding to the combinations are designated. However, it is not limited to two stages and may be divided into more stages. Also, a playback speed table in which the respective combinations are changed may be used, or a playback speed table in which priorities are assigned to parameters, and values are determined in order from parameters with higher priorities to specify playback speeds.
(第2の実施の形態)
以下、本発明の第2の実施の形態について、図面を参照しながら説明する。図12は、本実施の形態に係るダイジェスト作成装置の構成を示す図である。ダイジェスト作成装置2は、入力処理部12、ダイジェスト生成部16、出力インタフェース(I/F)18、蓄積部21、字幕解析部23、シーン抽出部25、及び制御部27を備えている。尚、入力処理部12、ダイジェスト生成部16、制御部17、及び出力インタフェース(I/F)18は第1の実施の形態の図1で示したものと同様のものである。また、以下の説明で用いる図13に示す字幕テーブルは、第1の実施の形態の図4で示したものと同様である。
(Second Embodiment)
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings. FIG. 12 is a diagram showing a configuration of the digest creation device according to the present embodiment. The digest
蓄積部21は、例えばテレビ番組や映画等の映像コンテンツデータを始め、後述する字幕テーブル、再生速度テーブル、ダイジェストテーブル、及び映像コンテンツを要約したダイジェストコンテンツを格納するものである。具体的に蓄積部21は、半導体メモリ、ハードディスクドライブ、光ディスクドライブ、またはその他の記憶装置である。 The storage unit 21 stores, for example, video content data such as a television program and a movie, a subtitle table, a playback speed table, a digest table, and digest content summarizing the video content, which will be described later. Specifically, the storage unit 21 is a semiconductor memory, a hard disk drive, an optical disk drive, or other storage device.
字幕解析部23は、蓄積部21が格納する映像コンテンツデータを解析し、映像コンテンツデータに含まれる各々の字幕の表示が始まる字幕表示開始時刻、字幕の表示が終わる字幕表示終了時刻、及び字幕文字数を検出し、これら字幕表示開始時刻、字幕表示終了時刻、字幕文字数、及び発話速度を後述する字幕テーブルとして蓄積部21に格納するものである。尚、字幕表示開始時刻から字幕表示開始時刻までを字幕表示時間という。
The
シーン抽出部25は、蓄積部21に格納された字幕テーブルの中から字幕表示開始時刻Ts、字幕表示終了時刻Te、及び字幕文字数Ncを抽出する。その上で字幕文字数Ncと、字幕表示開始時刻Tsから字幕表示終了時刻Teまでの字幕が表示される時間の長さとを用いて発話速度Svを以下の式で算出する。
Sv=(Te−Ts)/Nc
さらにシーン抽出部15は、この発話速度と再生速度テーブルとを用いて字幕表示開始時刻から字幕表示終了時刻までの間での再生速度を指定し、後述するダイジェストテーブルを生成し蓄積部21に格納するものである。
The
Sv = (Te−Ts) / Nc
Furthermore, the
制御部27は、字幕解析部23、シーン抽出部25及びダイジェスト生成部16の各動作を制御する。制御部27はさらに、蓄積部21からダイジェストコンテンツを適宜読み出して、出力インタフェース18を通じて外部に出力するものである。
The
次に再生速度テーブルについて説明する。図14は、本実施の形態の再生速度テーブルを示す図である。本図は発話速度を低、中、高の3つに分類して、それぞれの発話速度ごとに1つずつの再生速度を指定している。例えば、発話速度が高ければ聞き取りが困難になりやすいため再生速度を通常の再生速度である1.0倍速に指定し、発話速度が中程度であれば再生速度を多少高めても聞き取れるので再生速度を1.5倍速に指定している。さらに、発話速度が低くゆっくりであれば再生速度を2.0倍速に指定している。このよう再生速度テーブルは、発話速度に対して映像コンテンツの再生速度を指定するためのものである。 Next, the playback speed table will be described. FIG. 14 is a diagram showing a playback speed table of the present embodiment. In this figure, speaking speeds are classified into three, low, medium and high, and one playback speed is designated for each speaking speed. For example, if the utterance speed is high, the listening speed is likely to be difficult, so the playback speed is designated as the normal playback speed of 1.0 times speed, and if the utterance speed is medium, the playback speed can be heard even if the playback speed is slightly increased. Is specified at 1.5 times speed. Furthermore, if the speech rate is low and slow, the playback speed is specified as 2.0 times speed. Such a playback speed table is for designating the playback speed of the video content with respect to the speech speed.
次にダイジェストテーブルについて説明する。図15は、本実施の形態のダイジェストテーブルを示す図である。本図は、図13の字幕テーブルにおけるNo.1〜No.5に対して、図14の再生速度テーブルを基に再生速度を付加してできたテーブルである。このテーブルでは例えばNo.1において、字幕表示開始時刻00:01:15から字幕表示終了時刻00:01:22までは、2.0倍速で再生することを示している。 Next, the digest table will be described. FIG. 15 is a diagram showing a digest table of the present embodiment. This figure shows No. in the caption table of FIG. 1-No. 5 is a table obtained by adding a reproduction speed based on the reproduction speed table of FIG. In this table, for example, No. 1 shows that the subtitle display start time 00:01:15 to the subtitle display end time 00:01:22 is reproduced at 2.0 times speed.
このような構成のダイジェスト作成装置2の動作について以下に説明する。まず、入力処理部12は映像コンテンツデータを受信して蓄積部21に記録する。次に、字幕解析部13は映像コンテンツデータを解析して第1の実施の形態と同様に字幕テーブルを生成し、この字幕テーブルを蓄積部21に記録する。続いてシーン抽出部105は、字幕テーブル中の情報である字幕表示開始時刻、字幕表示終了時刻、及び字幕文字数を抽出して発話速度を算出する。さらにシーン抽出部105は再生速度テーブルを参照して算出した発話速度に対応する再生速度を検出し、字幕表示時間における再生速度を指定する。このとき字幕表示開始時刻、字幕表示終了時刻、及び再生速度をダイジェストテーブルとして蓄積部21に記録する。
The operation of the digest creating
その後ダイジェスト生成部16は、ダイジェストテーブルを参照して映像コンテンツのダイジェストコンテンツを生成し、当該生成されたダイジェストを蓄積部11に格納するか出力インタフェース18を介して外部に出力する。以上のようにして、音声データの解析がなくても字幕表示時間と字幕文字数とによってダイジェストコンテンツを生成することができる。
Thereafter, the digest
なお、番組のジャンル別に、再生速度テーブルを用意してもよい。例えばスポーツ、ドラマ、ニュースなど、映像コンテンツのジャンル別に再生速度テーブルを用意して、映像コンテンツのジャンルに合わせて装置が再生速度テーブルを使い分けてもよい。また、例えばスポーツを野球、サッカー、相撲などに、ドラマをサスペンス、SF、アクションなどに、より細かくジャンル分けして再生速度テーブルを用意しておき、ユーザの指定によって再生速度テーブルを使いわけてもよい。この場合でも、本発明の実施の形態で説明したダイジェストテーブルを生成することができ、映像コンテンツのダイジェストを生成することができる。 A playback speed table may be prepared for each program genre. For example, a playback speed table may be prepared for each genre of video content such as sports, dramas, and news, and the apparatus may use the playback speed table in accordance with the genre of the video content. Further, for example, a playback speed table may be prepared by dividing a genre into finer categories such as sports for baseball, soccer, sumo, etc., drama for suspense, SF, action, etc., and the playback speed table may be used according to user designation. Even in this case, the digest table described in the embodiment of the present invention can be generated, and a digest of video content can be generated.
また、表示される字幕文字数が多い場合、字幕を読むことで内容を理解しやすくなるため、所定の再生速度よりもやや再生速度を高めてもよい。また、第1の実施の形態では基本周波数、音量、及び発話速度を、また第2の実施の形態では発話速度を基にして再生速度を決定したが、番組のジャンルや各音声の種類を再生速度決定に用いてもよい。 In addition, when the number of subtitle characters to be displayed is large, reading the subtitle makes it easier to understand the content, so the playback speed may be slightly higher than the predetermined playback speed. In the first embodiment, the playback speed is determined based on the fundamental frequency, the volume, and the speech speed. In the second embodiment, the playback speed is determined based on the speech speed. It may be used for speed determination.
なお、映像コンテンツのデータはアナログAV信号などであってもよい。アナログAV信号の場合や字幕が映像信号に重畳されている場合には、入力処理部102は、画像認識によって映像フレームから字幕データを抽出するようにしてもよい。これにより、字幕ストリームが存在しない場合であっても字幕の表示開始時刻及び表示終了時刻を算出することができる。すなわち、本発明はアナログ映像信号のコンテンツについても上記と同様の効果を奏する。 The video content data may be an analog AV signal or the like. In the case of an analog AV signal or when captions are superimposed on the video signal, the input processing unit 102 may extract caption data from the video frame by image recognition. Thereby, even when there is no subtitle stream, the subtitle display start time and display end time can be calculated. That is, the present invention provides the same effect as described above for the content of the analog video signal.
本発明に係るダイジェスト作成装置は、DVD記録再生装置、デジタルテレビジョン装置、携帯電話機、ポータブルコンテンツプレーヤ、カーナビゲーション装置などに有用である。 The digest creation device according to the present invention is useful for DVD recording / playback devices, digital television devices, mobile phones, portable content players, car navigation devices, and the like.
1、2 ダイジェスト作成装置
12 入力処理部
11、21 蓄積部
13 字幕解析部
14 音声解析部
15、25 シーン抽出部
16 ダイジェスト生成部
17、27 制御部
18 出力I/F
DESCRIPTION OF
Claims (15)
前記映像コンテンツで表示される字幕の文字数及び字幕表示時間を検出する字幕解析部と、
字幕の文字数、及び当該字幕表示時間から発話速度を算出し、当該発話速度を基に前記字幕表示時間での映像コンテンツの再生速度を決定するシーン抽出部と、
前記シーン抽出部により決定された再生速度に従ってダイジェストコンテンツを生成するダイジェスト生成部と、を備えるダイジェスト作成装置。 A digest creation device that generates digest content summarizing video content,
A subtitle analysis unit for detecting the number of subtitle characters and subtitle display time displayed in the video content;
A scene extraction unit that calculates the utterance speed from the number of subtitle characters and the subtitle display time, and determines the playback speed of the video content at the subtitle display time based on the utterance speed;
A digest creation device comprising: a digest generation unit that generates digest content according to the playback speed determined by the scene extraction unit.
前記映像コンテンツで表示される字幕の文字数及び字幕表示時間を検出する字幕解析部と、
前記字幕表示時間に再生される映像コンテンツの音声を解析し、基本周波数、音量のうちの少なくとも1つと音声再生時間とを検出する音声解析部と、
前記字幕の文字数、及び音声再生時間から発話速度を算出し、前記基本周波数、音量、の少なくとも1つ及び発話速度を基にして当該音声再生時間での映像コンテンツの再生速度を決定するシーン抽出部と、
前記シーン抽出部により決定された再生速度に従ってダイジェストコンテンツを生成するダイジェスト生成部と、を備えるダイジェスト作成装置。 A digest creation device that generates digest content summarizing video content,
A subtitle analysis unit for detecting the number of subtitle characters and subtitle display time displayed in the video content;
An audio analysis unit that analyzes audio of the video content played during the caption display time and detects at least one of a fundamental frequency and a volume and an audio playback time;
A scene extraction unit that calculates an utterance speed from the number of characters of the subtitles and an audio playback time, and determines a playback speed of video content at the audio playback time based on at least one of the fundamental frequency and volume and the utterance speed When,
A digest creation device comprising: a digest generation unit that generates digest content according to the playback speed determined by the scene extraction unit.
複数の段階に分けた発話速度を基に、各段階の発話速度に対応した再生速度を決定する請求項1に記載のダイジェスト作成装置。 The scene extraction unit
The digest creation device according to claim 1, wherein a reproduction speed corresponding to the utterance speed of each stage is determined based on the utterance speed divided into a plurality of stages.
複数の段階に分けた発話速度と、複数の段階に分けた基本周波数と、複数の段階に分けた音量を基に、対応する再生速度を決定する請求項5に記載のダイジェスト作成装置。 The scene extraction unit
6. The digest creation device according to claim 5, wherein a corresponding playback speed is determined based on an utterance speed divided into a plurality of stages, a fundamental frequency divided into a plurality of stages, and a volume divided into a plurality of stages.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007146917A JP2008301340A (en) | 2007-06-01 | 2007-06-01 | Digest creating apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007146917A JP2008301340A (en) | 2007-06-01 | 2007-06-01 | Digest creating apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008301340A true JP2008301340A (en) | 2008-12-11 |
Family
ID=40174398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007146917A Pending JP2008301340A (en) | 2007-06-01 | 2007-06-01 | Digest creating apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008301340A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014123898A (en) * | 2012-12-21 | 2014-07-03 | Toshiba Corp | Electronic apparatus and reproduction control method |
CN111694984A (en) * | 2020-06-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | Video searching method and device, electronic equipment and readable storage medium |
WO2020251122A1 (en) * | 2019-06-12 | 2020-12-17 | 삼성전자주식회사 | Electronic device for providing content translation service and control method therefor |
-
2007
- 2007-06-01 JP JP2007146917A patent/JP2008301340A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014123898A (en) * | 2012-12-21 | 2014-07-03 | Toshiba Corp | Electronic apparatus and reproduction control method |
WO2020251122A1 (en) * | 2019-06-12 | 2020-12-17 | 삼성전자주식회사 | Electronic device for providing content translation service and control method therefor |
CN111694984A (en) * | 2020-06-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | Video searching method and device, electronic equipment and readable storage medium |
CN111694984B (en) * | 2020-06-12 | 2023-06-20 | 百度在线网络技术(北京)有限公司 | Video searching method, device, electronic equipment and readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4081120B2 (en) | Recording device, recording / reproducing device | |
EP2107477B1 (en) | Summarizing reproduction device and summarizing reproduction method | |
JP4767216B2 (en) | Digest generation apparatus, method, and program | |
JP3748936B2 (en) | Information recording apparatus and method, and information reproducing apparatus and method | |
JP4331217B2 (en) | Video playback apparatus and method | |
JP4835321B2 (en) | Program providing method, program providing method program, recording medium recording program providing method program, and program providing apparatus | |
WO2010073355A1 (en) | Program data processing device, method, and program | |
JPH09251717A (en) | Information recording medium and its recorder and reproducer | |
KR100604831B1 (en) | Audio and video player synchronizing ancillary word and image to audio and method thereof | |
JP2008301340A (en) | Digest creating apparatus | |
JP5033653B2 (en) | Video recording / reproducing apparatus and video reproducing apparatus | |
JP2006180306A (en) | Moving picture recording and reproducing apparatus | |
JP2006165772A (en) | Information reproducing apparatus and method therefor | |
JP2008020767A (en) | Recording and reproducing device and method, program, and recording medium | |
JP2008124551A (en) | Digest preparation device | |
JP2007097015A (en) | Reproducing apparatus, recording and reproducing apparatus, data processing method, and program thereof | |
US20060263062A1 (en) | Method of and apparatus for setting video signal delimiter information using silent portions | |
JP4666175B2 (en) | Recording / reproducing apparatus and reproducing apparatus | |
JP2014207619A (en) | Video recording and reproducing device and control method of video recording and reproducing device | |
JP2003230094A (en) | Chapter creating apparatus, data reproducing apparatus and method, and program | |
JP4760893B2 (en) | Movie recording / playback device | |
JP2016116098A (en) | Video recording and reproducing device | |
JP2007329605A (en) | Reproducing apparatus and line searching method | |
JP2006157108A (en) | Video image recording/reproducing apparatus | |
JP4312167B2 (en) | Content playback device |