JP2012204876A - Reproduction device, reproduction method and program - Google Patents

Reproduction device, reproduction method and program Download PDF

Info

Publication number
JP2012204876A
JP2012204876A JP2011064900A JP2011064900A JP2012204876A JP 2012204876 A JP2012204876 A JP 2012204876A JP 2011064900 A JP2011064900 A JP 2011064900A JP 2011064900 A JP2011064900 A JP 2011064900A JP 2012204876 A JP2012204876 A JP 2012204876A
Authority
JP
Japan
Prior art keywords
video
audio
importance
voice
reproduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011064900A
Other languages
Japanese (ja)
Other versions
JP5696552B2 (en
Inventor
Masahiro Sumiya
政宏 角谷
Yoshikazu Shimada
美和 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011064900A priority Critical patent/JP5696552B2/en
Publication of JP2012204876A publication Critical patent/JP2012204876A/en
Application granted granted Critical
Publication of JP5696552B2 publication Critical patent/JP5696552B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a reproducing device, a reproducing method and a program capable of establishing synchronization between video and voice without uncomfortable feeling.SOLUTION: In a reproducing device of video and voice, a deviation determining part determines the deviation amount between video data and voice data reproduced by a decoding reproduction part at the time of reproduction. A video importance degree calculation part calculates the degree of importance of video showing the degree of complexity of video reproduced by the video data. A voice importance degree calculation part calculates the degree of importance of voice showing characteristics of voice volume reproduced by the voice data. An automatic correction part controls reproduction of the video data and the voice data so that deviation between the video data and the voice data during reproduction is corrected based on the degree of importance of video, the degree of importance of voice and the deviation amount.

Description

本発明は、再生装置、再生方法およびプログラムに関する。   The present invention relates to a playback device, a playback method, and a program.

動画のコンテンツにおいては、映像と音声が別々の切り離された情報であるため、映像と音声との同期をとる必要がある。しかし、例えばフレームレートが30fpsのコンテンツで、1秒間あたり30枚と決まっている映像に対し、音声は連続したストリームであり、映像1枚ごとに対応して区切られた音声があるわけではない。また、映像と音声はそれぞれのデータ量に差がある。特に、映像データと音声データのデータ量が大きく違ってくる理由として、映像のデータ量は、高画質になるにしたがって飛躍的に大きくなること、同じ動画内であっても、画面の精細度によって一定時間あたりのデータ量が大きく変化することなどがある。これに対し、音声データ量は大きく変化しない。   In video content, since video and audio are separate pieces of information, it is necessary to synchronize video and audio. However, for example, for content with a frame rate of 30 fps and video that is determined to be 30 frames per second, the audio is a continuous stream, and there is no audio divided for each video. Also, there is a difference in the amount of data between video and audio. In particular, the reason for the large difference between the amount of video data and the amount of audio data is that the amount of video data increases dramatically as the image quality becomes higher. The amount of data per fixed time may change greatly. On the other hand, the amount of audio data does not change greatly.

このように、映像データはフレームなどによる区切りがあるのに対し、音声データが区切りのないデータであること、音声データと映像データは、データ量に差があること等が、映像と音声のずれの原因となる。しかし、映像と音声との同期をとることは人手によるところが大きく、必ずしも正確とはいえないため、ずれの少ない同期を実行することが課題である。   In this way, while video data is separated by frames, etc., audio data is not separated, and there is a difference in the amount of data between audio data and video data. Cause. However, since synchronization between video and audio is largely manual and not necessarily accurate, it is a problem to execute synchronization with little deviation.

このような課題に対応する例として、例えば、映像と音声とを別々のクロックで再生する再生装置がある。この再生装置では、動画データの再生に先立ち音声データを無音再生させ、その再生時間から音声データ用クロックと映像データ用クロックとの誤差を演算し、再生時のタイミングを調整する。また、映像データと音声データとの再生位置のずれを、音量レベルが特定値よりも低い区間の音声データの再生速度を変更することにより同期させる方法もある。さらに、音声データを一定時間周期で区切り、データを接続することにより再生速度を変更する例もある。再生速度の変更は、区切り位置近くの音声データの波形スタイルに応じて、切り出し開始および終了点を決めて波形を接続することにより行う。   As an example corresponding to such a problem, for example, there is a reproducing apparatus that reproduces video and audio with different clocks. In this reproducing apparatus, audio data is silently reproduced prior to reproduction of moving image data, an error between the audio data clock and the video data clock is calculated from the reproduction time, and the timing at the time of reproduction is adjusted. There is also a method of synchronizing the reproduction position deviation between the video data and the audio data by changing the reproduction speed of the audio data in the section where the volume level is lower than a specific value. Further, there is an example in which the playback speed is changed by dividing the audio data at a constant time period and connecting the data. The reproduction speed is changed by determining the start and end points of cutout and connecting the waveforms according to the waveform style of the audio data near the break position.

特開2004−7140号公報Japanese Patent Laid-Open No. 2004-7140 特開2006−050362号公報JP 2006-050362 A 特開平06−259093号公報Japanese Patent Application Laid-Open No. 06-259093

しかしながら、上記のように、単に映像と音声とを再生速度を変えることにより同期させる方法では、同期する瞬間に音声または映像あるいはその両方が途切れてしまうことがあり、視聴者に違和感や不快感をもたらす。また、他の処理の割り込み等があってリアルタイム処理ができない状態が継続し、映像と音声の同期がずれてしまった場合には、そのずれを修正することが難しい。すなわち処理能力の不足のため、再生映像がコマ落ちしてしまう、音声が途切れてしまう、ずれがある一定間隔のまま修正されない、など、視聴者に違和感、不快感を与える問題がある。   However, as described above, in the method of simply synchronizing video and audio by changing the playback speed, the audio and / or video may be interrupted at the moment of synchronization, causing the viewer to feel uncomfortable or uncomfortable. Bring. In addition, when there is an interruption of other processing and the state where real-time processing cannot be continued, and the video and audio are out of synchronization, it is difficult to correct the shift. That is, there is a problem that the viewer feels uncomfortable or uncomfortable, for example, the playback video drops, the sound is interrupted, or the deviation is not corrected at a certain interval due to insufficient processing capability.

そこで本発明は、違和感のない映像と音声との同期が可能な再生装置、再生方法を提供することを目的とする。   Accordingly, an object of the present invention is to provide a playback apparatus and a playback method that can synchronize video and audio without a sense of incongruity.

ひとつの態様である再生装置は、符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生装置である。この再生装置において、信号取得部は、前記ストリームを取得する。復号再生部は、取得した前記ストリームを分離して復号化することにより、映像データおよび音声データを生成し、第1のずれ判定時間における第1の映像および第1の音声を再生する。ずれ判定部は、前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定する。映像重要度算出部は、前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出する。音声重要度算出部は、前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出する。自動補正部は、前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2の映像および前記第2の音声の再生を制御することを特徴としている。   A playback apparatus according to one aspect is a playback apparatus that acquires a stream including encoded video and audio and plays back the video and audio. In this playback apparatus, the signal acquisition unit acquires the stream. The decoding / playback unit generates video data and audio data by separating and decoding the acquired stream, and plays back the first video and the first audio at the first shift determination time. The deviation determination unit determines an amount of deviation at the time of reproduction between the first video and the first audio during the first deviation determination time. The video importance level calculation unit calculates a video importance level indicating a degree of complexity of the second video to be reproduced in a second shift determination time next to the first shift determination time. The voice importance level calculation unit calculates a voice importance level indicating a volume characteristic of the second voice reproduced at a second shift determination time next to the first shift determination time. The automatic correction unit reproduces the second video and the second audio so as to correct a deviation in reproduction between the video and the audio based on the video importance, the audio importance, and the shift amount. It is characterized by control.

別の態様である再生方法は、符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生方法である。この再生方法においては、前記ストリームを取得し、第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、前記第1のずれ判定時間における第1の映像と第1の音声との再生時のずれ量を判定する。また、前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出する。この再生方法では、前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御することを特徴としている。   The reproduction method which is another aspect is a reproduction method for acquiring a stream including encoded video and audio and reproducing the video and audio. In this reproduction method, the stream is acquired, the first video and the first audio are reproduced based on the first deviation determination time and the stream, and the first video and the first audio at the first deviation judgment time are reproduced. A deviation amount at the time of reproduction with the sound of 1 is determined. In addition, a video importance level indicating a degree of complexity of the second video to be played back at the second shift determination time next to the first shift determination time is calculated, and played back at the second shift determination time. The voice importance indicating the volume characteristic of the second voice is calculated. In this reproduction method, the second video and the second video at the second deviation determination time so as to correct a deviation at the time of reproduction between the video and the audio based on the video importance, the audio importance, and the deviation amount. The reproduction of the second sound is controlled.

なお、上述した本発明に係る方法をコンピュータに行わせるためのプログラムであっても、このプログラムを当該コンピュータによって実行させることにより、上述した本発明に係る方法と同様の作用・効果を奏するので、前述した課題が解決される。   In addition, even if it is a program for causing a computer to perform the method according to the present invention described above, since the program is executed by the computer, the same operations and effects as the method according to the present invention described above are achieved. The aforementioned problems are solved.

上述した態様によれば、違和感のない映像と音声との同期が可能な再生装置、再生方法およびプログラムが提供される。   According to the above-described aspect, a playback device, a playback method, and a program that can synchronize video and audio without a sense of incongruity are provided.

一実施の形態による再生装置の構成を示すブロック図である。It is a block diagram which shows the structure of the reproducing | regenerating apparatus by one Embodiment. 一実施の形態による再生装置の機能を示すブロック図である。It is a block diagram which shows the function of the reproducing | regenerating apparatus by one Embodiment. 一実施の形態による再生装置の機能を示すブロック図である。It is a block diagram which shows the function of the reproducing | regenerating apparatus by one Embodiment. 一実施の形態による再生装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the reproducing | regenerating apparatus by one Embodiment. 一実施の形態による再生装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the reproducing | regenerating apparatus by one Embodiment. 一実施の形態による再生装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the reproducing | regenerating apparatus by one Embodiment. 一実施の形態による再生装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the reproducing | regenerating apparatus by one Embodiment. 一実施の形態による周波数領域毎の音量の算出方法を説明する図である。It is a figure explaining the calculation method of the sound volume for every frequency domain by one embodiment. 標準的なコンピュータのハードウエア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of a standard computer.

以下、図面を参照して実施の形態を説明する。まず、図1および図2A、図2Bを参照しながら、一実施の形態による再生装置1の構成について説明する。図1は、本実施の形態による再生装置の構成を示すブロック図、図2A、図2Bは、本実施の形態による再生装置1の機能を示すブロック図である。本実施の形態による再生装置1は、ローカル環境において映像及び音声のコンテンツデータをデコードし再生する際に、音声および映像を同期させる機能を有する。再生装置1は、例えば、携帯情報端末(Personal Data Assistants:PDA)、パーソナルコンピュータ(Personal Computer:PC)、移動電話機などとして実現される。   Hereinafter, embodiments will be described with reference to the drawings. First, the configuration of the playback apparatus 1 according to an embodiment will be described with reference to FIGS. 1, 2A, and 2B. FIG. 1 is a block diagram illustrating a configuration of a playback device according to the present embodiment, and FIGS. 2A and 2B are block diagrams illustrating functions of the playback device 1 according to the present embodiment. The playback device 1 according to the present embodiment has a function of synchronizing audio and video when decoding and reproducing video and audio content data in a local environment. The playback device 1 is realized as, for example, a personal information terminal (PDA), a personal computer (PC), a mobile phone, or the like.

図1に示すように、再生装置1は、入力再生部5、ずれ判定部7、音声重要度判定部9、映像重要度判定部11、比較評価部13、自動補正部15、記憶部35、タイマ37を有し、互いにシステムバス17で接続され、主制御部3により制御される。入力再生部5は、信号取得部19、分離部21、音声復号部23、音声再生部25、映像復号部27、映像再生部29を有している。自動補正部15は、音声操作部31、映像操作部33を有している。   As shown in FIG. 1, the playback device 1 includes an input playback unit 5, a shift determination unit 7, an audio importance level determination unit 9, a video importance level determination unit 11, a comparative evaluation unit 13, an automatic correction unit 15, a storage unit 35, A timer 37 is included, connected to each other via the system bus 17 and controlled by the main control unit 3. The input reproduction unit 5 includes a signal acquisition unit 19, a separation unit 21, an audio decoding unit 23, an audio reproduction unit 25, a video decoding unit 27, and a video reproduction unit 29. The automatic correction unit 15 includes an audio operation unit 31 and a video operation unit 33.

図1、図2A、図2Bに示すように信号取得部19は、符号化された映像データおよび符号化された音声データを含むストリーム53を取得する。分離部21は、信号取得部19で取得されたストリーム53を符号化された映像データの映像ストリーム57と符号化された音声データの音声ストリーム55とに分離する。   As illustrated in FIGS. 1, 2A, and 2B, the signal acquisition unit 19 acquires a stream 53 including encoded video data and encoded audio data. The separation unit 21 separates the stream 53 acquired by the signal acquisition unit 19 into a video stream 57 of encoded video data and an audio stream 55 of encoded audio data.

音声復号部23は、音声ストリーム55を復号化しつつ、自動補正部15からの出力に応じた操作を行って、再生可能な音声データを生成する。音声再生部25は、自動補正部15からの再生開始箇所に関する情報と音声復号部23からの音声データとに基づき、音声を再生する。映像復号部27は、映像ストリーム57を復号化し、自動補正部15からの出力に応じた操作を行って、再生可能な映像データを生成する。映像再生部29は、自動補正部15からの再生開始箇所に関する情報と、映像復号部27からの映像データとに基づき映像を再生する。   The audio decoding unit 23 decodes the audio stream 55 and performs an operation according to the output from the automatic correction unit 15 to generate reproducible audio data. The audio reproduction unit 25 reproduces audio based on the information regarding the reproduction start location from the automatic correction unit 15 and the audio data from the audio decoding unit 23. The video decoding unit 27 decodes the video stream 57 and performs an operation according to the output from the automatic correction unit 15 to generate reproducible video data. The video playback unit 29 plays back the video based on the information regarding the playback start location from the automatic correction unit 15 and the video data from the video decoding unit 27.

ずれ判定部7は、音声再生部25で再生された音声と、映像再生部29で再生された映像とのずれ量を判定する。音声重要度判定部9は、音声復号部23で復号化された音声データに基づき音声重要度SLを算出する。映像重要度判定部11は、分離部21で分離された映像ストリーム57に基づき映像重要度ILを算出する。比較評価部13は、算出された音声重要度SLと映像重要度ILとを比較する。   The deviation determination unit 7 determines the amount of deviation between the audio reproduced by the audio reproduction unit 25 and the video reproduced by the video reproduction unit 29. The voice importance level determination unit 9 calculates the voice importance level SL based on the voice data decoded by the voice decoding unit 23. The video importance determination unit 11 calculates the video importance IL based on the video stream 57 separated by the separation unit 21. The comparative evaluation unit 13 compares the calculated audio importance level SL with the video importance level IL.

自動補正部15は、比較評価部13における比較結果に基づき、コンテンツデータの再生状態を自動的に補正する装置であり、音声操作部31においては音声データを操作し、映像操作部33においては映像データを操作する。音声操作部31においては、ずれ量および音声データに基づき、無音間引き操作61、無音補間操作63、または再生速度変更操作65の少なくとも一つが行われる。映像操作部33においては、ずれ量および映像データに基づき、フレーム間引き操作67、またはフレーム補間操作69が行われる。   The automatic correction unit 15 is a device that automatically corrects the reproduction state of the content data based on the comparison result in the comparative evaluation unit 13. The audio operation unit 31 operates audio data, and the video operation unit 33 displays video. Manipulate data. In the audio operation unit 31, at least one of the silent thinning operation 61, the silent interpolation operation 63, and the reproduction speed changing operation 65 is performed based on the deviation amount and the audio data. In the video operation unit 33, a frame thinning operation 67 or a frame interpolation operation 69 is performed based on the shift amount and the video data.

記憶部35は、Ramdom Access Memory(RAM)、Read Only Memory(ROM)等であり、上記操作を行うためのプログラムや、映像ストリーム57、復号化された映像データ、音声ストリーム55、復号化された音声データなどを格納する。主制御部3は、再生装置1の動作を制御するための演算処理装置である。   The storage unit 35 is a random access memory (RAM), a read only memory (ROM) or the like, and a program for performing the above operation, a video stream 57, decoded video data, an audio stream 55, a decoded Stores audio data. The main control unit 3 is an arithmetic processing device for controlling the operation of the playback device 1.

以下、図3から図5を参照しながら、本実施の形態による再生装置1の動作を説明する。図3、図4A〜図4Cは、再生装置1の動作を示すフローチャートである。図3に示すように、信号取得部19が動画コンテンツ等の符号化された音声データおよび映像データを含むストリームを取得し、ストリームは、分離部21により映像ストリームと音声ストリームに分離される(S100)。主制御部3は、ずれ判定部7により、閾値Aの設定を行う(S101)。音声復号部23は、音声ストリーム55についてある程度のバッファ分デコードを行うが、このバッファ長が閾値Aとされ、例えば1秒とすることができる。   Hereinafter, the operation of the playback apparatus 1 according to the present embodiment will be described with reference to FIGS. 3 to 5. 3 and 4A to 4C are flowcharts showing the operation of the playback apparatus 1. As shown in FIG. 3, the signal acquisition unit 19 acquires a stream including encoded audio data and video data such as moving image content, and the stream is separated into a video stream and an audio stream by the separation unit 21 (S100). ). The main control unit 3 sets the threshold value A by the deviation determination unit 7 (S101). The audio decoding unit 23 decodes the audio stream 55 by a certain amount of buffer. This buffer length is set as the threshold A, and can be set to 1 second, for example.

続いて、主制御部3は、ずれ判定部7により、閾値Bを、閾値Aに対応する動画のフレーム数として算出する(S101)。すなわち、ずれ判定部7は、ストリーム53から、閾値Aの時間に対応するフレーム数を算出し、これを閾値Bとする。例えば、閾値A=1秒のとき、動画のフレームレートから閾値B=30フレームと算出される。   Subsequently, the main control unit 3 calculates the threshold value B as the number of frames of the moving image corresponding to the threshold value A by the deviation determination unit 7 (S101). That is, the deviation determination unit 7 calculates the number of frames corresponding to the time of the threshold A from the stream 53 and sets this as the threshold B. For example, when the threshold A = 1 second, the threshold B = 30 frames is calculated from the frame rate of the moving image.

入力再生部5は、動画および音声の再生を開始するとともに、図示せぬ音声タイマ、動画カウンタを起動する(S102)。音声タイマは、計時機能を有し、音声の再生済みサンプル数を計数することにより、再生済みの音声の時間を計測する。すなわち、音声タイマの値は、再生済み音声サンプル数を音声のサンプリングレートで割ったものである。動画カウンタは、計数機能を有し、表示した映像のフレーム数を計数する。   The input reproduction unit 5 starts reproduction of moving images and sounds, and activates an unillustrated audio timer and moving image counter (S102). The audio timer has a time measuring function, and measures the time of reproduced audio by counting the number of reproduced samples of the audio. That is, the value of the audio timer is the number of reproduced audio samples divided by the audio sampling rate. The moving picture counter has a counting function and counts the number of frames of the displayed video.

入力再生部5は、動画を1フレーム再生する(S103)。すなわち、音声復号部23は、音声ストリーム55を復号化して音声データを作成し、音声再生部25は、音声データを再生する。また、映像復号部27は、映像ストリーム57を復号化し、映像データを作成し、映像再生部29は、動画を再生する。   The input playback unit 5 plays back one frame of the moving image (S103). That is, the audio decoding unit 23 decodes the audio stream 55 to create audio data, and the audio reproduction unit 25 reproduces the audio data. The video decoding unit 27 decodes the video stream 57 to create video data, and the video playback unit 29 plays back a moving image.

ずれ判定部7は、1フレーム再生された時点で、これまで再生された映像のフレーム数を示す動画カウンタの値(動画カウンタ値ICt)と閾値Bとを比較する(S104)。ずれ判定部7は、動画カウンタ値ICtが閾値Bに満たないと判別すると(S104:Yes)、現在映像再生部29が再生しているフレームが、映像ストリームのGroup of Pictures(GOP)端か否か判定する(S107)。現在再生しているフレームがGOP端でない場合には(S107:No)、処理はS103に戻り、追加で1フレーム再生を行う。   The deviation determination unit 7 compares the value of the moving image counter (moving image counter value ICt) indicating the number of frames of the image reproduced so far with the threshold value B when one frame is reproduced (S104). When the deviation determination unit 7 determines that the moving image counter value ICt does not satisfy the threshold value B (S104: Yes), whether or not the frame currently being reproduced by the video reproduction unit 29 is the end of the Group of Pictures (GOP) of the video stream. (S107). If the currently playing frame is not at the GOP end (S107: No), the process returns to S103, and one frame is played back additionally.

現在再生している部分がGOP端である場合には(S107:Yes)、音声と映像とは、GOP長に含まれる数のフレームが再生された際のずれを判定されることになる。ここで、ずれを判定される区間をずれ判定区間JAということにする。ここでは、ずれ判定区間JA=GOP長となる。   When the currently reproduced portion is the GOP end (S107: Yes), the difference between the audio and the video when the number of frames included in the GOP length is reproduced is determined. Here, the section in which the shift is determined is referred to as a shift determination section JA. Here, the deviation determination section JA = GOP length.

動画カウンタ値ICtが閾値B以上のときであって(S104:No)、動画カウンタ値ICtが閾値Bであれば(S105:Yes)、主制御部3は、S108に処理を進める。このとき、ずれ判定区間JA=閾値Bとなる。動画カウンタ値ICtが閾値Bより大きければ(S105:No)、主制御部3はエラーを出力し(S106)、処理を終了する。   If the moving image counter value ICt is equal to or greater than the threshold value B (S104: No) and the moving image counter value ICt is the threshold value B (S105: Yes), the main control unit 3 advances the process to S108. At this time, deviation determination section JA = threshold value B. If the moving image counter value ICt is larger than the threshold value B (S105: No), the main control unit 3 outputs an error (S106) and ends the process.

続いて、ずれ判定部7は、音声タイマの値(音声タイマ値ST)と、再生済み映像フレームに閾値Aを掛けて閾値Bで割ったもの(再生済み映像フレームにあたる時間)との差を算出する。すなわち、ずれ判定部7は、ずれ量L1として、(音声タイマ値ST−閾値A×(動画カウンタ値ICt/閾値B))の値を算出する。ずれ判定部7は、算出した値が、所定のずれ許容時間AT未満か否かを判別する(S108)。所定のずれ許容時間ATは、例えば1/30秒とすることができる。   Subsequently, the deviation determination unit 7 calculates a difference between the value of the audio timer (audio timer value ST) and the value obtained by multiplying the reproduced video frame by the threshold A and dividing by the threshold B (time corresponding to the reproduced video frame). To do. That is, the deviation determination unit 7 calculates a value of (audio timer value ST−threshold value A × (moving image counter value ICt / threshold value B)) as the deviation amount L1. The deviation determination unit 7 determines whether or not the calculated value is less than the predetermined deviation allowable time AT (S108). The predetermined deviation allowable time AT can be set to 1/30 seconds, for example.

ずれ判定部7は、(音声タイマ値ST−閾値A×(動画カウンタ値ICt/閾値B))<(ずれ許容時間AT)(S108:Yes)のときには、同期が取れているためずれを修正する必要なしと判別する。ずれ判定部7は、このとき、閾値A=音声タイマ値ST、閾値B=動画カウンタ値ICtとした後、音声タイマ値ST=0、動画カウンタ値ICt=0とリセットし(S109)、S103に戻る。   The deviation determination unit 7 corrects the deviation because synchronization is established when (audio timer value ST−threshold A × (movie counter value ICt / threshold B)) <(deviation allowable time AT) (S108: Yes). Determine that it is not necessary. At this time, the deviation determination unit 7 resets the audio timer value ST = 0 and the moving image counter value ICt = 0 after setting the threshold A = the audio timer value ST and the threshold B = the moving image counter value ICt (S109). Return.

ずれ判定部7は、(音声タイマ値ST−閾値A×(動画カウンタ値ICt/閾値B)<(ずれ許容時間AT)でない場合には、同期が取れていないと判別し(S108:No)、主制御部3は、処理を図4Aのフローチャートの処理に進める。   The deviation determination unit 7 determines that synchronization is not established when (voice timer value ST−threshold A × (moving image counter value ICt / threshold B) <(deviation allowable time AT)) (S108: No). The main control unit 3 advances the process to the process of the flowchart of FIG. 4A.

図4Aに示すように、主制御部3は、自動補正部15により、(ずれ時間L1)=(音声タイマ値ST―閾値A×(動画カウンタ値ICt/閾値B))と設定する(S131)。ずれ時間L1は、映像と音声のずれ時間を表し、再生済み音声時間から再生済み映像時間を引いた時間であり、音声が遅れているときは負の値、映像が遅れているときは正の値をとる。   As shown in FIG. 4A, the main control unit 3 sets (shift time L1) = (audio timer value ST−threshold A × (moving image counter value ICt / threshold B)) by the automatic correction unit 15 (S131). . The deviation time L1 represents the deviation time between video and audio, and is the time obtained by subtracting the reproduced video time from the reproduced audio time. When the audio is delayed, a negative value is obtained. When the video is delayed, the deviation time L1 is positive. Takes a value.

主制御部3は、映像復号部23により、映像ストリーム57について次に再生する部分のGOP構造を判定し、Bi−directional Predicted Frame(Bフレーム)を含むか否か判別する(S131)。例えば、GOP構造が「Inter Video Bitrate Balance Profille:IBBP」であるか否か判別される。   The main control unit 3 uses the video decoding unit 23 to determine the GOP structure of the portion to be reproduced next for the video stream 57, and determines whether or not it includes a Bi-directional Predicted Frame (B frame) (S131). For example, it is determined whether or not the GOP structure is “Inter Video Bitrate Balance Profile: IBBP”.

Bフレームを含まない場合には(S132:No)、音声を優先して操作するため、自動補正部15は、処理を図4BのS135に進める。Bフレームを含む場合には(S132:Yes)、映像と音声のどちらを優先して操作する方が与える違和感が少ないかを、音声重要度SLおよび映像重要度ILをもとに判定する。   When the B frame is not included (S132: No), the automatic correction unit 15 advances the process to S135 in FIG. If a B frame is included (S132: Yes), it is determined based on the audio importance level SL and the video importance level IL whether the priority is given to the video or audio operation.

S133では、映像の重要さを示す映像重要度ILおよび音声の重要さを示す音声重要度SLを算出する。以下、S133の処理について説明する。映像重要度ILは、映像の複雑さを示す値として算出される。音声重要度SLは、音声の音量の特徴を示す値として算出される。    In S133, the video importance IL indicating the importance of the video and the audio importance SL indicating the importance of the audio are calculated. Hereinafter, the process of S133 will be described. The video importance IL is calculated as a value indicating the complexity of the video. The voice importance level SL is calculated as a value indicating the characteristics of the sound volume.

まず、映像重要度ILの算出方法について説明する。映像重要度判定部11は、映像のデコード処理を行う前に例えばH.264のパラメータ情報を解析し、(−1)×量子化係数(Quantization Parameter:QP)、デコード前のフレームあたりデータ量、動きベクトル総量の各パラメータを正規化した後加算することで、映像重要度ILを算出する。   First, a method for calculating the video importance IL will be described. The video importance level determination unit 11 performs, for example, H.P. H.264 parameter information is analyzed, and (-1) × quantization coefficient (Quantization Parameter: QP), data amount per frame before decoding, and motion vector total amount are normalized and added to each other, thereby adding video importance. IL is calculated.

映像そのものを再生しながら映像を解析するのは処理負荷的に厳しいため、映像重要度ILは、映像を符号化した際に付加される量子化係数、フレーム(ピクチャ)サイズ、動きベクトル総量に基づき求める。ここで、量子化係数に基づく映像重要度を、量子化重要度IL1、フレームサイズに基づく映像重要度を、サイズ重要度IL2、動きベクトル総量に基づく映像重要度を、ベクトル重要度IL3とする。   Since it is difficult to analyze the video while reproducing the video itself, the video importance IL is based on the quantization coefficient added when the video is encoded, the frame (picture) size, and the total amount of motion vectors. Ask. Here, it is assumed that the video importance based on the quantization coefficient is the quantization importance IL1, the video importance based on the frame size is the size importance IL2, and the video importance based on the total motion vector is the vector importance IL3.

以下、量子化重要度IL1の算出方法について説明する。量子化重要度IL1は、エンコード時にマクロブロック(Macroblock:MB)毎に設定される量子化係数QPに基づいて算出される。量子化係数QPとは、映像データを圧縮する際に目標とするデータサイズになるように、映像の複雑さおよび劣化の解りにくさに応じて設定されるパラメータである。量子化係数QPは、各MBヘッダに直前MBの量子化係数QPとの差という形で設定されており、1ピクチャ当たり量子化値QPpは以下の式1により算出できる。
QPp=26+PIQM+Σ(SQD+(ΣMQD/Mb))/(NSGM+1)
・・・(式1)
Hereinafter, a method for calculating the quantization importance IL1 will be described. The quantization importance IL1 is calculated based on a quantization coefficient QP that is set for each macroblock (Macroblock: MB) during encoding. The quantization coefficient QP is a parameter that is set according to the complexity of the video and the difficulty of understanding the degradation so that the target data size is obtained when the video data is compressed. The quantization coefficient QP is set in the form of a difference from the quantization coefficient QP of the previous MB in each MB header, and the quantization value QPp per picture can be calculated by the following equation 1.
QPp = 26 + PIQM + Σ (SQD + (ΣMQD / Mb)) / (NSGM + 1)
... (Formula 1)

ここで、一つ目の「Σ」は、各ピクチャに含まれる全スライス分の和を示し、二つ目の「Σ」は各スライスに含まれる全マクロブロック分の和を示す。また、各変数は以下の通りである。   Here, the first “Σ” indicates the sum of all slices included in each picture, and the second “Σ” indicates the sum of all macroblocks included in each slice. Each variable is as follows.

式1において、PIQMは、pic_init_qp_minus26を示し、Picture Parameter Set(PPS)に定義される、QPの初期値を設定する値であり、実際の初期値から26引いた値が設定される。SQDは、slice_qp_deltaを示し、スライスヘッダに定義される値であり、スライス毎のQPの初期値を設定する値である。MQDは、mb_qp_deltaを示し、マクロブロック毎に定義される値であり、当該マクロブロックと、直前のマクロブロックの量子化パラメータQPの差分値である。Mbは、Macroblocksを示し、スライスヘッダに定義される値であり、スライスに含まれるマクロブロック数である。NSGMは、num_slice_groups_minus1を示し、PPSに定義される値であり、ピクチャに含まれるスライス数から1を減じた値を表す。   In Equation 1, PIQM indicates pic_init_qp_minus 26, which is a value for setting an initial value of QP defined in the Picture Parameter Set (PPS), and a value obtained by subtracting 26 from the actual initial value is set. SQD indicates slice_qp_delta, is a value defined in the slice header, and is a value for setting an initial value of QP for each slice. MQD indicates mb_qp_delta and is a value defined for each macroblock, and is a difference value between the quantization parameter QP of the macroblock and the immediately preceding macroblock. Mb indicates Macroblocks, is a value defined in the slice header, and is the number of macroblocks included in the slice. NSGM indicates num_slice_groups_minus1, is a value defined in the PPS, and represents a value obtained by subtracting 1 from the number of slices included in the picture.

さらに、この1ピクチャ当たりの量子化値QPpを、ずれ判定区間JA分の数のピクチャについて足し合わせ、平均をとったものをピクチャ平均QPaとすると、
ピクチャ平均QPa=ΣQPp/ずれ判定区間JA ・・・(式2)
と表される。ここで「Σ」は、ずれ判定区間JAに含まれるピクチャ数(すなわち、GOP長または閾値B)分の和を示す。
Further, if the quantized value QPp per picture is added to the number of pictures corresponding to the shift determination section JA, and the average is taken as the picture average QPa,
Picture average QPa = ΣQPp / deviation determination section JA (Expression 2)
It is expressed. Here, “Σ” indicates the sum of the number of pictures (that is, GOP length or threshold value B) included in the shift determination section JA.

映像重要度判定部11は、量子化重要度IL1を式3のように算出する。すなわち、
量子化重要度IL1=102−(2×ピクチャ平均QPa) ・・・(式3)
とすることで、量子化重要度IL1は、1〜100の範囲の値に正規化される。
The video importance level determination unit 11 calculates the quantization importance level IL1 as shown in Expression 3. That is,
Quantization importance IL1 = 102− (2 × picture average QPa) (Expression 3)
By so doing, the quantization importance IL1 is normalized to a value in the range of 1 to 100.

以下、サイズ重要度IL2の算出方法について説明する。サイズ重要度IL2は、映像の重要度算出のパラメータの一つとして、ピクチャのデータサイズに基づき算出される。ピクチャのデータサイズは、Network Abstraction Layer(NAL)のうちnal_unit_typeに応じて計測される。データサイズは、nal_unit_typeが「1」、すなわち、Instantenous Decoding Refresh(IDR)ピクチャの場合、または、「5」、すなわち、IDR以外のピクチャの場合、のもののバイナリサイズとして計測できる。これを、映像の大きさに対して正規化するため、ピクチャデータサイズはピクチャサイズ(1ピクチャの縦画素数×横画素数)で除される。さらに、映像重要度判定部11は、ずれ判定区間JAに含まれるピクチャデータサイズ合計を算出し、それを映像データ量DVとする。すなわち、
映像データ量DV=Σ(ピクチャデータサイズ/ピクチャサイズ) ・・・(式4)
Hereinafter, a method of calculating the size importance IL2 will be described. The size importance IL2 is calculated based on the data size of the picture as one of the parameters for calculating the importance of the video. The data size of the picture is measured according to nal_unit_type in the network abstraction layer (NAL). The data size can be measured as a binary size of nal_unit_type of “1”, that is, an Instantaneous Decoding Refresh (IDR) picture, or “5”, that is, a picture other than IDR. In order to normalize this with respect to the size of the video, the picture data size is divided by the picture size (the number of vertical pixels of one picture × the number of horizontal pixels). Further, the video importance level determination unit 11 calculates the total picture data size included in the shift determination section JA and sets it as the video data amount DV. That is,
Video data amount DV = Σ (picture data size / picture size) (Formula 4)

ここで、「Σ」は、ずれ判定区間JAに含まれるピクチャ分の和を表す。さらに、映像重要度判定部11は、これまで再生した部分の映像データ量DVの平均を算出しておき、それを(平均サイズ)とすると、サイズ重要度IL2は以下の式5のように表される。
サイズ重要度IL2
=max(((映像データ量DV)/(平均サイズ))×50、100)・・(式5)
式5により、サイズ重要度IL2は、1〜100の範囲の値に正規化される。
Here, “Σ” represents the sum of pictures included in the shift determination section JA. Further, the video importance level determination unit 11 calculates the average of the video data amount DV of the portion reproduced so far, and if this is (average size), the size importance level IL2 is expressed as in the following Expression 5. Is done.
Size importance IL2
= Max (((video data amount DV) / (average size)) × 50, 100) (Equation 5)
According to Equation 5, the size importance IL2 is normalized to a value in the range of 1 to 100.

以下、ピクチャの動きベクトル総量に基づくベクトル重要度IL3の算出方法について説明する。映像重要度判定部11は、ベクトル重要度IL3の算出において、まず動きベクトル総量をフレーム毎の全マクロブロックについて足し合わせ、1マクロブロックあたりの平均をとる。ベクトル重要度IL3は、1マクロブロックあたりの平均動きベクトル総量を例えば10倍し上限を100で抑える。ベクトル重要度IL3の例として、以下の式6が挙げられる。
ベクトル重要度IL3=max((Σ(各マクロブロックの動きベクトル長)
/ピクチャのマクロブロック数×10)、100) ・・(式6)
Hereinafter, a method of calculating the vector importance IL3 based on the total motion vector amount of the picture will be described. In calculating the vector importance level IL3, the video importance level determination unit 11 first adds the total amount of motion vectors for all macroblocks for each frame and takes an average per macroblock. For the vector importance IL3, the total amount of average motion vectors per macroblock is multiplied by 10, for example, and the upper limit is suppressed to 100. As an example of the vector importance IL3, the following Expression 6 is given.
Vector importance IL3 = max ((Σ (motion vector length of each macroblock)
/ Number of macroblocks of picture × 10), 100) (Equation 6)

ここで「Σ」は、1ピクチャ内のマクロブロック数分の和を表す。式6により、ベクトル重要度IL3は、1〜100の範囲の値に正規化される。   Here, “Σ” represents the sum of the number of macroblocks in one picture. According to Equation 6, the vector importance IL3 is normalized to a value in the range of 1-100.

映像重要度判定部11は、以上のように算出した量子化重要度IL1、サイズ重要度IL2およびベクトル重要度IL3に基づき映像重要度ILを算出する。映像重要度ILは、例えば量子化重要度IL1、サイズ重要度IL2およびベクトル重要度IL3の算術平均、すなわち、映像重要度IL=(IL1+IL2+IL3)/3として算出される。   The video importance determination unit 11 calculates the video importance IL based on the quantization importance IL1, the size importance IL2, and the vector importance IL3 calculated as described above. The video importance IL is calculated as, for example, an arithmetic average of the quantization importance IL1, the size importance IL2, and the vector importance IL3, that is, the video importance IL = (IL1 + IL2 + IL3) / 3.

続いて、音声重要度SLの算出について説明する。音声重要度判定部9は、例えば音声復号部23により復号化された音声データの1フレーム分相当を周波数領域に転写する。音声重要度判定部9は、所定周波数範囲毎に振幅の積分を算出し、1フレーム分の時間における周波数毎の音量とする。   Next, calculation of the voice importance level SL will be described. The voice importance level determination unit 9 transfers, for example, one frame worth of the voice data decoded by the voice decoding unit 23 to the frequency domain. The voice importance determination unit 9 calculates the integral of the amplitude for each predetermined frequency range, and sets the volume for each frequency in the time of one frame.

図5は、周波数領域毎の音量の算出方法を説明する図である。図5において、縦軸は、音量に応じた振幅x(i)を示し、横軸は周波数iを対数軸で示している。図5は、例えば1フレーム分の音声データを周波数領域の振幅に変換した結果を表している。横軸は、周波数10〜10k+1(kは整数)毎の周波数範囲に区切られている。このとき、この周波数範囲毎の振幅の積分が、周波数範囲毎の音量(以下、周波数毎の音量という)に相当する。フレームに時間的順序を表すフレーム番号jを付し、フレーム番号jにおける周波数毎の音量SVa(j)を以下の式7で表す。

Figure 2012204876
式7により、周波数毎の音量SVa(j)は、0〜100までの範囲に正規化される。 FIG. 5 is a diagram for explaining a method of calculating a volume for each frequency domain. In FIG. 5, the vertical axis indicates the amplitude x (i) corresponding to the volume, and the horizontal axis indicates the frequency i on the logarithmic axis. FIG. 5 shows, for example, the result of converting audio data for one frame into amplitude in the frequency domain. The horizontal axis is divided into frequency ranges for each frequency 10 k to 10 k + 1 (k is an integer). At this time, the integration of the amplitude for each frequency range corresponds to the volume for each frequency range (hereinafter referred to as the volume for each frequency). A frame number j indicating a temporal order is attached to the frame, and a volume SVa (j) for each frequency in the frame number j is expressed by the following Expression 7.
Figure 2012204876
According to Equation 7, the volume SVa (j) for each frequency is normalized to a range from 0 to 100.

以下、上記音量SVa(j)を用いた変動重要度SL1の算出方法について説明する。変動重要度SL1は、周波数帯毎の音声レベル変化量の平均である。すなわち、変動重要度SL1は、式7の周波数毎の音量SVa(j)それぞれについて、前サンプル(ここでは、前フレーム)との差を取り、その差をS108における音声タイマ値STに対応するずれ判定時間、および全周波数に対応する周波数領域について足し合わせ、その平均を計算する。ずれ判定時間に含まれるフレーム数をフレーム数FN、全周波数領域を10〜10(Nは自然数)とすると、変動重要度SL1は、以下の式8で表される。
変動重要度SL1=1/NΣ(Σ|SVa(j)−SV(j−1)|)/FN ・・・(式8)
Hereinafter, a method of calculating the variation importance SL1 using the volume SVa (j) will be described. The variation importance SL1 is an average of the sound level change amount for each frequency band. That is, the degree of importance SL1 takes the difference from the previous sample (here, the previous frame) for each volume SVa (j) for each frequency of Equation 7, and the difference corresponds to the audio timer value ST in S108. The determination time and the frequency region corresponding to all frequencies are added together, and the average is calculated. When the number of frames included in the shift determination time is the number of frames FN and the entire frequency region is 10 0 to 10 N (N is a natural number), the variation importance SL1 is expressed by the following Expression 8.
Fluctuation importance SL1 = 1 / NΣ (Σ | SVa (j) −SV (j−1) |) / FN (Expression 8)

ここで、一つ目の「Σ」は、全周波数領域分の和を表し、二つめの「Σ」は、ずれ判定時間におけるフレーム数分の和(j=1〜FN)を表す。なお、式8により音声重要度SL1は、0〜100までの値として算出される。   Here, the first “Σ” represents the sum of all frequency regions, and the second “Σ” represents the sum of the number of frames in the shift determination time (j = 1 to FN). Note that the voice importance SL1 is calculated as a value from 0 to 100 according to Equation 8.

次に、上記音量SVa(j)を用いた音量重要度SL2の算出方法について説明する。音量重要度SL2は、音量レベル全体の総和であり、周波数毎の音量SVaそれぞれについて、S108の音声タイマ値STに対応するずれ判定時間に含まれるフレーム、および全周波数に対応する周波数領域について足し合わせ、その平均を計算する。すなわち、以下の式9で表される。
音量重要度SL2=1/NΣΣSVa(j)/FN ・・・(式9)
Next, a method for calculating the volume importance SL2 using the volume SVa (j) will be described. The volume importance level SL2 is the total sum of the volume levels. For each volume SVa for each frequency, the frame included in the deviation determination time corresponding to the audio timer value ST in S108 and the frequency region corresponding to all frequencies are added. Calculate the average. That is, it is expressed by the following formula 9.
Volume importance level SL2 = 1 / NΣΣSVa (j) / FN (Expression 9)

ここで、一つ目の「Σ」は、全周波数領域分(10〜10)の和を表し、二つめの「Σ」は、ずれ判定時間におけるフレーム数分の和(j=1〜FN)を表す。なお、音声重要度SL2は、0〜100までの値として算出される。 Here, the first “Σ” represents the sum of all frequency regions (10 0 to 10 N ), and the second “Σ” represents the sum of the number of frames in the shift determination time (j = 1 to 1). FN). The voice importance SL2 is calculated as a value from 0 to 100.

音声重要度判定部9は、以上のように算出された変動重要度SL1および音量重要度SL2に基づき、音声重要度SLを設定する。例えば、音声重要度SL=(変動重要度SL1+音量重要度SL2)/2と算出される。   The voice importance level determination unit 9 sets the voice importance level SL based on the fluctuation importance level SL1 and the volume importance level SL2 calculated as described above. For example, voice importance SL = (variation importance SL1 + volume importance SL2) / 2 is calculated.

図4AのS134では、比較評価部13が、上記のように算出した映像重要度ILと、音声重要度SLとの大小を判別する。比較評価部13は、映像重要度ILの方が音声重要度SLより大きい場合には(S134:Yes)、音声を優先的に操作するため、処理を図4BのS135に進ませる。比較評価部13は、音声重要度SLの方が映像重要度ILより大きい場合には(S134:No)、映像を優先的に操作するため、処理を図4CのS145に進ませる。以下、比較評価部13の判別結果に応じて、自動補正部15は、映像と音声との同期を行う。   In S134 of FIG. 4A, the comparative evaluation unit 13 determines the magnitude of the video importance IL calculated as described above and the audio importance SL. If the video importance level IL is greater than the audio importance level SL (S134: Yes), the comparative evaluation unit 13 advances the process to S135 in FIG. 4B in order to preferentially operate the audio. When the audio importance level SL is greater than the video importance level IL (S134: No), the comparative evaluation unit 13 advances the processing to S145 in FIG. 4C in order to preferentially operate the video. Hereinafter, according to the determination result of the comparative evaluation unit 13, the automatic correction unit 15 synchronizes video and audio.

まず、音声を優先的に操作する場合について説明する。図4Bに示すように、S135において、自動補正部15の音声操作部31は、操作対象(これから再生するずれ判定時間分)の音声部分に無音に近い部分か、音声変化量が小さいと判断できる部分があるかどうかを判断する。無音に近いと判断するのは、例えば音量重要度SL2が、ホワイトノイズに対して予め算出された音声重要度SL以下である場合とすることができる。音声変化量が小さいと判断するのは、例えば変動重要度SL1が、ホワイトノイズに対して予め算出された変動重要度SL1以下とすることができる。   First, a case where the voice is preferentially operated will be described. As shown in FIG. 4B, in S135, the voice operation unit 31 of the automatic correction unit 15 can determine that the voice part of the operation target (for the deviation determination time to be played back) is near silence or that the voice change amount is small. Determine if there is a part. It can be determined that the sound volume is close to silence, for example, when the volume importance level SL2 is equal to or lower than the voice importance level SL calculated in advance for white noise. For example, the change importance SL1 may be determined to be equal to or less than the change importance SL1 calculated in advance for white noise.

S135において、操作対象の音声部分に無音に近い部分か、音声変化量が小さいと判断できる部分(以下、無音に近い部分と音声変化量が小さいと判断できる部分を合わせて無音相当部分という)があると判別されると(S135:Yes)、音声操作部31は、ずれ時間L1が正の数か否か判別する(S136)。ずれ時間L1が正の数である場合には(S136:Yes)、音声が進んでいるので、音声操作部31は、ずれ時間L1分、無音に近い部分または音声変化量が小さいと判断できる部分を何回も再生して伸張することにより、同期処理を完了する(S137)。   In S135, there is a portion that is close to the operation target sound portion, or a portion that can be determined that the sound change amount is small (hereinafter, a portion that is close to silence and a portion that can be determined that the sound change amount is small is collectively referred to as a silence-corresponding portion). When it is determined that there is (S135: Yes), the voice operation unit 31 determines whether or not the deviation time L1 is a positive number (S136). When the deviation time L1 is a positive number (S136: Yes), since the voice is advanced, the voice operation unit 31 can determine that the deviation time L1 minutes is close to silence or the amount of change in voice is small. Is reproduced and expanded many times to complete the synchronization process (S137).

S136において、ずれ時間L1が負の数であり、映像が遅れていると判別された場合には(S136:No)、音声操作部31は、ずれ時間L1の絶対値が無音相当部分の時間(無音相当時間という)よりも大きいか否か判別する(S138)。ずれ時間L1の絶対値が無音相当時間よりも長い場合には(S138:Yes)、音声操作部31は、無音相当部分を再生せずに削除し(S139)、ずれ時間L1=ずれ時間L1+無音相当時間とし(S140)、S142に処理を進める。ずれ時間L1の絶対値が無音相当時間以下の場合には(S138:No)、音声操作部31は、ずれ時間L1分の無音相当部分の音声を削除して同期処理を完了し(S141)、S153に処理を進める。   In S136, when it is determined that the shift time L1 is a negative number and the video is delayed (S136: No), the voice operation unit 31 determines that the absolute value of the shift time L1 is the time corresponding to the silence ( It is determined whether it is longer than the silent equivalent time (S138). When the absolute value of the deviation time L1 is longer than the silence equivalent time (S138: Yes), the voice operation unit 31 deletes the silence equivalent part without reproducing it (S139), and the deviation time L1 = the deviation time L1 + silence. The corresponding time is set (S140), and the process proceeds to S142. If the absolute value of the deviation time L1 is equal to or less than the silence equivalent time (S138: No), the voice operation unit 31 deletes the voice corresponding to the silence corresponding to the deviation time L1 and completes the synchronization process (S141). The process proceeds to S153.

S135において、無音相当部分がない場合には(S135:No)、音声操作部31は、速度変更率VC=(音声タイマ値ST/(音声タイマ値ST+|ずれ時間L1|)が一定値以上か否かを判別する(S142)。判別に用いる一定値は、例えば0.8とすることができる。   In S135, when there is no silent equivalent (S135: No), the voice operation unit 31 determines whether the speed change rate VC = (voice timer value ST / (voice timer value ST + | deviation time L1 |) is equal to or greater than a certain value). (S142) The fixed value used for the determination can be set to 0.8, for example.

速度変更率VCが一定値未満の場合には(S142:No)、音声操作部31は、処理をS145に進める。これは、音声再生速度を一定以上変化させると、音声の速度を変更することによる違和感の方が、映像を操作することによる違和感よりも大きいと判断されるためである。ここで、音声操作部31は、音声の再生速度を上記一定値に応じた割合だけ変更した後、処理をS145に進めるようにしてもよい。   When the speed change rate VC is less than a certain value (S142: No), the voice operation unit 31 advances the process to S145. This is because, when the audio playback speed is changed more than a certain level, it is determined that the uncomfortable feeling due to changing the sound speed is greater than the uncomfortable feeling caused by manipulating the video. Here, the voice operation unit 31 may change the voice playback speed by a ratio corresponding to the fixed value, and then proceed to S145.

速度変更率VCが一定値以上の場合には(S142:No)、音声操作部31は、音声再生速度変更値=(音声タイマ値ST+ずれ時間L1)/音声タイマ値STとし(S143)、音声再生速度を音声再生速度変更値に応じて変更することにより、同期処理を完了する(S144)。   When the speed change rate VC is equal to or greater than a certain value (S142: No), the voice operation unit 31 sets voice playback speed change value = (voice timer value ST + shift time L1) / voice timer value ST (S143), The synchronization process is completed by changing the reproduction speed according to the voice reproduction speed change value (S144).

ここで、音声再生速度変更方法について説明する。ここで採用する音声再生速度変更方法は、デジタル音声データの一部を省略したり挿入したりすることにより、その音程を変えずにデジタル音声データの再生速度を変換する方法である。   Here, the audio reproduction speed changing method will be described. The audio reproduction speed changing method employed here is a method of converting the reproduction speed of digital audio data without changing the pitch by omitting or inserting a part of the digital audio data.

音声操作部31は、まず、操作対象、すなわちこれから再生するずれ判定区間JAに相当する音声部分の音声データを、一定周期の区間に区切り、省略または伸張する割合を決める。例えば、10%省略するのであれば、音声操作部31は、区切られた音声データにおいて、10区間毎に1区間を目安として省略すればよいし、10%伸張するのであれば、10区間毎に1区間を目安として挿入すればよい。次に、音声操作部31は、省略または伸張する割合に応じて音声データを操作する。このような音声再生速度の変更は、例えば、特許文献3に記載の方法など、従来の様々な方法を適用することができる。   First, the voice operation unit 31 divides the voice data corresponding to the operation target, that is, the voice judgment section JA to be reproduced from now, into sections of a certain period, and determines the rate of omission or expansion. For example, if 10% is omitted, the voice operation unit 31 may omit one section every 10 sections as a guide in the divided voice data, and if 10% is expanded, every 10 sections. Insert one section as a guide. Next, the voice operation unit 31 operates the voice data according to the rate of omission or expansion. Various conventional methods such as the method described in Patent Document 3 can be applied to such a change in the audio reproduction speed.

映像を処理する場合には、図4Cに示すように、まず、映像操作部33は、ずれ時間L1の正負を判別する(S145)。映像操作部33は、ずれ時間L1が正の場合には(S145:Yes)、音声に対し映像が遅れているので、フレーム間引き処理を行い、負の場合には(S145:NO)、音声に対し映像が進んでいるので、フレーム補間処理を行う。   In the case of processing a video, as shown in FIG. 4C, first, the video operation unit 33 determines whether the shift time L1 is positive or negative (S145). When the shift time L1 is positive (S145: Yes), the video operation unit 33 performs frame thinning processing because the video is delayed with respect to the audio, and when negative (S145: NO), On the other hand, since the video is progressing, frame interpolation processing is performed.

フレーム間引き処理では、映像操作部33は、まず、フレーム間引き枚数を算出する(S146)。すなわち、映像操作部33は、フレーム間引き枚数=ずれ時間L1/フレームレート(Frame per Second:FPS)を算出する。小数点以下については四捨五入する。   In the frame decimation process, the video operation unit 33 first calculates the number of frame decimation (S146). That is, the video operation unit 33 calculates the number of frames to be thinned = the shift time L1 / frame rate (Frame per Second: FPS). Round off to the nearest decimal point.

映像操作部33は、操作対象(これから再生する、ずれ判定区間JA分)の映像に非参照ピクチャがある場合には、フレーム間引き枚数を超えない範囲で再生する映像データに含まないように間引く(S147)。非参照ピクチャの枚数がフレーム間引き枚数に至らない場合には、映像操作部33は、その後、Pピクチャの後のBピクチャのうち、量子化係数QPの高いものから間引く(S148)。S148までの処理でフレーム間引き枚数に至らない場合には、映像操作部33は、Iフレーム及びPフレームのような参照ピクチャを間引く。このように参照ピクチャを間引く際には、次のフレームのためにピクチャをデコードする(S149)。   When there is a non-reference picture in the operation target image (for the shift determination section JA to be played back), the video operation unit 33 thins the video data so that it is not included in the video data to be played back within a range that does not exceed the frame skipping number ( S147). If the number of non-reference pictures does not reach the number of frames to be thinned out, the video operation unit 33 subsequently thins out the B picture after the P picture from the one with the higher quantization coefficient QP (S148). If the number of frames thinned out does not reach the processing up to S148, the video operation unit 33 thins out reference pictures such as I frames and P frames. When the reference picture is thinned out in this way, the picture is decoded for the next frame (S149).

上記のように、フレームの間引きを行う際には、映像操作部33は、後フレームへの影響を小さくするため、まず、非参照フレームを間引き、次に、IBBPにおけるBフレームを間引く。さらに、IPPPにおける量子化係数QPの大きいフレーム順でフレームを間引く。映像操作部33は、フレームを間引いた場合には、非参照フレームを除き、後続のフレームの為デコードは行なう。以上により、同期処理を完了する。   As described above, when thinning out a frame, the video operation unit 33 thins out a non-reference frame first and then thins out a B frame in IBBP in order to reduce the influence on the subsequent frame. Further, frames are thinned out in the order of frames with a large quantization coefficient QP in IPPP. When the frame is thinned, the video operation unit 33 performs decoding for subsequent frames except for the non-reference frame. Thus, the synchronization process is completed.

ずれ時間L1が負の数の場合には(S145:No)、フレーム補間処理を行う。映像操作部33は、フレーム補間枚数=−ずれ時間L1/FPSを算出する(S150)。小数点以下については四捨五入する。   If the shift time L1 is a negative number (S145: No), frame interpolation processing is performed. The video operation unit 33 calculates frame interpolation number = −shift time L1 / FPS (S150). Round off to the nearest decimal point.

映像操作部33は、補間するフレームとして、なるべく量子化係数QPの高いものについてそのフレームと次フレームの平均フレームを作成する(S151)。例えば、フレーム補間する場合、映像操作部33は、対象箇所の前後フレームについて各ピクセルの各画素値の平均値を求め、これを補間フレームとして前後フレームの間に挿入する。   The video manipulating unit 33 creates an average frame of the frame and the next frame for the interpolated frame having as high a quantization coefficient QP as possible (S151). For example, when frame interpolation is performed, the video operation unit 33 obtains an average value of the pixel values of each pixel for the previous and subsequent frames of the target portion, and inserts this between the previous and next frames as an interpolation frame.

フレーム補間の際、映像操作部33は、閾値Bに対して、補間するフレームがなるべく均等に配置されるように、補間枚数分だけ補間処理を行う(S152)。補間すべきフレーム枚数分の間引きを完了した後、処理は、S153の初期化処理に進む。   At the time of frame interpolation, the video operation unit 33 performs the interpolation processing for the number of interpolations so that the frames to be interpolated are arranged as evenly as possible with respect to the threshold value B (S152). After completing the thinning for the number of frames to be interpolated, the process proceeds to the initialization process of S153.

S153の初期化処理として、主制御部3は、閾値Aに再生済み音声時間(音声タイマ値ST)を代入、閾値Bに表示済み映像フレーム数(動画カウンタ値ICt)を代入する。その後、主制御部3は、音声タイマ値ST=0、動画カウンタ値ICt=0と初期化し、S103に戻って処理を繰り返す。   As an initialization process of S153, the main control unit 3 substitutes the reproduced audio time (audio timer value ST) for the threshold A and substitutes the number of displayed video frames (moving picture counter value ICt) for the threshold B. Thereafter, the main control unit 3 initializes the audio timer value ST = 0 and the moving image counter value ICt = 0, and returns to S103 to repeat the processing.

なお、本実施の形態の分離部21、音声復号部23、音声再生部25、映像復号部27、映像再生部29は、本発明の復号再生部の一例である。音声重要度判定部9は、音声重要度算出部の一例であり、映像重要度判定部11は、映像重要度算出部の一例である。   Note that the separation unit 21, the audio decoding unit 23, the audio reproduction unit 25, the video decoding unit 27, and the video reproduction unit 29 of the present embodiment are examples of the decoding and reproduction unit of the present invention. The audio importance level determination unit 9 is an example of an audio importance level calculation unit, and the video importance level determination unit 11 is an example of a video importance level calculation unit.

以上説明したように、本実施の形態による再生装置1においては、映像重要度IL、音声重要度SLが算出される。映像重要度ILは、映像の複雑さの度合いを示し、復号化前の映像ストリームに基づき算出される。音声重要度SLは、音声の音量の特徴を示し、復号化した音声データに基づき算出される。また、再生装置1は、映像重要度IL、音声重要度SL、およびずれ判別区間JAにおけるずれ時間L1に応じて、映像および音声のいずれを優先して操作するかを判別することにより同期を行う。   As described above, in the playback apparatus 1 according to the present embodiment, the video importance level IL and the audio importance level SL are calculated. The video importance IL indicates the degree of video complexity, and is calculated based on the video stream before decoding. The voice importance level SL indicates the characteristics of the volume of the voice and is calculated based on the decoded voice data. Further, the playback device 1 performs synchronization by determining which one of video and audio is to be preferentially operated according to the video importance IL, the audio importance SL, and the shift time L1 in the shift determination section JA. .

よって、本実施の形態による再生装置1において、映像重要度IL、音声重要度SLの算出は、映像そのもの再生中に行われるわけではないので、再生に影響を与えないという効果がある。また、再生装置1によれば、同期処理による視聴者への影響が少ないと考えられる方法を用いて同期処理を行うことが可能となる。よって、処理能力の不足のため、再生映像がコマ落ちしてしまう、音声が途切れてしまう、ずれがある一定間隔のまま修正されない、など、視聴者に違和感、不快感を与えることが少なくなるという効果がある。   Therefore, in the playback apparatus 1 according to the present embodiment, the calculation of the video importance level IL and the audio importance level SL is not performed during the playback of the video itself, so that there is an effect that the playback is not affected. Further, according to the playback apparatus 1, it is possible to perform the synchronization process using a method that is considered to have little influence on the viewer by the synchronization process. Therefore, due to lack of processing capacity, it is less likely to give viewers a sense of discomfort and discomfort, such as the playback video dropping frames, sound being interrupted, or deviation not being corrected at fixed intervals. effective.

なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、S153の初期化処理では、閾値Aとして音声タイマ値STを設定し、閾値Bとして、動画カウンタ値ICtを設定したが、これに限定されない。例えば、S153が行われる度に音声タイマ値Sおよび動画カウンタ値ICtの値を記憶部35に記憶しておき、それぞれの平均値を算出して、閾値A、閾値Bの初期値として代入するようにしてもよい。   The present invention is not limited to the embodiments described above, and various configurations or embodiments can be adopted without departing from the gist of the present invention. For example, in the initialization process of S153, the audio timer value ST is set as the threshold A and the moving image counter value ICt is set as the threshold B. However, the present invention is not limited to this. For example, every time S153 is performed, the values of the audio timer value S and the moving image counter value ICt are stored in the storage unit 35, and the average values thereof are calculated and substituted as initial values of the threshold A and the threshold B. It may be.

閾値Aは、変動重要度SL1が大きい場合には小さくし、変動重要度SL1が小さい場合には、大きくするようにしてもよい。例えば、算出された変動重要度SL1を記憶部35に記憶して、変動重要度SL1の統計分布を算出し、現在の変動重要度SL1が、確率分布で上位20%の範囲に入るか否かで、音声の変化量が大きいか否かを判別する。音声の変化量が大きいと判別されたときには、閾値A=0.5秒、それ以外は閾値A=1秒などと逐次更新するようにしてもよい。変化量の大きい部分は視聴者がリップシンクずれを感じる機会が多いと考えられるためである。   The threshold A may be decreased when the variation importance SL1 is large, and may be increased when the variation importance SL1 is small. For example, the calculated fluctuation importance SL1 is stored in the storage unit 35, the statistical distribution of the fluctuation importance SL1 is calculated, and whether or not the current fluctuation importance SL1 falls within the upper 20% range in the probability distribution. Thus, it is determined whether or not the change amount of the voice is large. When it is determined that the amount of change in the sound is large, the threshold A may be updated to 0.5 seconds, and otherwise, the threshold A may be sequentially updated to 1 second. This is because the part where the amount of change is large is considered that there are many opportunities for the viewer to feel a lip sync shift.

映像重要度ILは、量子化重要度IL1、サイズ重要度IL2、またはベクトル重要度IL3のいずれか少なくとも一つに基づき算出することができる。なお、サイズ重要度IL2は、(平均サイズ)が安定するであろう、再生開始30秒以降などにサイズ重要度IL2を反映させるようにしてもよい。音声重要度SLは、変動重要度SL1または音量重要度SL2のいずれか少なくとも一つに基づき算出することができる。   The video importance IL can be calculated based on at least one of the quantization importance IL1, the size importance IL2, and the vector importance IL3. It should be noted that the size importance IL2 may be reflected after 30 seconds from the start of reproduction, where (average size) will stabilize. The voice importance SL can be calculated based on at least one of the fluctuation importance SL1 and the volume importance SL2.

映像重要度IL、音声重要度SLの算出は、別の算出方法を用いるものでもよい。例えば、動きが小さく量子化係数が大きい場合には、絵が細かいが動きが少ないパターンであると考えられる(音楽がメインで背景として映像が使われている場合など)ので音声の重要度に少し下駄をはかせるなどの調整を行うようにしてもよい。また、小さい音声の大小は人間にとって差に気づきやすい傾向がある為、音声重要度SLの算出における式7の被積分関数x(i)を10×(x(i))1/2に置き換えるようにしてもよい。これにより、同期のための操作を、人間が視聴した際に気になる度合いにより近づける効果がある。 The video importance level IL and the audio importance level SL may be calculated using another calculation method. For example, if the movement is small and the quantization coefficient is large, the pattern is fine but the movement is small (for example, when the music is the main and the video is used as the background). Adjustments such as removing clogs may be performed. Further, since the size of small speech tends to be noticed by human beings, the integrand x (i) in Equation 7 in the calculation of speech importance SL is replaced with 10 × (x (i)) 1/2. It may be. As a result, there is an effect that the operation for synchronization is made closer to the degree of concern when viewed by a human.

本実施の形態による再生装置は、データの圧縮を伴い符号化されるH.264、MPEG2等によるデジタル動画像の再生装置として適用が可能である。
ここで、上記実施の形態による映像音声の再生方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図6は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図6に示すように、コンピュータ300は、Central Processing Unit(CPU)302、メモリ304、入力装置306、出力装置308、外部記憶装置312、媒体駆動装置314、ネットワーク接続装置等がバス310を介して接続されている。
The reproduction apparatus according to the present embodiment is an H.264 encoded with data compression. The present invention can be applied as a digital moving image reproducing apparatus based on H.264, MPEG2, or the like.
Here, an example of a computer that is commonly applied to cause the computer to perform the operation of the video / audio reproduction method according to the above embodiment will be described. FIG. 6 is a block diagram illustrating an example of a hardware configuration of a standard computer. As shown in FIG. 6, a computer 300 includes a central processing unit (CPU) 302, a memory 304, an input device 306, an output device 308, an external storage device 312, a medium driving device 314, a network connection device, and the like via a bus 310. It is connected.

CPU302は、コンピュータ300全体の動作を制御する演算処理装置である。メモリ304は、コンピュータ300の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ304は、例えばRandom Access Memory(RAM)、Read Only Memory(ROM)等である。入力装置306は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をCPU302に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置308は、コンピュータ300による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、CPU302により送付される表示データに応じてテキストや画像を表示する。   The CPU 302 is an arithmetic processing unit that controls the operation of the entire computer 300. The memory 304 is a storage unit for storing in advance a program for controlling the operation of the computer 300 or using it as a work area when necessary when executing the program. The memory 304 is, for example, a random access memory (RAM), a read only memory (ROM), or the like. The input device 306 is a device that, when operated by a computer user, acquires various information input from the user associated with the operation content and sends the acquired input information to the CPU 302. Keyboard device, mouse device, etc. The output device 308 is a device that outputs a processing result by the computer 300, and includes a display device and the like. For example, the display device displays text and images according to display data sent by the CPU 302.

外部記憶装置312は、例えば、ハードディスクなどの記憶装置であり、CPU302により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置314は、可搬記録媒体316に書き込みおよび読み出しを行うための装置である。CPU302は、可搬型記録媒体316に記録されている所定の制御プログラムを、記録媒体駆動装置314を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。CPU302は、可搬記録媒体316に記録された動画コンテンツを読み出して、再生させるようにすることもできる。記憶可搬記録媒体316は、例えばConpact Disc(CD)−ROM、Digital Versatile Disc(DVD)、Universal Serial Bus(USB)メモリ等である。   The external storage device 312 is a storage device such as a hard disk, and stores various control programs executed by the CPU 302, acquired data, and the like. The medium driving device 314 is a device for writing to and reading from the portable recording medium 316. The CPU 302 can read out and execute a predetermined control program recorded on the portable recording medium 316 via the recording medium driving device 314 to perform various control processes. The CPU 302 can read out and reproduce the moving image content recorded on the portable recording medium 316. The storage portable recording medium 316 is, for example, a Compact Disc (CD) -ROM, a Digital Versatile Disc (DVD), a Universal Serial Bus (USB) memory, or the like.

ネットワーク接続装置318は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。CPU302は、ネットワーク接続装置318を介して外部の動画コンテンツを取得し、再生させるようにすることもできる。バス310は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。   The network connection device 318 is an interface device that manages transmission / reception of various data performed between the outside by wired or wireless. The CPU 302 can also acquire and reproduce external video content via the network connection device 318. A bus 310 is a communication path for connecting the above devices and the like to exchange data.

上記実施の形態による映像音声再生方法をコンピュータに実行させるプログラムは、例えば外部記憶装置312に記憶させる。CPU302は、外部記憶装置312からプログラムを読み出し、コンピュータ300に映像音声再生の動作を行なわせる。このとき、まず、映像音声再生の処理をCPU302に行わせるための制御プログラムを作成して外部記憶装置312に記憶させておく。そして、入力装置306から所定の指示をCPU302に与えて、この制御プログラムを外部記憶装置312から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体316に記憶するようにしてもよい。
CPU302は、可搬記録媒体316に記録された動画コンテンツを読み出して、再生させるようにすることもできる。
A program that causes a computer to execute the video / audio reproduction method according to the above-described embodiment is stored in, for example, the external storage device 312. The CPU 302 reads the program from the external storage device 312 and causes the computer 300 to perform an audio / video reproduction operation. At this time, first, a control program for causing the CPU 302 to perform video / audio reproduction processing is created and stored in the external storage device 312. Then, a predetermined instruction is given from the input device 306 to the CPU 302 so that the control program is read from the external storage device 312 and executed. The program may be stored in the portable recording medium 316.
The CPU 302 can read out and reproduce the moving image content recorded on the portable recording medium 316.

以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生装置であって、
前記ストリームを取得する信号取得部と、
取得した前記ストリームを分離して復号化することにより、映像データおよび音声データを生成し、第1のずれ判定時間における第1の映像および第1の音声を再生する復号再生部と、
前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定するずれ判定部と、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出する映像重要度算出部と、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出する音声重要度算出部と、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2の映像および前記第2の音声の再生を制御する自動補正部と、
を有することを特徴とする再生装置。
(付記2)
前記映像重要度は、前記映像の符号化の際に付加される量子化係数、データ量、または動きベクトル長の総量のいずれか少なくとも1つに基づいて算出されることを特徴とする付記1に記載の再生装置。
(付記3)
前記音声重要度は、前記音声データの所定周波数範囲毎の音量の時間的変化量の平均値、または前記音声データの所定周波数範囲毎の音量の平均値のいずれか少なくとも1つに基づいて算出されることを特徴とする付記1または付記2に記載の再生装置。
(付記4)
前記自動補正部は、さらに、復号前の前記第2の映像中に非参照ピクチャがあるか否かに基づき前記第2の映像と前記第2の音声との再生時のずれを補正することを特徴とする付記1から付記3のいずれかに記載の再生装置。
(付記5)
前記自動補正部は、
前記音声データを操作する音声操作部と、
前記映像データを操作する映像操作部と、
を有し、
復号前の前記映像中に非参照ピクチャがあるか否か、および前記映像重要度と前記音声重要度との大小関係に基づき、前記再生時のずれを補正する際に音声操作部と映像操作部のいずれの操作を優先するかを決定することを特徴とする付記4に記載の再生装置。
(付記6)
前記自動補正部は、
前記映像重要度が前記音声重要度より大きいときには、前記音声操作部の操作を優先し、
前記音声重要度が前記映像重要度より大きいときには、前記映像操作部による操作を行うことにより前記映像と前記音声の再生時のずれを補正することを特徴とする付記5に記載の再生装置。
(付記7)
前記音声操作部は、
前記第2のずれ判定時間に対応する区間に、前記音声重要度が所定値以下の無音相当区間がある場合であって、
前記第1の音声の再生が前記第1の映像の再生よりも進んでいる場合には、前記無音相当区間を繰り返し再生し、
前記第1の映像の再生が、前記第1の音声の再生よりも進んでいる場合には、前記ずれ量に応じて前記無音相当区間を削除する操作、前記音声の再生速度を変更する操作、映像操作部での操作を行う操作のいずれか少なくとも一つの操作を行い、
前記音声重要度を算出する区間に、前記音声重要度が所定値以下の無音相当区間がない場合であって、
前記ずれ量が、前記第2のずれ判別時間に対し所定割合未満の場合には、前記音声の再生速度を変更し、
前記ずれ量が、前記第2のずれ判別時間に対し所定割合以上の場合には、前記映像操作部による操作を行うことを特徴とする付記5または付記6に記載の再生装置。
(付記8)
前記映像操作部は、
前記第1の音声の再生が前記第1の映像の再生よりも進んでいる場合には、少なくとも非参照ピクチャを再生しない処理を行い、
前記第1の映像の再生が、前記第1の音声の再生よりも進んでいる場合には、前後のフレームの画素値の平均を有するフレームを補間する処理を行うことを特徴とする付記5または付記6に記載の再生装置。
(付記9)
符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生方法であって、
前記ストリームを取得し、
第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、
前記第1のずれ判定時間における第1の映像と第1の音声との再生時のずれ量を判定し、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、
前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出し、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御する、
ことを特徴とする再生方法。
(付記10)
前記第1の映像および前記第1の音声を再生し、前記ずれ量を判定し、前記映像重要度を算出し、前記音声重要度を算出し、前記再生を制御することを繰り返し行うことを特徴とする付記9に記載の再生方法。
(付記11)
符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する処理をコンピュータに実行させるためのプログラムであって、
前記ストリームを取得し、
第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、
前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定し、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、
前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出し、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御する処理を前記コンピュータに実行させるためのプログラム。
(付記12)
前記第1の映像および前記第1の音声を再生する処理、前記ずれ量を判定する処理、前記映像重要度を算出する処理、前記音声重要度を算出する処理、および前記再生を制御する処理を繰り返し前記コンピュータに実行させるための付記11に記載のプログラム。
Regarding the above embodiment, the following additional notes are disclosed.
(Appendix 1)
A playback device that acquires a stream including encoded video and audio and reproduces the video and audio,
A signal acquisition unit for acquiring the stream;
A decoding reproduction unit that generates video data and audio data by separating and decoding the acquired stream, and reproduces the first video and the first audio at the first shift determination time;
A shift determination unit that determines a shift amount during reproduction of the first video and the first audio during the first shift determination time;
A video importance level calculating unit that calculates a video importance level indicating a degree of complexity of a second video that is reproduced in a second shift determination time next to the first shift determination time;
A voice importance level calculation unit for calculating a voice importance level indicating a volume characteristic of the second voice reproduced at a second shift determination time next to the first shift determination time;
An automatic correction unit that controls reproduction of the second video and the second audio so as to correct a deviation during reproduction between the video and the audio based on the video importance, the audio importance, and the shift amount. When,
A playback apparatus comprising:
(Appendix 2)
The supplementary note 1 is characterized in that the video importance is calculated based on at least one of a quantization coefficient added when the video is encoded, a data amount, and a total amount of motion vector lengths. The reproducing apparatus as described.
(Appendix 3)
The voice importance is calculated based on at least one of an average value of temporal changes in volume for each predetermined frequency range of the audio data and an average value of volume for each predetermined frequency range of the audio data. The reproducing apparatus according to appendix 1 or appendix 2, wherein:
(Appendix 4)
The automatic correction unit further corrects a deviation in reproduction between the second video and the second audio based on whether or not there is a non-reference picture in the second video before decoding. 4. The playback device according to any one of appendix 1 to appendix 3, which is characterized.
(Appendix 5)
The automatic correction unit is
A voice operation unit for operating the voice data;
A video operation unit for operating the video data;
Have
Based on whether there is a non-reference picture in the video before decoding and the magnitude relationship between the video importance level and the audio importance level, an audio operation unit and a video operation unit are used when correcting the shift at the time of reproduction. The playback apparatus according to appendix 4, wherein which operation is to be prioritized is determined.
(Appendix 6)
The automatic correction unit is
When the video importance is greater than the audio importance, priority is given to the operation of the audio operation unit,
6. The playback apparatus according to appendix 5, wherein when the audio importance level is greater than the video importance level, a shift between the video and the audio is corrected by performing an operation using the video operation unit.
(Appendix 7)
The voice operation unit
In a section corresponding to the second deviation determination time, there is a silent equivalent section in which the voice importance is equal to or less than a predetermined value,
When the reproduction of the first audio is ahead of the reproduction of the first video, the silent equivalent section is reproduced repeatedly,
When the reproduction of the first video is ahead of the reproduction of the first audio, an operation for deleting the silent equivalent section according to the deviation amount, an operation for changing the audio reproduction speed, Perform at least one of the operations to perform operations on the video operation unit,
In a section where the voice importance is calculated, there is no silent equivalent section where the voice importance is a predetermined value or less,
When the deviation amount is less than a predetermined ratio with respect to the second deviation determination time, the audio playback speed is changed,
The reproduction apparatus according to appendix 5 or appendix 6, wherein when the shift amount is equal to or greater than a predetermined ratio with respect to the second shift determination time, the video operation unit is operated.
(Appendix 8)
The video operation unit
If the reproduction of the first audio is ahead of the reproduction of the first video, at least a process of not reproducing the non-reference picture is performed,
The supplementary note 5 or 5, wherein when the reproduction of the first video is more advanced than the reproduction of the first audio, a process of interpolating a frame having an average of pixel values of preceding and succeeding frames is performed. The reproducing apparatus according to appendix 6.
(Appendix 9)
A reproduction method for obtaining a stream including encoded video and audio and reproducing the video and audio,
Get the stream,
Playing the first video and the first audio based on the first deviation determination time and the stream;
Determining a shift amount during reproduction of the first video and the first audio in the first shift determination time;
Calculating a video importance level indicating a degree of complexity of a second video to be reproduced in a second shift determination time next to the first shift determination time;
Calculating a voice importance level indicating a volume characteristic of the second voice reproduced in the second deviation determination time;
Based on the video importance level, the audio importance level, and the shift amount, the second video and the second audio at the second shift determination time so as to correct a shift during playback between the video and the audio. Control the playback of the
A reproduction method characterized by the above.
(Appendix 10)
Playing back the first video and the first audio, determining the shift amount, calculating the video importance, calculating the audio importance, and controlling the playback are repeatedly performed. The reproduction method according to appendix 9.
(Appendix 11)
A program for obtaining a stream including encoded video and audio and causing a computer to execute a process of reproducing the video and audio,
Get the stream,
Playing the first video and the first audio based on the first deviation determination time and the stream;
Determining a shift amount during reproduction of the first video and the first sound in the first shift determination time;
Calculating a video importance level indicating a degree of complexity of a second video to be reproduced in a second shift determination time next to the first shift determination time;
Calculating a voice importance level indicating a volume characteristic of the second voice reproduced in the second deviation determination time;
Based on the video importance level, the audio importance level, and the shift amount, the second video and the second audio at the second shift determination time so as to correct a shift during playback between the video and the audio. A program for causing the computer to execute a process for controlling the reproduction of an image.
(Appendix 12)
Processing for reproducing the first video and the first audio, processing for determining the shift amount, processing for calculating the video importance, processing for calculating the audio importance, and processing for controlling the reproduction The program according to appendix 11, which is repeatedly executed by the computer.

1 映像音声再生装置
3 主制御部
5 入力再生部
7 ずれ判定部
9 音声重要度判定部
11 映像重要度判定部
13 比較評価部
15 自動補正部
17 システムバス
19 信号取得部
21 分離部
23 音声復号部
25 音声再生部
27 映像復号部
29 映像再生部
31 音声操作部
33 映像操作部
DESCRIPTION OF SYMBOLS 1 Video / audio reproduction device 3 Main control part 5 Input reproduction part 7 Deviation determination part 9 Audio importance degree determination part 11 Video importance degree determination part 13 Comparison evaluation part 15 Automatic correction part 17 System bus 19 Signal acquisition part 21 Separation part 23 Voice decoding Unit 25 Audio playback unit 27 Video decoding unit 29 Video playback unit 31 Audio operation unit 33 Video operation unit

Claims (8)

符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生装置であって、
前記ストリームを取得する信号取得部と、
取得した前記ストリームを分離して復号化することにより、映像データおよび音声データを生成し、第1のずれ判定時間における第1の映像および第1の音声を再生する復号再生部と、
前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定するずれ判定部と、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出する映像重要度算出部と、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出する音声重要度算出部と、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2の映像および前記第2の音声の再生を制御する自動補正部と、
を有することを特徴とする再生装置。
A playback device that acquires a stream including encoded video and audio and reproduces the video and audio,
A signal acquisition unit for acquiring the stream;
A decoding reproduction unit that generates video data and audio data by separating and decoding the acquired stream, and reproduces the first video and the first audio at the first shift determination time;
A shift determination unit that determines a shift amount during reproduction of the first video and the first audio during the first shift determination time;
A video importance level calculating unit that calculates a video importance level indicating a degree of complexity of a second video that is reproduced in a second shift determination time next to the first shift determination time;
A voice importance level calculation unit for calculating a voice importance level indicating a volume characteristic of the second voice reproduced at a second shift determination time next to the first shift determination time;
An automatic correction unit that controls reproduction of the second video and the second audio so as to correct a deviation during reproduction between the video and the audio based on the video importance, the audio importance, and the shift amount. When,
A playback apparatus comprising:
前記映像重要度は、前記映像の符号化の際に付加される量子化係数、データ量、または動きベクトル長の総量のいずれか少なくとも1つに基づいて算出されることを特徴とする請求項1に記載の再生装置。   2. The video importance level is calculated based on at least one of a quantization coefficient, a data amount, and a total motion vector length added when the video is encoded. The playback device described in 1. 前記音声重要度は、前記音声データの所定周波数範囲毎の音量の時間的変化量の平均値、または前記音声データの所定周波数範囲毎の音量の平均値のいずれか少なくとも1つに基づいて算出されることを特徴とする請求項1または請求項2に記載の再生装置。   The voice importance is calculated based on at least one of an average value of temporal changes in volume for each predetermined frequency range of the audio data and an average value of volume for each predetermined frequency range of the audio data. The reproducing apparatus according to claim 1 or 2, characterized in that: 前記自動補正部は、さらに、復号前の前記第2の映像中に非参照ピクチャがあるか否かに基づき前記第2の映像と前記第2の音声との再生時のずれを補正することを特徴とする請求項1から請求項3のいずれか一項に記載の再生装置。   The automatic correction unit further corrects a deviation in reproduction between the second video and the second audio based on whether or not there is a non-reference picture in the second video before decoding. The reproducing apparatus according to any one of claims 1 to 3, wherein the reproducing apparatus is characterized. 前記自動補正部は、
前記音声データを操作する音声操作部と、
前記映像データを操作する映像操作部と、
を有し、
復号前の前記映像中に非参照ピクチャがあるか否か、および前記映像重要度と前記音声重要度との大小関係に基づき、前記再生時のずれを補正する際に音声操作部と映像操作部のいずれの操作を優先するかを決定することを特徴とする請求項4に記載の再生装置。
The automatic correction unit is
A voice operation unit for operating the voice data;
A video operation unit for operating the video data;
Have
Based on whether there is a non-reference picture in the video before decoding and the magnitude relationship between the video importance level and the audio importance level, an audio operation unit and a video operation unit are used when correcting the shift at the time of reproduction. The playback apparatus according to claim 4, wherein which operation is to be prioritized is determined.
前記自動補正部は、
前記映像重要度が前記音声重要度より大きいときには、前記音声操作部の操作を優先し、
前記音声重要度が前記映像重要度より大きいときには、前記映像操作部による操作を行うことにより前記映像と前記音声の再生時のずれを補正することを特徴とする請求項5に記載の再生装置。
The automatic correction unit is
When the video importance is greater than the audio importance, priority is given to the operation of the audio operation unit,
6. The playback apparatus according to claim 5, wherein when the audio importance level is greater than the video importance level, a deviation between the video and the audio is corrected by performing an operation using the video operation unit.
符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する再生方法であって、
前記ストリームを取得し、
第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、
前記第1のずれ判定時間における第1の映像と第1の音声との再生時のずれ量を判定し、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、
前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出し、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御することを特徴とする再生方法。
A reproduction method for obtaining a stream including encoded video and audio and reproducing the video and audio,
Get the stream,
Playing the first video and the first audio based on the first deviation determination time and the stream;
Determining a shift amount during reproduction of the first video and the first audio in the first shift determination time;
Calculating a video importance level indicating a degree of complexity of a second video to be reproduced in a second shift determination time next to the first shift determination time;
Calculating a voice importance level indicating a volume characteristic of the second voice reproduced in the second deviation determination time;
Based on the video importance level, the audio importance level, and the shift amount, the second video and the second audio at the second shift determination time so as to correct a shift during playback between the video and the audio. A reproduction method characterized by controlling reproduction of the video.
符号化された映像および音声を含むストリームを取得し、前記映像および前記音声を再生する処理をコンピュータに実行させるためのプログラムであって、
前記ストリームを取得し、
第1のずれ判定時間、前記ストリームに基づき第1の映像および第1の音声を再生し、
前記第1のずれ判定時間における前記第1の映像と前記第1の音声との再生時のずれ量を判定し、
前記第1のずれ判定時間の次の第2のずれ判定時間において再生される第2の映像の複雑さの度合いを示す映像重要度を算出し、
前記第2のずれ判定時間において再生される第2の音声の音量の特徴を示す音声重要度を算出し、
前記映像重要度、前記音声重要度および前記ずれ量に基づき、前記映像と前記音声との再生時のずれを補正するよう前記第2のずれ判定時間における前記第2の映像および前記第2の音声の再生を制御する処理を前記コンピュータに実行させるためのプログラム。
A program for obtaining a stream including encoded video and audio and causing a computer to execute a process of reproducing the video and audio,
Get the stream,
Playing the first video and the first audio based on the first deviation determination time and the stream;
Determining a shift amount during reproduction of the first video and the first sound in the first shift determination time;
Calculating a video importance level indicating a degree of complexity of a second video to be reproduced in a second shift determination time next to the first shift determination time;
Calculating a voice importance level indicating a volume characteristic of the second voice reproduced in the second deviation determination time;
Based on the video importance level, the audio importance level, and the shift amount, the second video and the second audio at the second shift determination time so as to correct a shift during playback between the video and the audio. A program for causing the computer to execute a process for controlling the reproduction of an image.
JP2011064900A 2011-03-23 2011-03-23 REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM Active JP5696552B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011064900A JP5696552B2 (en) 2011-03-23 2011-03-23 REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011064900A JP5696552B2 (en) 2011-03-23 2011-03-23 REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2012204876A true JP2012204876A (en) 2012-10-22
JP5696552B2 JP5696552B2 (en) 2015-04-08

Family

ID=47185426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011064900A Active JP5696552B2 (en) 2011-03-23 2011-03-23 REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP5696552B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018183219A (en) * 2017-04-24 2018-11-22 株式会社ユニバーサルエンターテインメント Game machine
JP2018183215A (en) * 2017-04-24 2018-11-22 株式会社ユニバーサルエンターテインメント Game machine
JP2018183218A (en) * 2017-04-24 2018-11-22 株式会社ユニバーサルエンターテインメント Game machine

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259093A (en) * 1993-03-08 1994-09-16 Fujitsu Ltd Method and device for converting reproducing speed of digital audio data
JPH09311689A (en) * 1996-05-17 1997-12-02 Ekushingu:Kk Information outputting device
JPH1023381A (en) * 1996-07-01 1998-01-23 Ekushingu:Kk Device for supplying information and output terminal and system for supplying information
JP2004007140A (en) * 2002-05-31 2004-01-08 Toshiba Corp Voice reproducing device and voice reproduction control method to be used for the same device
JP2005102193A (en) * 2003-09-02 2005-04-14 Sony Corp Content receiving apparatus, video/audio output timing control method, and content providing system
JP2005136810A (en) * 2003-10-31 2005-05-26 Nhk Engineering Services Inc Content quality evaluation device, method therefor and program thereofor
JP2006050362A (en) * 2004-08-06 2006-02-16 Casio Comput Co Ltd Device for reproducing moving image with sound and method for correcting reproduction clock

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259093A (en) * 1993-03-08 1994-09-16 Fujitsu Ltd Method and device for converting reproducing speed of digital audio data
JPH09311689A (en) * 1996-05-17 1997-12-02 Ekushingu:Kk Information outputting device
JPH1023381A (en) * 1996-07-01 1998-01-23 Ekushingu:Kk Device for supplying information and output terminal and system for supplying information
JP2004007140A (en) * 2002-05-31 2004-01-08 Toshiba Corp Voice reproducing device and voice reproduction control method to be used for the same device
JP2005102193A (en) * 2003-09-02 2005-04-14 Sony Corp Content receiving apparatus, video/audio output timing control method, and content providing system
JP2005136810A (en) * 2003-10-31 2005-05-26 Nhk Engineering Services Inc Content quality evaluation device, method therefor and program thereofor
JP2006050362A (en) * 2004-08-06 2006-02-16 Casio Comput Co Ltd Device for reproducing moving image with sound and method for correcting reproduction clock

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018183219A (en) * 2017-04-24 2018-11-22 株式会社ユニバーサルエンターテインメント Game machine
JP2018183215A (en) * 2017-04-24 2018-11-22 株式会社ユニバーサルエンターテインメント Game machine
JP2018183218A (en) * 2017-04-24 2018-11-22 株式会社ユニバーサルエンターテインメント Game machine

Also Published As

Publication number Publication date
JP5696552B2 (en) 2015-04-08

Similar Documents

Publication Publication Date Title
JP6287315B2 (en) Video / audio synchronization apparatus, video / audio synchronization method, and computer program for video / audio synchronization
JP4717060B2 (en) Recording / reproducing apparatus, recording / reproducing method, recording medium storing recording / reproducing program, and integrated circuit used in recording / reproducing apparatus
JP4472360B2 (en) Apparatus and method for synchronization of audio and video streams
US7676142B1 (en) Systems and methods for multimedia time stretching
JP7509190B2 (en) Decoding device, method, and program
KR100547445B1 (en) Shifting processing method of digital audio signal and audio / video signal and shifting reproduction method of digital broadcasting signal using the same
JP5734517B2 (en) Method and apparatus for processing multi-channel audio signals
CN109168083B (en) Streaming media real-time playing method and device
JP7233546B2 (en) Optimizing encoding operations when generating buffer-constrained versions of media titles
WO2005117445A1 (en) Adaptive decoding of video data
US20090147842A1 (en) Video processing
JP5696552B2 (en) REPRODUCTION DEVICE, REPRODUCTION METHOD, AND PROGRAM
JP2008167061A (en) Encoding device and encoding method
JP2009017314A (en) Transcoder
JP2009004897A (en) Motion picture encoder
JP5471328B2 (en) Moving picture playback apparatus, moving picture playback method, and program
CN107087210B (en) Method and terminal for judging video playing state based on cache time
US20190387271A1 (en) Image processing apparatus, image processing method, and program
JP6776126B2 (en) Image processing device, image processing method, and program
CN114915840A (en) Audio and video processing method, device, equipment and medium suitable for embedded equipment
JP2008312013A (en) Transcoding device, transcoder, decoder, and transcoding method
CN111866542B (en) Audio signal processing method, multimedia information processing device and electronic equipment
JP2006236475A (en) Coded data reproduction apparatus
JP2011087001A (en) Image processing device and method
JPWO2008129648A1 (en) Frame rate conversion apparatus, frame rate conversion method, and moving picture encoding apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150126

R150 Certificate of patent or registration of utility model

Ref document number: 5696552

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150