JP2017092832A - Reproduction method and reproducer - Google Patents
Reproduction method and reproducer Download PDFInfo
- Publication number
- JP2017092832A JP2017092832A JP2015223504A JP2015223504A JP2017092832A JP 2017092832 A JP2017092832 A JP 2017092832A JP 2015223504 A JP2015223504 A JP 2015223504A JP 2015223504 A JP2015223504 A JP 2015223504A JP 2017092832 A JP2017092832 A JP 2017092832A
- Authority
- JP
- Japan
- Prior art keywords
- video
- sound
- information
- moving image
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、動画編集を支援する技術に関し、特に、編集対象の動画の再生制御に関する。 The present invention relates to a technique for supporting moving image editing, and more particularly to reproduction control of a moving image to be edited.
近年、被写体を複数の視点から撮影した映像(以下、多視点映像)からなる多視点動画が注目されている。この種の多視点動画は、複数の被写体で構成される集合体を被写体毎に撮影した映像を基に構成される。その一例として、ライブ演奏を行うバンドのライブ動画が挙げられる。この種のライブ動画は、例えば、バンドを構成する各メンバーを、担当するパート(例えば、ボーカルやギター)毎に撮影した映像を基に構成される。このようなライブ動画を再生すると、画面に各メンバーの映像が同時に表示され、視聴者は好みのメンバーに注目しながらライブ動画を視聴することができる。また、近年では、多視点映像を構成する各映像からユーザの選択した1の映像を表示する技術が提案されている。例えば、特許文献1によると、メイン画面とサブ画面に分割された表示画面の画面領域のうち、映像データがメイン画面に表示され、当該映像データとは別の視点で撮影された多視点映像データがサブ画面に表示される。ユーザが操作装置を使って所定の操作を行うことにより、サブ画面に表示させる多視点映像データを別の多視点映像データへと切り替えることが可能となっている。 In recent years, a multi-view video composed of videos (hereinafter referred to as multi-view videos) taken from a plurality of viewpoints has attracted attention. This type of multi-view video is configured on the basis of an image obtained by photographing an aggregate composed of a plurality of subjects for each subject. One example is a live video of a band performing a live performance. This type of live moving image is configured based on, for example, a video obtained by photographing each member constituting a band for each part (for example, vocal or guitar) in charge. When such a live video is played, the video of each member is displayed on the screen at the same time, and the viewer can watch the live video while paying attention to a favorite member. In recent years, a technique for displaying one video selected by the user from each video constituting a multi-view video has been proposed. For example, according to Japanese Patent Application Laid-Open No. 2004-133620, video data is displayed on a main screen in a screen area of a display screen divided into a main screen and a sub screen, and multi-view video data captured from a viewpoint different from the video data. Is displayed on the sub screen. When the user performs a predetermined operation using the operation device, the multi-view video data to be displayed on the sub-screen can be switched to another multi-view video data.
ところで、ライブ動画の作成或いは編集を行う際には、動画の再生時に各パートの演奏者(音を発する者、例えば楽器の演奏者或いはボーカル)の映像が画面の適切な位置に表示されるように留意する必要がある。これは、各パートの演奏者の映像の画面内での配置位置が適切でないと、映像に合わせて再生される各パートの音の音像定位位置との整合性が損なわれ、視聴者に違和感を与えるためである。例えば、ギターの演奏者の映像が画面の右側に映っているにもかかわらず、スピーカから放音されるギターの演奏音が左側から聴こえてくる(すなわち、音像が左側に定位している)と、視聴者に違和感を与えることになる。しかし、上記留意点に注意を払いつつ多視点映像を編集することは煩わしい。 By the way, when creating or editing a live video, the video of the player of each part (sounder, eg, musical instrument player or vocal) is displayed at an appropriate position on the screen when the video is played back. It is necessary to pay attention to. This is because, if the position of the player's video in each part on the screen is not appropriate, the consistency with the sound image localization position of the sound of each part played in accordance with the video will be impaired, and the viewer will feel uncomfortable. To give. For example, when the guitar player's image is shown on the right side of the screen, but the guitar performance sound from the speaker is heard from the left side (ie, the sound image is localized on the left side) , It will make the viewer feel uncomfortable. However, it is troublesome to edit a multi-viewpoint video while paying attention to the above points.
この発明は、以上説明した事情に鑑みてなされたものであり、視聴者に違和感を与えることのない多視点映像を手軽に編集することを可能にする技術を提供することを目的としている。 The present invention has been made in view of the circumstances described above, and an object of the present invention is to provide a technique that makes it possible to easily edit a multi-view video that does not give the viewer a sense of incongruity.
この発明は、少なくとも映像情報を含む動画情報を複数受け取る情報受取ステップと、複数の前記動画情報を解析し、音の種別を映像情報毎に識別する識別ステップと、音の種別毎に表示装置の画面の画面領域が対応付けられた映像配置テーブルを参照し、前記識別された音の種別に対応する映像情報の表す映像を表示装置の画面の画面領域に割り当てて表示させる表示ステップとを含むことを特徴とする再生方法を提供する。 The present invention provides an information receiving step for receiving a plurality of moving image information including at least video information, an identifying step for analyzing the plurality of moving image information and identifying a sound type for each video information, and a display device for each sound type. A display step of referring to a video arrangement table associated with the screen area of the screen and allocating and displaying the video represented by the video information corresponding to the identified sound type to the screen area of the screen of the display device. A reproduction method characterized by the above is provided.
本発明によれば、動画情報に含まれる映像情報の表す映像を画面に表示する際に映像配置テーブルが参照され、その映像に対応する音の種別に応じた画面領域に当該映像が表示される。実際にライブ演奏を行うバンドの各パートの演奏者が、映像配置テーブルに列挙された音を、当該音に対応付けられた領域に応じた位置で演奏する場合、各音の音像定位の位置と、画面に表示される各パートの演奏者の映像の位置とが整合する。したがって、視聴者に違和感を与えることなくライブ動画を再生することが可能となる。なお、動画情報に含まれる音の種別を特定する場合、当該音の種別の識別を支援する分類アルゴリズムとして、非特許文献1或いは非特許文献2に記載のk−NN(k-Nearest Neighbors)法等を用いてもよい。
According to the present invention, when the video represented by the video information included in the video information is displayed on the screen, the video layout table is referred to, and the video is displayed in the screen area corresponding to the type of sound corresponding to the video. . When the performer of each part of the band performing the live performance actually plays the sound listed in the video arrangement table at a position corresponding to the area associated with the sound, the sound image localization position of each sound The position of the video of the performer of each part displayed on the screen matches. Therefore, it is possible to play a live video without giving the viewer a sense of incongruity. When identifying the type of sound included in the moving image information, as a classification algorithm that supports identification of the type of sound, k-NN (k-Nearest Neighbors) method described in Non-Patent
以下、図面を参照しつつ本発明の実施の形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<第1実施形態>
図1は、この発明の第1実施形態である再生装置1の構成を示すブロック図である。この再生装置1は、例えばPC(Personal Computer)やタブレット型端末などの動画再生機能を有する装置である。再生装置1は、動画撮像装置(図示略)から取得した動画情報の編集を行う動画編集システムに含まれ、編集対象の動画情報を再生する。この動画編集システムの利用者は、再生装置1により再生される動画を確認しながら、最終的にエンドユーザに配布する動画情報を編集することができる。
<First Embodiment>
FIG. 1 is a block diagram showing a configuration of a
本実施形態における編集対象の動画情報は、ライブ演奏を行うバンドの演奏シーンを収録したものである。この動画情報は、映像情報と音響情報とを含む時系列データである。映像情報は、楽器の演奏者や歌手(以下、演奏者)を表す情報である。具体的には、映像情報は、ライブ演奏を行うバンドの各構成メンバー(演奏者)を、担当するパート毎に撮影した映像を表す。一方、音響情報は、楽器の演奏音や歌唱音声(以下、音)を表す情報である。具体的には、音響情報は、各パートの演奏者が演奏する音を表す。本実施形態では、被写体であるバンドは、エレキギター、ボーカル、ベース、キーボード、バスドラムおよびコーラスの6種類のパートにより構成される。各演奏者をパート毎に撮影した映像情報の表す映像の大部分は各パートの演奏者であるが、他のパートの演奏者の一部も映り込んでいる。音響情報の表す音の大部分も各パートの演奏者が発する音であるが、他のパートの演奏者が発する音も含まれている。以下、動画撮像装置による撮影により得られる動画情報を動画情報CAV_N(N=1〜n:nは2以上の自然数、本実施形態ではn=6)、動画情報CAV_Nに含まれる映像情報を映像情報V_N(N=1〜n)、動画情報CAV_Nに含まれる音響情報を音響情報A_N(N=1〜n)と表記する。 The moving image information to be edited in the present embodiment is recorded with performance scenes of bands performing live performances. This moving image information is time-series data including video information and audio information. The video information is information representing a musical instrument player or singer (hereinafter, a player). Specifically, the video information represents a video obtained by photographing each constituent member (performer) of a band performing live performance for each part in charge. On the other hand, the acoustic information is information representing a performance sound of a musical instrument or a singing voice (hereinafter, sound). Specifically, the acoustic information represents a sound played by the performer of each part. In the present embodiment, a band that is a subject is composed of six types of parts: electric guitar, vocal, bass, keyboard, bass drum, and chorus. Most of the images represented by the video information obtained by photographing each performer for each part are performers of each part, but some performers of other parts are also reflected. Most of the sounds represented by the acoustic information are sounds produced by the performers of each part, but sounds produced by performers of other parts are also included. Hereinafter, moving image information obtained by shooting with the moving image capturing apparatus is moving image information CAV_N (N = 1 to n: n is a natural number of 2 or more, in this embodiment, n = 6), and video information included in the moving image information CAV_N is image information. V_N (N = 1 to n) and the acoustic information included in the moving image information CAV_N are denoted as acoustic information A_N (N = 1 to n).
図1に示すように、再生装置1は、CPU(Central Processing Unit)10、記憶部20、表示部30、メモリインタフェース部40およびサウンドシステム50を有している。メモリインタフェース部40は、CPU10によって行われるSDメモリカード等の記憶媒体へのアクセスを仲介する装置である。本実施形態において、上述した動画撮像装置による撮影により得られる動画情報CAV_Nは、このメモリインタフェース部40を介して再生装置1に入力される。より詳細には、動画情報CAV_Nが書き込まれた記録媒体がメモリインタフェース部40に接続されると、CPU10(より正確には、動画情報取得部110)は当該記録媒体内の動画情報CAV_Nをメモリインタフェース部40を介して読み出し、不揮発性記憶部210に書き込む。
As shown in FIG. 1, the
表示部30は、例えば液晶ディスプレイであり、CPU10による制御の下、映像情報V_Nの各々が表す映像を表示画面に表示する。表示部30の表示画面は、複数の領域(本実施形態では、7個の領域)に仮想的に区分けされており、これら各領域に映像情報V_Nの各々の表す映像が一つずつ表示される。図2は、複数の領域に区分けされた表示部30の表示画面の一例を示す図である。図2に示すように、表示部30の画面は、エリア1〜エリア7に区分けされている。サウンドシステム50は、左右各チャネルのスピーカ等を含んでおり、CPU10による制御の下、放音する。詳細については後述するが、CPU10は音響情報A_Nの各々を上記各スピーカに振り分けて出力する。
The
記憶部20は、不揮発性記憶部210と揮発性記憶部220とを含んでいる。揮発性記憶部220は、例えばRAM(Random Access Memory)であり、不揮発性記憶部210は、例えばHDD(Hard Disk Drive)やFlashROM(Read Only Memory)である。前述したように、不揮発性記憶部210には、動画情報CAV_Nが格納される。また、不揮発性記憶部210には、再生プログラム211、音識別プログラム212、映像配置テーブル213およびクラス分類テーブル214が予め格納されている。
The
再生プログラム211は、動画情報CAV_Nの不揮発性記憶部210への書き込みや動画情報CAV_Nの不揮発性記憶部210からの読み出し、動画情報CAV_Nの再生など、再生装置1の基本的な機能をCPU10に実現させるプログラムである。なお、動画情報CAV_Nの再生には、当該動画情報CAV_Nに含まれる音響情報A_Nの表す映像の表示と、当該動画情報CAV_Nに含まれる映像情報V_Nの表す音の出力とが含まれる。
The
音識別プログラム212は、本発明の特徴を顕著に示す処理をCPU10に実行させるプログラムである。より詳細には、音識別プログラム212は、動画情報CAV_Nに含まれる音響情報A_Nを解析することにより、音響情報A_Nの表す音の種別(パート)をクラス分類テーブル214の格納内容を参照して識別する音識別処理をCPU10に実現させるプログラムである。
The
クラス分類テーブル214には、ボーカルの歌唱音や楽器の演奏音等の音の種別を示す音識別情報に対応付けてその音の音響的な特徴を示す特徴量ベクトルが格納されている。本実施形態では、1種類の音について、「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、「シ」の7種類の音階の各々に対応する7種類の特徴量ベクトルがクラス分類テーブル214に格納されている。そして、各特徴量ベクトルは、その特徴量ベクトルに対応する音の基本周波数成分の信号レベルに対するM(2≦M≦m+1)次倍音成分の信号レベルの比を構成要素とするm次元ベクトルである。このような特徴量ベクトルを音の特徴を示す情報として用いるのは、倍音構造には音の種別が反映されているからである。この特徴量ベクトルについては音の波形を示す波形データにフーリエ変換を施して各周波数成分の信号レベルを抽出する等の周知の手法により生成すれば良い。 The class classification table 214 stores feature quantity vectors indicating the acoustic features of the sounds in association with sound identification information indicating the type of sound such as vocal singing sound or musical instrument performance sound. In this embodiment, for one type of sound, seven types corresponding to each of the seven types of scales of “do”, “le”, “mi”, “fa”, “so”, “la”, and “si”. Are stored in the class classification table 214. Each feature vector is an m-dimensional vector whose component is the ratio of the signal level of the M (2 ≦ M ≦ m + 1) overtone component to the signal level of the fundamental frequency component of the sound corresponding to the feature vector. . The reason why such a feature vector is used as information indicating the characteristics of a sound is that the type of sound is reflected in the overtone structure. The feature vector may be generated by a known method such as performing Fourier transform on the waveform data indicating the sound waveform to extract the signal level of each frequency component.
本実施形態では、エレキギター、ボーカル、ベース、キーボード、バスドラム、およびコーラスの6種類の音についての音識別情報と特徴量ベクトルとがクラス分類テーブル214に格納されている。以下では、この特徴量ベクトルを「特徴量ベクトルVI_J(I=1〜7、J=1〜6)」と表記する。また、本実施形態では、音識別情報として、エレキギターについて文字列LBegが、ボーカルについては文字列LBboが、ベースについては文字列LBbaが、キーボードについては文字列LBkbが、バスドラムについては文字列LBbdが、およびコーラスについては文字列LBchが用いられている。なお、本実施形態では、音識別情報と特徴量ベクトルVI_Jとを対応付けてクラス分類テーブル214に格納したが、図3に示すように、特徴量ベクトルVI_Jの算出元となった波形データ(すなわち、添え字Nの示す種別および添え字Iの示す音階の音の波形を示す波形データ)をさらに対応付けても良い。 In the present embodiment, sound classification information and feature amount vectors for six types of sounds of electric guitar, vocal, bass, keyboard, bass drum, and chorus are stored in the class classification table 214. Hereinafter, this feature vector is referred to as “feature vector VI_J (I = 1 to 7, J = 1 to 6)”. In this embodiment, as the sound identification information, the character string LBeg is used for electric guitars, the character string LBbo is used for vocals, the character string LBba is used for bass, the character string LBkb is used for keyboards, and the character string is used for bass drums. The character string LBch is used for LBbd and chorus. In the present embodiment, the sound identification information and the feature quantity vector VI_J are stored in the class classification table 214 in association with each other. However, as shown in FIG. 3, the waveform data (that is, the source of calculation of the feature quantity vector VI_J) , The type indicated by the subscript N and the waveform data indicating the waveform of the sound of the scale indicated by the subscript I) may be further associated.
映像配置テーブル213は、映像情報V_Nの表す各パートの演奏者の映像を表示部30の表示画面における表示位置(例えば、表示画面の左上隅を原点とする二次元座標系における当該映像の左上隅の位置座標)を規定するテーブルである。図4は、映像配置テーブル213の例を示す図である。図4に示すように、映像配置テーブル213には、各演奏者の担当する各パートの音識別情報に対応付けて、表示部30における表示領域を示す情報が格納されている。より詳細には、エレキギターを示すLBegにはエリア1が、ボーカルを示すLBboにはエリア2が、ベースを示すLBbaにはエリア3が、キーボードを示すLBkbにはエリア4が、バスドラムを示すLBbdにはエリア5が、コーラスを示すLBchにはエリア6および7が対応付けられている。映像情報V_Nの表す各パートの演奏者の映像は、この映像配置テーブル213に従って表示部30の表示画面に表示され、この点に本発明の顕著な特徴がある。
The video arrangement table 213 displays the video of the performer of each part represented by the video information V_N on the display screen of the display unit 30 (for example, the upper left corner of the video in a two-dimensional coordinate system with the upper left corner of the display screen as the origin). It is a table which prescribes | regulates (position coordinates). FIG. 4 is a diagram illustrating an example of the video arrangement table 213. As shown in FIG. 4, the video arrangement table 213 stores information indicating the display area in the
以下、この点について詳述する。図5は、ミックスダウンで推奨される楽器の空間配置を示す図である。図5において、x軸、y軸およびz軸の各軸は、それぞれ定位、周波数および奥行を示す。図5に示す空間配置図によると、ミックスダウン時にパンを調整する際には、例えばボーカルの音像定位を中央とし、コーラスの音像定位を左右とすることにより、バランスの良い聴感が得られることが知られている。 Hereinafter, this point will be described in detail. FIG. 5 is a diagram showing a spatial arrangement of musical instruments recommended for mixdown. In FIG. 5, the x-axis, y-axis, and z-axis indicate the localization, frequency, and depth, respectively. According to the spatial layout shown in FIG. 5, when adjusting the pan at the time of the mixdown, for example, the vocal sound image localization is set to the center and the chorus sound image localization is set to the left and right, a balanced hearing can be obtained. Are known.
通常、ライブ演奏では、バンドの各パートを担当する演奏者は、図5(或いは、図4)に従った立ち位置で演奏を行うことが多く、本実施形態における編集対象の動画情報の被写体であるバンドの各演奏者も図5に示す立ち位置で演奏を行っている。図4に従った立ち位置で演奏を行うことにより、バランスの良い聴感が得られるからである。映像情報V_Nの表す映像が表示部30の表示画面にランダムに配置されると、サウンドシステム50から放音される各パートの音の音像定位の位置と、各パートの演奏者の画面内での表示位置との整合性が損なわれ、視聴者に違和感を与えることは前述した通りである。そこで、本実施形態では、映像配置テーブル213に従って、各パートの演奏者の映像を表示部30の表示画面に表示することにより、パート毎の好適な映像表示位置を動画再生システムのユーザ(すなわち、再生装置1のユーザ)に提示し、上記不整合が発生するような動画の編集を防止するのである。
Usually, in a live performance, the performer in charge of each part of the band often performs at a standing position according to FIG. 5 (or FIG. 4), and the subject of the moving image information to be edited in this embodiment. Each performer of a certain band also performs at the standing position shown in FIG. This is because a balanced audibility can be obtained by performing at a standing position according to FIG. When the video represented by the video information V_N is randomly arranged on the display screen of the
CPU10は、記憶部20(より正確には、不揮発性記憶部210)に記憶されている各プログラムを実行することにより再生装置1の制御中枢として機能する。本実施形態では、CPU10は再生装置1の電源(図示略)の投入を契機として、再生プログラム211および音識別プログラム212を不揮発性記憶部210から揮発性記憶部220へ読み出し、これら各プログラムを並列に実行する。CPU10は、再生プログラム211を実行することにより、図1に示す動画情報取得部110および動画情報出力部130として機能する。また、CPU10は、音識別プログラム212を実行することにより、図1に示す音識別部120として機能する。
The
動画情報取得部110は、メモリインタフェース部40に記録媒体が接続されると、動画情報CAV_Nを読み出し(情報受取ステップ)、当該動画情報を不揮発性記憶部210に格納するとともに、動画情報CAV_Nを音識別部120に与える。なお、動画情報取得部110は、ユーザに各種情報を入力させるための操作手段(図示略)を介したユーザの操作を契機として、動画情報CAV_Nの読出しを行ってもよい。
When the recording medium is connected to the
音識別部120は、動画情報取得部110から動画情報CAV_Nを受け取ると、当該動画情報に含まれる音響情報A_Nに対して音識別処理を実行する(識別ステップ)。音識別処理の詳細については重複を避けるため動作例において明らかにするが、概略は以下の通りである。音識別部120は、音響情報A_Nの表す音を解析して前述した特徴量ベクトルを生成し、この特徴量ベクトルとクラス分類テーブル214の格納内容とから当該演奏音の種別を識別し、その識別結果を示す音識別情報を動画情報CAV_Nに付与して、動画情報出力部130に与える。
When the
動画情報出力部130は、音識別部120から動画情報CAV_Nを受け取り、音響情報A_Nおよび映像情報V_Nを取り出す。動画情報出力部130は、動画情報CAV_Nを受け取ったことを契機として、記憶部20(より正確には、不揮発性記憶部210)から映像配置テーブル213を読み出す。動画情報出力部130は、音響情報A_Nをミキシングしてサウンドシステム50に出力する。また、動画情報出力部130は、映像配置テーブル213を参照し、動画情報CAV_Nに付与された音識別情報に対応する各領域を特定し、各領域に映像情報V_Nの各々の表す映像が表示されるよう、映像情報V_Nを合成し(表示ステップ)、その合成結果を示す映像情報を表示部30に出力する。
以上が再生装置1の構成である。
The moving image
The above is the configuration of the
次に、再生装置1が実行する動作について説明する。再生装置1が実行する処理は、上述したように音識別処理、および動画情報の再生処理や書込みまたは読出し等の基本的な処理に大別される。
Next, operations performed by the
動画編集システムのユーザが、動画撮像装置等により収録した動画情報CAV_Nの書き込まれた記録媒体をメモリインタフェース部40に接続すると、動画情報CAV_Nは動画情報取得部110による読出しおよび書込みを経て音識別部120に与えられる。音識別部120は、動画情報CAV_Nを取得すると、音響情報A_Nの各々を取り出して音識別処理を実行する。図6は、音識別部120および動画情報出力部130が実行する音識別処理の内容を示すフローチャートである。
When a user of the moving image editing system connects a recording medium in which moving image information CAV_N recorded by a moving image capturing device or the like is written to the
音識別部120は、音響情報A_Nの各々について以下の処理を実行する。音識別部120は、音響情報A_Nをフレームに区切り、FFT(Fast Fourier Transform)を施す。次いで、音識別部120は、予め定められたフレーム(例えば先頭フレームや、先頭フレームから所定時間経過後のフレーム)の各々についてピッチ(基本周波数)抽出を施し、その基本周波数f[Hz]の信号成分の信号レベルと、そのM(2≦M≦m+1)次倍音成分(周波数:2f、3f、・・・、(m+1)f[Hz])の各信号成分の信号レベルをフレーム毎に算出する。なお、ピッチ抽出については周知の技術を適宜用いるようにすれば良い。次いで、音識別部120は、倍音成分の信号レベルと基本周波数における信号レベルの比を算出し、それらの比を並べて特徴量ベクトルU_Nを生成する。
The
次いで、音識別部120は、k−NN(k-Nearest Neighbors:k−最近傍法)法による分類アルゴリズムに従って、特徴量ベクトルU_Nの属性(すなわち、音響情報A_Nの表す音の種別)を特定する(ステップS100)。音識別部120は、m次元空間内に、特徴量ベクトルU_Nの終点を中心とし、かつ、特徴量ベクトルVI_Jをk(例えば、k=5)個含むような半径rの球を設定する。より詳細には、音識別部120は、設定した球に含まれる特徴量ベクトルVI_Jの個数をカウントし、その球の内部にk個の特徴量ベクトルVI_Jが含まれるように、半径rの値を調整する。次いで、音識別部120は、記憶部20(より正確には、揮発性記憶部210)からクラス分類テーブル214を読み出し、当該クラス分類テーブル214を参照することにより、その球の内部に含まれるk個の特徴量ベクトルVI_Jの各々の属性を特定する。球の内部に含まれる特徴量ベクトルVI_Jの各々の属性が全て等しい場合、音識別部120は当該属性を特徴量ベクトルU_Nの属性として決定する。球の内部に含まれるk個の特徴量ベクトルVI_Jの各々の属性が複数種類に亙っている場合、多数決により決定した属性、すなわちより多く特定された属性を特徴量ベクトルU_Nの属性として決定する。例えば、球の内部に含まれる5つの特徴量ベクトルVI_Jの属性としてエレキギター(LBeg)が3個、ボーカル(LBbo)が2個特定された場合、多数決により特徴量ベクトルU_Nの属性はエレキギターと特定される。なお、特徴量ベクトルU_Nの属性を精度良く特定したい場合、他のフレームを基に特定した特徴量ベクトルU_NついてもステップS110に示す処理を実行し、そのうち最も多く特定された属性を特徴量ベクトルU_Nの属性として決定すればよい。
Next, the
音識別部120は、特徴量ベクトルU_Nの各々の属性を特定すると、当該特徴量ベクトルU_Nの属性を示す音識別情報を動画情報CAV_Nに付与し、当該動画情報CAV_Nを動画情報出力部130に与える。例えば、特徴量ベクトルU_1の属性がエレキギターであった場合、ラベルLBegを動画情報CAV_1に付与して動画情報出力部130に与える。
When identifying each attribute of the feature vector U_N, the
動画情報出力部130は、各々音識別情報を付与された動画情報CAV_Nを音識別部120から受け取ると、記憶部20(より正確には、不揮発性記憶部210)から映像配置テーブル213を読み出し、動画情報CAV_Nに付与された音識別情報に対応付けられた領域、すなわち映像情報V_Nの表す映像を表示する領域を特定する(ステップS110)。次いで、動画情報出力部130は、特定した各領域に映像情報V_Nの表す映像が表示されるよう、映像情報V_Nを合成し、その合成結果を示す映像情報を表示部30に出力する(ステップS120)。この結果、表示部30の表示画面には、映像情報V_Nの表す映像が図2に示す領域に表示される。
When the moving image
以上、本実施形態によれば、音識別部120により識別された各音の演奏者の映像が映像配置テーブル213により指定された領域に表示される。前述したように、本実施形態の被写体のバンドの各演奏者は、図5に示す立ち位置で演奏を行っており、音響情報V_Nにおける音像の定位位置も図5に示す位置に応じたものとなっている。このため、サウンドシステム50から放音される各音の音像の定位位置と、各音の演奏者の映像の表示画面内での配置位置との整合性が損なわれることはない。このため、エンドユーザに配布する動画情報における各演奏者の映像の表示位置を、再生装置1により決定された位置から変更しないように編集を行えば、エンドユーザに違和感を与えることのない多視点映像を手軽に編集することができる。
As described above, according to the present embodiment, the video of the performer of each sound identified by the
なお、動画再生システムのユーザが操作手段(図示略)を介して、サウンドシステム50から放音された音響情報A_Nの表す演奏音の定位位置を変更させる編集(パンの調整)を行った場合には、映像情報V_N(或いは映像情報V_1〜V_6の各々)の表示位置を変更後の定位位置に応じて変更する処理をCPU10に行わせて良く、また、映像情報V_Nの表示位置を変更させる編集を行った場合には、音響情報A_N(或いは音響情報V_1〜V_6の各々)のパンを変更後の表示位置に応じて調整する処理をCPU10に行わせても良い。
When the user of the video playback system performs editing (pan adjustment) for changing the localization position of the performance sound represented by the acoustic information A_N emitted from the
<第2実施形態>
図7は、本発明の第2実施形態である再生装置1Aの構成を示す図である。図7では、図1と同一の構成要素には同一の符号が付されている。図7と図1を対比すれば明らかなように、本実施形態による再生装置1Aは、記憶部20に代えて記憶部20Aを有する点において第1実施形態による再生装置1と異なる。以下、第1実施形態との相違点である記憶部20Aを中心に説明する。
Second Embodiment
FIG. 7 is a diagram showing the configuration of a playback apparatus 1A that is the second embodiment of the present invention. In FIG. 7, the same components as those in FIG. 1 are denoted by the same reference numerals. As is clear from a comparison between FIG. 7 and FIG. 1, the playback device 1A according to the present embodiment is different from the
記憶部20Aは、不揮発性記憶部210に換えて不揮発性記憶部210Aを有する点において記憶部20と異なる。不揮発性記憶部210Aは、以下の3つの点が不揮発性記憶部210と異なる。第1に、複数の映像配置テーブル(図8では、映像配置テーブル213A_T(T=1〜t:tは2以上の自然数))が格納されている点である。第2に、クラス分類テーブル214に代えてクラス分類テーブル214Aが格納されている点である。そして、第3に、再生プログラム211に代えて再生プログラム211Aが格納されている点である。
The
映像配置テーブル213A_T(T=1〜t:tは2以上の自然数)の各々の格納内容は、第1実施形態における映像配置テーブル213と同様に、ミックスダウンで推奨される楽器の空間配置に対応している。映像配置テーブル213A_T(T=1〜t:tは2以上の自然数)の各々は、それぞれ編成の異なるバンド(楽団)に対応している。例えば、図8に示す映像配置テーブル213A_1は、音識別情報としてLBeg、LBbo、LBba、LBkb、LBpi(ピアノを示す音識別情報)を含んでいる。つまり、図8に示す映像配置テーブル213A_1の格納内容は、エレキギター、ボーカル、ベース、およびピアノにより構成されるバンド(楽団)に対応する。クラス分類テーブル214Aは、映像配置テーブル213A_T(T=1〜t:tは2以上の自然数)の各々に格納されている音識別情報のすべてを含んでいる。 The stored contents of each of the video layout tables 213A_T (T = 1 to t: t is a natural number of 2 or more) correspond to the spatial layout of the musical instruments recommended for the mixdown as in the video layout table 213 in the first embodiment. doing. Each of the video arrangement tables 213A_T (T = 1 to t: t is a natural number of 2 or more) corresponds to a band (orches) having a different organization. For example, the video arrangement table 213A_1 illustrated in FIG. 8 includes LBeg, LBbo, LBba, LBkb, and LBpi (sound identification information indicating a piano) as sound identification information. That is, the stored content of the video arrangement table 213A_1 shown in FIG. 8 corresponds to a band (orchestra) composed of an electric guitar, vocals, bass, and piano. The class classification table 214A includes all of the sound identification information stored in each of the video arrangement tables 213A_T (T = 1 to t: t is a natural number of 2 or more).
CPU10は、再生プログラム211Aを実行することにより動画情報取得部110および動画情報出力部130Aとして機能する。動画情報出力部130Aは、映像配置テーブル213A_Tのうちから、動画情報CAV_Nに付与された音識別情報をすべて含むテーブル(以下、映像配置テーブル213A_t0)を選択する。そして、動画情報出力部130Aは、映像配置テーブル213A_t0を基に、動画情報CAV_Nに付与された音識別情報に対応付けられた領域を特定する。図9は、各映像配置テーブル213A_t0に対応した表示部30の表示画面の例を示す図である。図9に示すように、動画情報出力部130Aにより特定された各映像配置テーブル213A_t0に従って、映像情報V_Nの表す各パートの演奏者の映像が表示部30の表示画面に表示される。
The
一般にバンドの構成はバンド毎に区々であるが、本実施形態によれば、バンドの構成に応じた最適な表示位置に各演奏者の映像を配置して表示部30に表示させることが可能になる。
In general, the band configuration varies from band to band, but according to the present embodiment, it is possible to display the video of each performer on the
<他の実施形態>
以上、この発明の各種の実施形態について説明したが、この発明には他にも実施形態が考えられる。
<Other embodiments>
While various embodiments of the present invention have been described above, other embodiments are possible for the present invention.
(1)上記各実施形態では、音響情報A_Nの表す音の種別を音識別部120により特定したが、音識別部120(音識別処理)を省略してもよい。この場合、キーボード等の入力手段を再生装置1に設け、音響情報A_Nの表す音の種別を示す情報を、当該入力手段を介してユーザに入力させる。そして、この情報を動画情報出力部130に参照させればよい。この態様によれば、音識別部120を省略することができるため、CPU10の処理負荷を低減させることが可能となる。
(1) In each of the above embodiments, the type of sound represented by the acoustic information A_N is specified by the
(2)上記各実施形態では、音響情報A_Nに対して音識別処理を実行することにより、その音響情報A_Nの表す音の種別を特定した。しかし、映像情報V_Nの表す映像に対して画像解析処理を実行することにより、音響情報A_Nの表す音の種別を特定してもよい。また、音識別処理と画像解析処理を併用してもよい。この態様によれば、いずれか一方のみでは識別不能な場合であっても、音の種別を特定可能な場合があり、また、音の種別をより精度良く特定することが可能となる。 (2) In each of the above embodiments, the type of sound represented by the acoustic information A_N is specified by performing the sound identification process on the acoustic information A_N. However, the type of sound represented by the acoustic information A_N may be specified by performing image analysis processing on the video represented by the video information V_N. Further, sound identification processing and image analysis processing may be used in combination. According to this aspect, even if only one of them cannot be identified, the type of sound may be specified, and the type of sound can be specified with higher accuracy.
(3)上記各実施形態において、音識別部120により識別された音響情報A_Nの各々の表す音の種別を基に、当該音により構成される楽曲ジャンルを識別し、識別した楽曲ジャンルの種別に応じて、映像情報V_Nの各々の表す映像の表示画面内の配置位置を決定してもよい。具体的には、各々異なる楽曲ジャンル毎に、楽曲を構成する音の種別毎に当該音に対応する映像の配置位置を規定したテーブルを予め記憶部20に格納しておく。そして、音識別部120には、音響情報A_Nの各々が表す音の種別を過不足なく含む映像配置テーブルに対応する楽曲ジャンルを当該音により構成される楽曲の楽曲ジャンルとして識別させ、動画情報出力部130には、音識別部120により識別された楽曲ジャンルに対応する映像配置テーブルを参照させればよい。なお、表示画面内の配置位置を決定する際には、その楽曲ジャンルで一般的に推奨されている配置位置を基に決定してもよい。
(3) In each of the above embodiments, the music genre constituted by the sound is identified based on the type of sound represented by each of the acoustic information A_N identified by the
(4)上記第2実施形態において、音識別部120および120Aは、表示部30への映像の表示を開始してから所定時間が経過する毎に音識別処理を行ってもよい。この態様によれば、ライブ演奏中に異なる種類の楽器を演奏し始めたりするようなことがあったとしても、都度、楽器の種類に応じた映像配置テーブル213A_Tに従って、映像情報V_Nの表す各パートの演奏者の映像を表示部30の表示画面に表示することが可能となる。また、ライブの開演から所定時間が経過する毎に各演奏者が立ち位置を変更する場合には、その変更時刻毎にその変更後の立ち位置に応じた映像配置テーブル213A_Tを用意しておき、表示部30への映像の表示を開始してから上記所定時間が経過する毎にその変更時刻に応じた映像配置テーブル213A_Tを用いて音識別処理を行うことで映像情報V_Nの表す各パートの演奏者の映像の表示位置を各演奏者の動きに追従させることが可能になる。
(4) In the second embodiment, the
(5)上記第1実施形態において、表示部30の表示画面の区分けの方法は適宜変更してもよい。図10は、複数の領域に区分けされた表示部30の表示画面の他の例を示す図である。図10に示す例では、表示部30の表示画面は、表示画面全体に亘って複数の長方形の領域に区切られている。この態様によれば、表示部30の表示画面を有効利用することが可能となる。
(5) In the first embodiment, the method of dividing the display screen of the
(6)上記第2実施形態において、編集対象の動画の被写体であるバンドの編成と同じ編成に対応する映像配置テーブル213A_Tが存在しない場合、動画情報出力部130は、映像配置テーブル213A_Tのうちから、動画情報CAV_Nに付与された音識別情報を最も多く含むテーブルを選択し、その映像配置テーブルに従って映像情報V_Nの表す各パートの演奏者の映像の表示位置を決定してもよい。
(6) In the second embodiment, when there is no video arrangement table 213A_T corresponding to the same organization as that of the band that is the subject of the moving image to be edited, the video
(7)上記各実施形態では、特徴量ベクトルU_Nの属性を決定する際のアルゴリズムとしてk−NN法を用いたが、例えばSVM(Support Vector Machine)などの他のアルゴリズムを用いても良い。 (7) In each of the above embodiments, the k-NN method is used as an algorithm for determining the attribute of the feature vector U_N. However, other algorithms such as SVM (Support Vector Machine) may be used.
(8)上記実施形態では、音識別部120が抽出する特徴量として音響情報A_Nの表す音信号の倍音成分の信号レベルを例として挙げたが、例えばケプストラムなどの他の特徴量であってもよい。
(8) In the above embodiment, the signal level of the harmonic component of the sound signal represented by the acoustic information A_N is given as an example of the feature quantity extracted by the
(9)上記各実施形態では、バンドを構成する各演奏者の映像および演奏音を表す動画情報CAV_Nが再生装置1に入力されたが、バンド全体の映像および演奏音を表す動画情報が再生装置1に入力されてもよい。この場合、以下の処理を再生装置1の各部およびユーザに実行させてもよい。
(9) In each of the above embodiments, the moving image information CAV_N representing the video and performance sound of each player constituting the band is input to the
この場合、再生装置1には、当該動画情報から各演奏者の演奏音を表す音響情報A_Nと各演奏者の映像を表す映像情報V_Nとを生成させた後に上記実施形態の処理を実行させるようにすればよい。なお、バンド全体の映像および演奏音を表す動画情報からの各演奏者の演奏音を表す音響情報A_Nの生成については、独立成分分析等の既存の音源分離技術等を用いるようにすればよい。また、当該動画情報からの映像情報V_Nの生成および音響情報A_Nとの対応付けについては、例えば上記動画情報の表す映像において各演奏者の占める領域およびその演奏者の演奏音の種別(すなわち、音響情報A_Nとの対応)をユーザに指定させることにより実現すればよい。
In this case, the
上記実施形態において、動画情報CAV_Nの再生時に、音響情報A_Nの表す音に基づいて映像情報V_Nの表す映像を同期させてもよい(特開2001−36867号公報参照)。この場合、音響情報A_Nに含まれる演奏音の特徴を基に各音響情報A_Nを同期させることにより、各映像情報V_Nの表す映像を同期させることが可能となる。 In the above embodiment, when the moving image information CAV_N is reproduced, the video represented by the video information V_N may be synchronized based on the sound represented by the acoustic information A_N (see JP 2001-36867 A). In this case, it is possible to synchronize the video represented by each video information V_N by synchronizing each acoustic information A_N based on the characteristics of the performance sound included in the acoustic information A_N.
1,1A…再生装置、10…CPU、110…動画情報取得部、120…音識別部、130,130A…動画情報出力部、20,20A…記憶部、210,210A…不揮発性記憶部、211,211A…再生プログラム、212…音識別プログラム、213,213A_T…映像配置テーブル、220…揮発性記憶部、214,214A…クラス分類テーブル、30…表示部、40…メモリインタフェース、50…サウンドシステム。
DESCRIPTION OF
Claims (5)
複数の前記動画情報を解析し、音の種別を映像情報毎に識別する識別ステップと、
音の種別毎に表示装置の画面の画面領域が対応付けられた映像配置テーブルを参照し、前記識別された音の種別に対応する映像情報の表す映像を表示装置の画面の画面領域に割り当てて表示させる表示ステップと
を含むことを特徴とする再生方法。 An information receiving step for receiving a plurality of pieces of video information including at least video information;
An analysis step of analyzing a plurality of the moving image information and identifying a type of sound for each video information;
The video arrangement table in which the screen area of the display device screen is associated with each sound type is referred to, and the video represented by the video information corresponding to the identified sound type is assigned to the screen area of the display device screen. A display method comprising: a display step for displaying.
を有することを特徴とする再生装置。 A plurality of pieces of video information are received, and a sound corresponding to the video represented by the video information is obtained for each of the plurality of pieces of video information with reference to a video arrangement table in which screen areas of the display device screen are associated with each type of sound. A playback apparatus comprising: a moving picture information output unit that identifies a screen area corresponding to the type of the video, assigns the video to the area, and causes the display to display the video.
前記動画情報出力部は、
複数の前記映像情報の各々が表す映像の画面領域を前記音識別部により識別された音の種別に応じて特定する
ことを特徴とする請求項2に記載の再生装置。 A plurality of pieces of video information including the video information and sound information representing sound corresponding to the video represented by the video information are received, and the type of sound represented by each of the plurality of sound information is set to the sound information or the sound information. A sound identification unit that analyzes and identifies at least one of video information corresponding to
The moving picture information output unit
The playback apparatus according to claim 2, wherein a screen area of a video represented by each of the plurality of video information is specified according to a type of sound identified by the sound identification unit.
前記動画情報出力部は、複数の前記映像配置テーブルのうちから前記音識別部により識別された音の種別をすべて含む映像配置テーブルを選択し、当該選択した映像配置テーブルを参照して各映像の画面領域を特定することを特徴とする請求項3に記載の再生装置。 A plurality of the video arrangement tables having different combinations of stored sound types;
The moving image information output unit selects a video arrangement table including all the types of sounds identified by the sound identification unit from the plurality of video arrangement tables, and refers to the selected video arrangement table for each video. The playback apparatus according to claim 3, wherein a screen area is specified.
各々異なる楽曲ジャンルに対応する複数の前記映像配置テーブルを有し、
前記音識別部は、識別した音の種別を基に当該音により構成される楽曲ジャンルを識別し、
前記動画情報出力部は、前記複数の映像配置テーブルのうちから音識別部により識別された楽曲ジャンルを示す映像配置テーブルを選択し、当該選択した映像配置テーブルを参照して各映像の画面領域を特定することを特徴とする請求項3または4に記載の再生装置。 The sound represented by the plurality of acoustic information constitutes a music piece,
A plurality of the video arrangement tables corresponding to different music genres,
The sound identification unit identifies a music genre constituted by the sound based on the identified type of sound,
The moving image information output unit selects a video arrangement table indicating the music genre identified by the sound identification unit from the plurality of video arrangement tables, and refers to the selected video arrangement table to display a screen area of each video. The playback apparatus according to claim 3, wherein the playback apparatus is specified.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015223504A JP2017092832A (en) | 2015-11-13 | 2015-11-13 | Reproduction method and reproducer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015223504A JP2017092832A (en) | 2015-11-13 | 2015-11-13 | Reproduction method and reproducer |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017092832A true JP2017092832A (en) | 2017-05-25 |
Family
ID=58768756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015223504A Pending JP2017092832A (en) | 2015-11-13 | 2015-11-13 | Reproduction method and reproducer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017092832A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018033093A (en) * | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | Composition parameters optimization device, its method and program |
-
2015
- 2015-11-13 JP JP2015223504A patent/JP2017092832A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018033093A (en) * | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | Composition parameters optimization device, its method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8917972B2 (en) | Modifying audio in an interactive video using RFID tags | |
JP7014176B2 (en) | Playback device, playback method, and program | |
US8887051B2 (en) | Positioning a virtual sound capturing device in a three dimensional interface | |
CN103733249B (en) | Infosystem, information reproduction apparatus, information generating method and recording medium | |
KR101414217B1 (en) | Real time image synthesis apparatus and image synthesis method | |
CN114466242A (en) | Display device and audio processing method | |
CN114615534A (en) | Display device and audio processing method | |
JP6568351B2 (en) | Karaoke system, program and karaoke audio playback method | |
JP2017092832A (en) | Reproduction method and reproducer | |
CN114598917B (en) | Display device and audio processing method | |
JP2018155936A (en) | Sound data edition method | |
JP6110731B2 (en) | Command input recognition system by gesture | |
Toft | Recording classical music | |
JP2014123085A (en) | Device, method, and program for further effectively performing and providing body motion and so on to be performed by viewer according to singing in karaoke | |
JP5338312B2 (en) | Automatic performance synchronization device, automatic performance keyboard instrument and program | |
JP4645955B2 (en) | How to create video data with audio | |
JP6474292B2 (en) | Karaoke equipment | |
JP2020008752A (en) | Live band karaoke live distribution system | |
JP5687961B2 (en) | Synchronous playback apparatus and synchronous playback method | |
Lopes | INSTRUMENT POSITION IN IMMERSIVE AUDIO: A STUDY ON GOOD PRACTICES AND COMPARISON WITH STEREO APPROACHES | |
JP2023174364A (en) | Karaoke device | |
JP2005210350A (en) | Video edit method and apparatus | |
CN118175377A (en) | Display device and audio processing method | |
CN118175379A (en) | Display device and audio processing method | |
CN118175376A (en) | Display device and audio processing method |