JP2016080908A - Signal processing device - Google Patents
Signal processing device Download PDFInfo
- Publication number
- JP2016080908A JP2016080908A JP2014212921A JP2014212921A JP2016080908A JP 2016080908 A JP2016080908 A JP 2016080908A JP 2014212921 A JP2014212921 A JP 2014212921A JP 2014212921 A JP2014212921 A JP 2014212921A JP 2016080908 A JP2016080908 A JP 2016080908A
- Authority
- JP
- Japan
- Prior art keywords
- video
- avatar
- processing
- unit
- processing parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
本発明は、互いに同期再生される映像と音の各々を表す信号を加工する技術に関する。 The present invention relates to a technique for processing a signal representing each of video and sound that are reproduced in synchronization with each other.
デジタル技術の発達に伴い、互いに同期再生される映像と音よりなるコンテンツを一般ユーザが作成し公開することや、このようなコンテンツを構成する映像と音の一方にさらに加工を施すことが一般的となっている。前者の例として動画投稿サイトに投稿された動画が挙げられ、後者の例としてカラオケ装置が挙げられる。その中でも特に、カラオケ装置に関しては、近年、バリエーション豊かな音加工や映像加工を実現できるものが一般に普及している。 With the development of digital technology, it is common for general users to create and publish content consisting of video and sound that are played back synchronously, and to further process one of the video and sound that make up such content It has become. An example of the former is a video posted on a video posting site, and an example of the latter is a karaoke device. Among them, in particular, with respect to karaoke apparatuses, in recent years, those capable of realizing a variety of sound processing and video processing have become popular.
カラオケ装置における音加工の一例としては、伴奏音の音波形を表す音信号に対して、キー変換を具体例とする周波数変換が挙げられる。例えばキー変換機能を備えたカラオケ装置の利用者は、そのカラオケ装置のリモコンのスライダやそのカラオケ装置に付随した表示装置に表示された仮想スライダを上下させて伴奏音のキーを調整することで、自身のキーに即した伴奏音でカラオケ曲を歌唱することができる。 As an example of sound processing in a karaoke apparatus, frequency conversion with a key conversion as a specific example is given to a sound signal representing the sound waveform of an accompaniment sound. For example, a user of a karaoke device having a key conversion function adjusts a key of an accompaniment sound by moving up and down a virtual slider displayed on a slider of a remote controller of the karaoke device or a display device attached to the karaoke device, You can sing karaoke songs with accompaniment sounds according to your own keys.
一方、カラオケ装置における映像加工の具体例としては、カラオケ曲の進行に伴って表示装置に表示される様々な映像コンテンツ(例えば、カラオケ曲のイメージに即した背景の映像やこの背景映像に重ね合わせて表示される歌詞の字幕映像など)に加工を施すことが挙げられる。この種の映像加工機能を有するカラオケ装置の具体例としては、特許文献1、2および3の各文献に開示のカラオケ装置が挙げられる。これら各文献に開示のカラオケ装置における映像加工は以下の通りである。
On the other hand, as a specific example of the video processing in the karaoke device, various video contents displayed on the display device as the karaoke song progresses (for example, a background video in accordance with the image of the karaoke song or an overlay on this background video) (For example, subtitle video of lyrics displayed). Specific examples of the karaoke apparatus having this type of video processing function include karaoke apparatuses disclosed in
特許文献1には、表示装置に表示される背景映像と歌詞字幕映像に対して歌唱者の映像をリアルタイムに合成する映像加工が開示されている。特許文献2には、デジタルカメラの映像を背景映像として歌詞字幕映像と合成する映像加工が開示されている。
また、特許文献3には、歌唱者を示すアバターに歌唱者の設定した装飾品の画像を重ね合わせるなどの加工を施して背景映像と合成する映像加工が開示されている。アバターとは、人間を模したキャラクターのことである。
Further,
特許文献1、2および3に開示されたカラオケ装置では、映像加工に関しては考慮されているが、その映像加工に対応した音加工は考慮されていない。本来、カラオケ装置で再生される映像は音と同期再生されるものであり、映像のみに加工を施すことで音との同期が崩れることは好ましくない。
In the karaoke apparatuses disclosed in
同期再生される映像と音声のうちの音声のみに加工を施すことで両者の同期が崩れることも同様に好ましくないが、従来の音加工ではこのような配慮は払われていなかった。加えて、従来の音加工では、直接的な操作で音信号の音量の増減といった大まかな加工を施すことは可能であったが、音信号の周波数分布を変更するといったきめ細やかな加工を施すことはできなかった。前者は、音信号の特徴(例えば周波数分布等)を視覚的に把握していなくても行うことができるが、後者は、音信号の特徴を視覚的に把握していないと難しい。さらに、従来の音加工には、加工によって生じる音の細かい変化を視覚的に把握することができない、といった問題もあった。 Similarly, it is not preferable that the synchronization of both of the video and the audio to be reproduced in synchronization is changed, and the synchronization between the two is lost. However, in the conventional sound processing, such consideration has not been paid. In addition, in conventional sound processing, it was possible to perform rough processing such as increasing or decreasing the volume of the sound signal by direct operation, but performing detailed processing such as changing the frequency distribution of the sound signal I couldn't. The former can be performed without visually grasping the characteristics (for example, frequency distribution) of the sound signal, but the latter is difficult unless the characteristics of the sound signal are visually grasped. Further, the conventional sound processing has a problem that it is impossible to visually grasp the fine change of sound caused by the processing.
この発明は以上のような事情に鑑みてなされたものであり、その目的は、同期再生される映像と音の少なくとも一方を加工しても両者の同期が崩れず、さらに、ユーザが音の加工を視覚的に行うことができるようにする技術を提供することにある。 The present invention has been made in view of the circumstances as described above. The purpose of the present invention is to prevent at least one of the synchronized video and sound from being disrupted, and further to allow the user to process the sound. It is to provide a technique that enables visual recognition.
上記課題を解決するために本発明は、表示装置に表示させる映像に対する加工内容を表す映像加工パラメータを入力音信号に応じて生成するパラメータ生成部と、前記入力音信号の表す音と同期して前記表示装置に表示させる映像を表す映像データに対して前記映像加工パラメータに基づいた加工を施し、加工済の映像データを前記表示装置に与える映像加工部と、を有することを特徴とする信号加工装置を提供する。この発明によれば、入力音信号に応じて再生される音と同期して表示装置に表示させる映像に加工を施す映像加工パラメータが当該入力音信号に応じて生成される。したがって、映像と音の同期が崩れない。 In order to solve the above-described problems, the present invention provides a parameter generation unit that generates a video processing parameter that represents processing content for a video displayed on a display device according to an input sound signal, and a sound that is expressed by the input sound signal. And a video processing unit that performs processing based on the video processing parameters for video data representing video to be displayed on the display device, and supplies the processed video data to the display device. Providing the device. According to the present invention, the video processing parameters for processing the video to be displayed on the display device in synchronization with the sound reproduced according to the input sound signal are generated according to the input sound signal. Therefore, the synchronization of video and sound is not lost.
より好ましい態様においては、上記信号加工装置は、前記映像加工部による加工の対象となる映像データを前記入力音信号に基づいて生成する映像生成部と、前記表示装置に表示される映像に対する操作が入力される映像操作入力部と、前記入力音信号に対して音加工パラメータに基づいた加工を施して出力する音加工部と、を備え、前記パラメータ生成部は、前記入力音信号に応じて前記映像加工パラメータを生成する処理に代えて前記映像操作入力部に入力された操作に応じて前記映像加工パラメータを生成する処理、または前記入力音信号と前記映像操作入力部に入力された操作とに応じて前記映像加工パラメータを生成する処理を実行するとともに、前記音加工パラメータを前記映像操作入力部に入力された操作に応じて生成することを特徴とする。 In a more preferred aspect, the signal processing device includes a video generation unit that generates video data to be processed by the video processing unit based on the input sound signal, and an operation for the video displayed on the display device. An input video operation input unit; and a sound processing unit that processes the input sound signal based on a sound processing parameter and outputs the processed sound, and the parameter generation unit performs the processing according to the input sound signal. In place of the process of generating the video processing parameter, the process of generating the video processing parameter according to the operation input to the video operation input unit, or the operation input to the input sound signal and the video operation input unit In response to this, processing for generating the video processing parameter is executed, and the sound processing parameter is generated in accordance with an operation input to the video operation input unit. The features.
例えば、映像操作入力部に対する操作に応じて映像加工パラメータをパラメータ生成部に生成させる態様であれば、表示装置に表示される映像に対して当該映像を加工するための操作が行われると、その加工内容を表す映像加工パラメータが当該操作に応じて生成されるとともに、当該映像と同期して出力される音に対する加工内容を表す音加工パラメータが当該操作に応じて生成される。そして、表示装置に表示される映像を表す映像データに対して上記映像加工パラメータに基づく加工が施され、出力される音を表す入力音信号に対して上記音加工パラメータに基づく加工が施される。このため、映像操作入力部に対して為された操作に応じて生成される映像加工パラメータと音加工パラメータの平仄を揃えておけば(例えば、ピンチアウト操作に応じて映像を拡大する映像加工パラメータを生成するとともに音量を引き上げる音加工パラメータを生成する一方、ピンチイン操作に応じて映像を縮小する映像加工パラメータを生成するとともに音量を引き下げる音加工パラメータを生成する当)、映像に加工を施しても映像と音の同期が崩れず、視覚的な音声加工を行うことが可能になる。 For example, if the video processing parameter is generated by the parameter generation unit in response to an operation on the video operation input unit, when an operation for processing the video is performed on the video displayed on the display device, A video processing parameter representing the processing content is generated according to the operation, and a sound processing parameter representing the processing content for the sound output in synchronization with the video is generated according to the operation. The video data representing the video displayed on the display device is processed based on the video processing parameter, and the input sound signal representing the output sound is processed based on the sound processing parameter. . For this reason, if the level of the video processing parameters generated according to the operation performed on the video operation input unit and the level of the sound processing parameters are aligned (for example, the video processing parameters for enlarging the video according to the pinch-out operation). And a sound processing parameter that reduces the volume in response to a pinch-in operation and a sound processing parameter that lowers the volume. Visual and audio processing can be performed without synchronizing video and sound.
好ましい態様としては、前記入力音信号は、ユーザの歌唱音声を表す音信号を含み、前記映像データは、前記ユーザを模したアバターの各部位を表すデータであり、前記アバターの部位毎に異なる音響効果が割り当てられており、前記パラメータ生成部は、前記映像操作入力部により操作が為されたアバターの部位毎に当該部位に対する加工内容を表す映像加工パラメータを生成するとともに、操作の為された部位に対応する音響効果を調整する音加工パラメータを生成する。この態様によれば、音にはユーザの歌唱音声が含まれる。さらに、表示装置に表示される映像はユーザを模したアバターであり、アバターの部位毎に操作を行うと、音に対してアバターの部位毎に割り当てられた異なる音響効果が施される。したがって、アバターの部位の映像に加工を施しても映像と音の同期が崩れず、アバターの部位に対応する音響効果を施す音声加工を視覚的に行うことができる。 As a preferred aspect, the input sound signal includes a sound signal representing a user's singing voice, and the video data is data representing each part of an avatar that imitates the user, and different sound for each part of the avatar. An effect is assigned, and the parameter generation unit generates a video processing parameter indicating processing content for the part for each part of the avatar operated by the video operation input unit, and a part for which the operation is performed A sound processing parameter that adjusts the acoustic effect corresponding to is generated. According to this aspect, the sound includes the user's singing voice. Furthermore, the video displayed on the display device is an avatar that imitates the user, and when an operation is performed for each part of the avatar, different acoustic effects assigned to each part of the avatar are applied to the sound. Therefore, even if the video of the part of the avatar is processed, the synchronization of the video and the sound is not lost, and the voice processing for applying the acoustic effect corresponding to the part of the avatar can be visually performed.
また、別の好ましい態様としては、コンピュータに、表示装置に表示させる映像に対する加工内容を表す映像加工パラメータを入力音信号に応じて生成するパラメータ生成処理と、前記入力音信号の表す音と同期して前記表示装置に表示させる映像を表す映像データに対して前記映像加工パラメータに基づいた加工を施し、加工済の映像データを前記表示装置に与える映像加工処理と、を実行させるプログラムを提供する。この態様によっても、入力音信号に応じて再生される音と同期して表示装置に表示させる映像に加工を施す映像加工パラメータが当該入力音信号に応じて生成される。したがって、映像と音の同期が崩れない。 Further, as another preferred aspect, a parameter generation process for generating a video processing parameter indicating processing content for a video to be displayed on a display device on a computer according to an input sound signal, and a sound expressed by the input sound signal are synchronized. And a video processing process for processing the video data representing the video to be displayed on the display device based on the video processing parameters and executing the processed video data to the display device. Also according to this aspect, the video processing parameters for processing the video to be displayed on the display device in synchronization with the sound reproduced according to the input sound signal are generated according to the input sound signal. Therefore, the synchronization of video and sound is not lost.
以下、図面を参照しつつ、この発明の実施形態を説明する。
<第1実施形態>
(A:構成)
図1は、この発明の信号加工装置の第1実施形態であるカラオケ装置100の構成を示すブロック図である。カラオケ装置100は、ユーザの歌唱音声を収音し伴奏音とともにスピーカ等の放音装置に出力させるとともに、当該ユーザを模したキャラクターであるアバターを背景映像と合成して表示装置に表示させる装置である。図1に示すように、カラオケ装置100は、音声入力部101、音声加工部102、音声出力部103、映像操作入力部104、音声加工パラメータ生成部105、映像加工パラメータ生成部106、映像生成部107、映像加工部108、背景映像取得部109および映像出力部110を有している。カラオケ装置100を構成する各部のうち、音声加工部102、音声加工パラメータ生成部105、映像加工パラメータ生成部106、映像生成部107および映像加工部108は、カラオケ装置100のCPU(Central Prоcessing Unit:図1では図示略)が当該カラオケ装置100に予め記憶されている制御プログラム(図1では図示略)にしたがって実現するソフトウェアモジュールである。
Embodiments of the present invention will be described below with reference to the drawings.
<First Embodiment>
(A: Configuration)
FIG. 1 is a block diagram showing a configuration of a
背景映像取得部109は、ネットワークを介してホストコンピュータに接続されている。当該ホストコンピュータは、背景映像取得部109に対してユーザにより選択されたカラオケ曲の伴奏音を表す伴奏音データと背景映像データとを配信する。背景映像データとは、伴奏音と同期させて表示装置に表示させる映像を表すデータである。本実施形態の背景映像データは、各々異なる映像を表す複数の映像データから構成されている。例えば、音楽ホールを表す映像データと風呂場を表示する映像データとが背景映像データに含まれているといった具合である。背景映像取得部109は、ホストコンピュータから配信される背景映像データと伴奏音データを受信し、背景映像データを映像加工部108に与え、伴奏音データを音声加工部102に与える。図1では、背景映像取得部109と音声加工部102に接続する信号線の図示を省略している。
The background
音声入力部101は例えばマイクロフォンである。図1に示すように、本実施形態のカラオケ装置100は、複数の音声信号入力部101を有している。複数の音声入力部101の各々は、それらを各々持って歌唱する複数の歌唱者の音声を収音し、収音された音声の波形を表す音声信号を音声加工部102に与える。本実施形態では、カラオケ装置100が複数の歌唱者によって利用される場合、各歌唱者はそれぞれ異なる音声入力部101を持って歌唱する。したがって、音声入力部101の数は、歌唱者の人数と同数もしくは歌唱者の人数よりも多くなければならない。歌唱者が使用していない音声入力部101は音声を収音せず、音声信号を生成しない。
The voice input unit 101 is a microphone, for example. As shown in FIG. 1, the
音声加工部102は、音声入力部101および背景映像取得部109から与えられた音声信号に加工を施し、加工後の音声信号を複数の音声出力部103の各々に振り分けて出力する。音声出力部103は例えばスピーカである。音声出力部103は、音声加工部102から与えられた音声信号の表す音を放音する。本実施形態では、音声入力部101と音声出力部103の数は一致していない(図1に示すNとTは等しくない)が、両者の数が一致していてもよい。また、本実施形態では、音声入力部101と音声出力部103をそれぞれ複数設けたが、各々1つずつであってもよい。
The
音声加工部102が行う音声信号の加工の一例としては、音声入力部101から与えられた音声信号の音量の増減や音声信号にリバーブなどの音響効果を付与することや、複数の音声出力部103の出力バランスを調整することで音像を定位させることが挙げられる。これらの加工は、音声加工パラメータ生成部105が生成する音声加工パラメータに従って行われる。
As an example of the audio signal processing performed by the
音声入力部101が生成する音声信号は、映像生成部107にも与えられる。映像生成部107は、図1には図示しない記憶装置に記憶された複数のアバターデータの中から、与えられた各音声信号に対応するアバターデータを読み出し、当該アバターデータを映像加工部108に出力する。より詳細に説明すると、複数のアバターデータの各々は、互いに異なる音声信号識別子と対応付けて上記記憶装置に記憶されている。音声信号識別子は、図1に示す各音声入力部101に付された番号の1からNである。つまり、カラオケ装置100に設けられている音声入力部101の数と上記記憶装置に記憶されているアバターデータの数は一致する。映像生成部107は、音声信号入力部101から音声信号が与えられると、その音声信号入力部101を示す音声信号識別子に対応したアバターデータを記憶装置から読み出し、そのアバターデータを映像加工部108に与える。
The audio signal generated by the audio input unit 101 is also given to the
なお、アバターデータと対応付けて記憶装置に記憶させておく音声信号識別子は、音声入力部101に付された番号には限定されず、音声信号の波形データや音声信号の特徴を表す特徴量データであっても良い。音声信号識別子として波形データ或いは特徴量データを用いる場合には、映像生成部107は、音声入力部101から音声信号を受け取ったことを契機として、その音声信号の波形或いは特徴を判別し、その波形或いは特徴を示す音声識別子に対応するアバターデータを記憶装置から読み出す処理を実行する。この態様においては、歌唱者が歌の途中でマイクロフォンを別のマイクロフォンに持ち替えたとしても、その持ち替え後も持ち替え前と同じアバターが表示装置に表示される。
Note that the audio signal identifier stored in the storage device in association with the avatar data is not limited to the number assigned to the audio input unit 101, and is waveform data of the audio signal and feature amount data representing the characteristics of the audio signal. It may be. When waveform data or feature value data is used as the audio signal identifier, the
音声信号識別子に対応付けるアバターデータは、予め用意されたアバターデータの中から、その音声信号識別子の示す音声入力部101を使用するユーザが自らの好みに応じて選択できるようになっていても良いし、予め用意されたアバターの各部位(例えば、アバターの顔や胴、手足など)を表すデータの中から当該ユーザが自らの好みに応じて選択したものを1つに合成したものであっても良い。また、アバターデータの選択や生成は、カラオケ装置100において行われても良いし、パソコン等のカラオケ装置100以外の機器で上記選択或いは生成を行い、その選択や生成の結果をカラオケ装置100に記憶させたものであっても良い。
The user who uses the voice input unit 101 indicated by the voice signal identifier may be selected according to his / her preference from avatar data prepared in advance as avatar data associated with the voice signal identifier. Even if the user selects from the data representing each part of the avatar prepared in advance (for example, the avatar's face, torso, limbs, etc.) according to the user's preference, good. The selection and generation of the avatar data may be performed in the
映像加工部108は、映像生成部107から与えられたアバターデータと、背景映像取得部109から与えられた背景映像データに含まれる複数の映像データの中から選択した1つの映像データの両者に加工を施し、さらに両者を合成し、出力映像データとして映像出力部110に与える。映像出力部110は例えばモニタなどの表示装置であり、与えられた出力映像データの表す映像を表示する。映像加工部108における選択、加工および合成は、映像加工パラメータ生成部106により生成された映像加工パラメータに従って行われる。ここで映像加工パラメータにしたがって行われる加工の一例としては、アバターの拡大或いは縮小、アバターの表示位置の変更、背景映像の変更などが挙げられる。カラオケ装置100において歌唱者が歌唱する歌を選択し、歌の伴奏音が流れ始め歌唱者がまだ歌い始めていない状況下では、映像出力部110はアバターを表示せず、背景映像のみを表示する。歌唱者が歌い始めていなければ、音声入力部101から映像生成部107に音声信号は与えられず、映像生成部107がアバターデータを映像加工部108に出力することはないからである。この後、歌唱者が歌唱を開始すると、映像加工部108は、映像加工パラメータが与えられるまでは、背景映像の中央に予め定められた大きさでアバターが表示されるようにアバターデータと背景映像データを合成する。
The
映像操作入力部104は映像出力部110の表示面全体を覆うように設けられたタッチパネルである。映像操作入力部104は、カラオケ装置100のユーザにより操作され、その操作に対応した操作内容データを生成し、音声加工パラメータ生成部105と映像加工パラメータ生成部106に与える。本実施形態では、映像出力部110の表示面全体を映像操作入力104としたが上記表示面の一部のみを映像操作入力部104としても良い。また、映像操作入力部104は、映像出力部110とは別の装置(例えば、カラオケ装置100のリモコン)の一部であっても良い。ただし、映像操作入力部104がカラオケ装置100のリモコンの一部である場合には、映像加工部108は、映像出力部110だけでなく当該リモコンにも映像を出力する。この場合、映像出力部110と映像操作入力部104に表示された映像は同じとなる。
The video
映像操作入力部104に行われる操作の具体例としては、ピンチイン操作およびピンチアウト操作(以下、ピンチイン/アウト操作と表記)とタッチ操作が挙げられる。ピンチイン操作とは、映像操作入力部104に2本の指をタッチし、その2本の指の間隔を狭めるように各指を動かす操作のことである。ピンチアウト操作とは、同様にタッチし、2本の指の間隔を広げるように動かす操作のことである。ピンチイン/アウト操作が為されると、映像操作入力部104は、当該ピンチイン/アウト操作を示す操作内容データを生成し、音声加工パラメータ生成部105と映像加工パラメータ生成部106に与える。この操作内容データには、当該操作に関与した2本の指の各々についてのタッチを開始した座標(例えば、映像操作入力部104の表示領域の左上隅を原点とする座標、以下、同じ)から指を離した座標までの軌跡を表すデータが含まれている。
Specific examples of operations performed on the video
タッチ操作とは、ユーザが映像操作入力部104に1本の指でタッチし、タッチしたまま映像操作入力部104の画面上をなぞり、任意の位置で画面から指を離す操作のことである。このタッチ操作により、映像操作入力部104は、タッチ操作を示す操作内容データ(すなわち、タッチを開始した座標から指を離した座標までの軌跡を表すデータ)を生成し、その操作内容データを音声加工パラメータ生成部105と映像加工パラメータ生成部106に与える。なお、本実施形態では、アバターに対して当該タッチ操作が為された場合と背景映像に対して当該タッチ操作が為された場合とを区別し、特に後者を「フリック操作」或いは「スワイプ操作」と呼ぶ。
The touch operation is an operation in which the user touches the video
音声加工パラメータ生成部105は、映像操作入力部104から与えられた操作内容データから音声加工パラメータを生成し、音声加工部102に与える。音声加工パラメータ生成部105には、図2に示す音声加工テーブルと、図4に示すリバーブ変更テーブルとが予め記憶されている。図2に示すように、音声加工テーブルには、映像操作入力部104に対して為される各種操作の各々に対応付けて、その操作が為されたときに、音声に施す加工内容を表すデータが格納されている。一方、図4に示すように、リバーブ変更テーブルには、音声に施すリバーブの種類を示す識別子(図4では番号)に対応付けて、当該リバーブの内容を示すデータが格納されている。なお、音声加工パラメータ生成部105は、現在施されているリバーブの識別子を記憶する。音声加工パラメータ生成部105は、映像操作入力部104から与えられた操作内容データの示す操作内容と、音声加工テーブルの格納内容とから、その操作内容に応じた加工内容を表す音声加工パラメータを生成する。なお、上記操作内容がフリック操作或いはスワイプ操作であれば、音声加工パラメータ生成部105は、さらに、リバーブ変更テーブルを参照して音声加工パラメータを生成する。
The audio processing
映像加工パラメータ生成部106は、映像操作入力部104から与えられた操作内容データから映像加工パラメータを生成し、映像加工部108に与える。映像加工パラメータ生成部106には、図3に示す映像加工テーブルと、図5に示す背景映像変更テーブルが予め記憶されている。図3に示すように、映像加工テーブルには、映像操作入力部104に対して為される各種操作の各々に対応付けて、その操作が為されたときに、映像に施す加工内容を表すデータが格納されている。一方、図5に示すように、背景映像変更テーブルには、映像に施す背景映像の種類を示す識別子(図5では番号)に対応付けて、当該背景映像の内容を示すデータが格納されている。なお、映像加工パラメータ生成部106は、現在表示されている背景映像の識別子を記憶する。また、図4と図5の同じ番号に対応するリバーブと背景映像は互いに対応している。映像加工パラメータ生成部106は、映像操作入力部104から与えられた操作内容データの示す操作内容と、映像加工テーブルの格納内容とから、その操作内容に応じた加工内容を表す映像加工パラメータを生成する。なお、上記操作内容がフリック操作或いはスワイプ操作であれば、映像加工パラメータ生成部106は、さらに、背景映像変更テーブルを参照して映像加工パラメータを生成する。
The video processing
図6は、音声加工パラメータ生成部105が音声加工パラメータを生成する処理の流れを示すフローチャートであり、図7は、映像加工パラメータ生成部106が映像加工パラメータを生成する処理の流れを示すフローチャートである。図6と図7を比較すれば明らかなように、ステップSA103、ステップSA105およびステップSA106と、ステップSB103、ステップSB105およびステップSB106とが各々対応し、これらのステップ以外は内容が同じであるため、図6と図7では同じステップ番号を用いる。音声加工パラメータ生成部105と映像加工パラメータ106は、映像操作入力部104から操作内容データを受け取ったことを契機として音声加工パラメータと映像加工パラメータの生成を各々開始する。音声加工パラメータ生成部105と映像加工パラメータ生成部106の各々は、操作内容データの示す操作がピンチイン/アウト操作であるか否かを判定する(ステップSA101)。具体的には、音声加工パラメータ生成部105と映像加工パラメータ生成部106の各々は、操作内容データに2本の指の軌跡を表すデータが含まれている場合に、ピンチイン/アウト操作を示す操作内容データであると判定する。ステップSA101の判定結果が“Yes”であった場合、音声加工パラメータ生成部105と映像加工パラメータ生成部106は、その操作内容データの示すタッチを開始した2本の指の座標の少なくとも一方が、アバターに対応する領域内にあるか否かを判定する(ステップSA102)。ステップSA102の判定結果が“Yes”であった場合、音声加工パラメータ生成部105は、音声加工テーブルを参照して、ピンチイン/アウト操作後の2本の指の間隔に応じて音声信号の音量を増減させる音声加工パラメータを生成する(ステップSA103)。同様に、映像加工パラメータ生成部106は、ステップ102の判定結果が“Yes”であった場合、映像加工テーブルを参照して、ピンチイン/アウト操作後の2本の指の間隔に応じたサイズに当該アバターを縮小/拡大させ、当該アバターとピンチイン/アウト操作前の背景映像を合成させる映像加工パラメータを生成する(ステップSB103)。これに対して、ステップSA102の判定結果が“No”であった場合には、音声加工パラメータ生成部105と映像加工パラメータ106は、音声加工パラメータと映像加工パラメータを生成せずに、ステップSA103とステップSB103を実行することなく、当該生成処理を終了する。
FIG. 6 is a flowchart showing a flow of processing in which the audio processing
次いで、音声加工パラメータ生成部105と映像加工パラメータ生成部106が、タッチ操作を示す操作内容データを受け取った場合について説明する。この場合の説明も図6と図7を援用する。音声加工パラメータ生成部105と映像加工パラメータ生成部106の各々は、ステップSA101の判定結果が“No”であった場合、その操作内容データの表す操作がアバターに対するタッチ操作であるか否かを判定する(ステップSA104)。具体的には、音声加工パラメータ生成部105と映像加工パラメータ生成部106の各々は、受け取った操作内容データの示すタッチ開始位置の座標がアバターに対応する領域内の座標であった場合には、アバターに対するタッチ操作であると判定し、当該領域外の座標であった場合にはフリック操作或いはスワイプ操作であると判定する。
Next, a case where the audio processing
ステップSA104の判定結果が“Yes”であった場合、映像加工パラメータ生成部106は、映像加工テーブルの格納内容を参照し、アバターの表示位置を移動させて背景映像と合成することを指示する映像加工パラメータを生成する(ステップSB105)。具体的には、映像加工パラメータ生成部106は、受け取った操作内容データの示すタッチ終了位置に上記アバターを移動させて背景映像と合成することを指示する映像加工パラメータを生成する。一方、音声加工パラメータ生成部105は、ステップSA104の判定結果が“Yes”であった場合、音声加工テーブルの格納内容を参照し、アバターに対応する音像(当該アバターに対応付けられている音声信号識別子の示す音声信号に対応する音像、すなわち、当該アバターに対応する歌唱者の歌唱音声に対応する音像)の定位位置を移動させることを指示する音声加工パラメータを生成する(ステップSA105)。具体的には、音声加工パラメータ生成部105は、受け取った操作内容データの示すタッチ終了位置に上記音像が定位するように各音声出力部103の出力バランスを調整することを指示する音声加工パラメータを生成する。
When the determination result in step SA104 is “Yes”, the video processing
これに対して、ステップSA104の判定結果が“No”であった場合、映像加工パラメータ生成部106は、受け取った操作内容データがフリック操作或いはスワイプ操作であるとして、背景映像を変更してアバターと合成することを指示する映像加工パラメータを生成する(ステップSB106)。具体的には、映像加工パラメータ生成部106は、まず、映像加工テーブルを参照して背景映像の変更を指示されたと判定し、その時点の背景映像を示す識別子(すなわち、映像加工パラメータ生成部106に記憶されている識別子)と映像変更テーブルの格納内容とから、変更先の背景映像の識別子を特定する。そして、映像加工パラメータ生成部106は、自身に記憶している識別子を上記の要領で特定した識別子に更新するとともに、当該識別子の示す背景映像とアバターとを合成することを指示する映像加工パラメータを生成する。例えば、背景映像がカラオケ装置100の製作者またはユーザが任意に設定した映像(すなわち、図5では番号1に対応する初期背景映像)の場合、映像加工パラメータ生成部106は、フリック操作或いはスワイプ操作により、背景映像を音楽ホール(すなわち、図5では番号2に対応する背景映像)に選択することを指示する映像加工パラメータを生成する。その後、再度フリック操作或いはスワイプ操作が行われると、映像加工パラメータ生成部106は、背景映像を風呂場(すなわち、図5では番号3に対応する背景映像)に選択することを指示する映像加工パラメータを生成する。映像加工パラメータ生成部106は、フリック操作或いはスワイプ操作が次々と行われると、次々に背景映像を選択する映像加工パラメータを生成するが、フリック操作或いはスワイプ操作前に図5に示す背景映像変更テーブルの最後の番号に対応する背景映像である場合は、フリック操作或いはスワイプ操作により、次に番号1に対応する初期背景映像を選択する映像加工パラメータを生成する。このようにすることで、映像加工パラメータ生成部106は、フリック操作或いはスワイプ操作を繰り返すと、背景映像を次々と選択してゆく映像加工パラメータを生成する。なお、フリック操作或いはスワイプ操作前後でアバターに変化はなく、背景映像に対して合成される位置にも変化はない。
On the other hand, if the determination result in step SA104 is “No”, the video processing
同様に、音声加工パラメータ生成部105は、ステップSA104の判定結果が“No”であった場合、受け取った操作内容データがフリック操作或いはスワイプ操作であるとして、アバターに対応する音声に付与するリバーブの変更を指示する音声加工パラメータを生成する(ステップSA106)。具体的には、音声加工パラメータ生成部105は、まず、音声加工テーブルを参照してリバーブの変更を指示されたと判定し、その時点のリバーブを示す識別子(すなわち、音声加工パラメータ生成部105に記憶されている識別子)とリバーブ変更テーブルの格納内容とから、変更先のリバーブの識別子を特定する。そして、音声加工パラメータ生成部105は、自身に記憶している識別子を上記の要領で特定した識別子に更新するとともに、当該識別子の示すリバーブをアバターに対応する音声に付与することを指示する音声加工パラメータを生成する。例えば、リバーブが施されていない(すなわち、図4では番号1に対応するリバーブを施さない)場合、音声加工パラメータ生成部105は、フリック操作或いはスワイプ操作により、音声に音楽ホールで聴いているかのようなリバーブを施す(すなわち、図4では番号2に対応するリバーブを施す)ことを指示する音声加工パラメータを生成する。その後、再度フリック操作或いはスワイプ操作が行われると、音声加工パラメータ生成部105は、音声に風呂場で聴いているかのようなリバーブを施す(すなわち、図4では番号3に対応するリバーブを施す)ことを指示する音声加工パラメータを生成する。音声加工パラメータ生成部105は、フリック操作或いはスワイプ操作が次々と行われると、次々にリバーブを選択する音声加工パラメータを生成するが、フリック操作或いはスワイプ操作前に図5に示すリバーブ変更テーブルの最後の番号に対応するリバーブである場合は、フリック操作或いはスワイプ操作により、次に番号1に対応するリバーブを施さない音声加工パラメータを生成する。このようにすることで、音声加工パラメータ生成部105は、フリック操作或いはスワイプ操作を何度繰り返しても、リバーブを次々と選択してゆく音声加工パラメータを生成する。
以上が、本実施形態のカラオケ装置100の構成である。
Similarly, if the determination result in step SA104 is “No”, the voice processing
The above is the configuration of the
(B:動作)
以下、カラオケ装置100のユーザが一人である場合を例にとって、カラオケ装置100の動作を説明する。上記ユーザがカラオケ装置100の電源を投入すると、映像出力部110にはカラオケ曲の選択を促すメニュー画面が表示される。このメニュー画面を視認したユーザは、リモコン等を操作することで歌唱しようとするカラオケ曲の選択や、演奏開始の指示を入力することができる。カラオケ曲の選択が行われると、背景映像取得部109はホストコンピュータから当該カラオケ曲に対応する背景映像データを取得するとともに、当該カラオケ曲の伴奏音データを同ホストコンピュータから取得する。そして、演奏開始の指示が入力されると、背景映像取得部109はホストコンピュータから取得した背景映像データの映像加工部108への出力を開始するとともに、同ホストコンピュータから取得した伴奏音データの音声加工部102への出力(図1では図示略)を開始する。伴奏音の音量の調整は、例えば、カラオケ装置100のリモコンのスライダを上下させることで行われる。
(B: Operation)
Hereinafter, the operation of the
このようにして背景映像取得部109から背景加工部108への背景映像データの出力が開始されると、映像出力部110では歌唱対象のカラオケ曲に対応した映像の表示が開始され、音声出力部103では同カラオケ曲の伴奏音の放音が開始される。上記歌唱者は上記映像および伴奏音から歌唱開始タイミングに至ったことを把握すると、音声入力部101を持って歌唱を開始する。このように、上記ユーザは歌唱開始点に到達するまでは歌唱を開始しないため、背景映像取得部109から背景加工部108への背景映像データの出力開始時点から歌唱開始タイミングまでは、当該ユーザに対応するアバターが映像出力部110に表示されることはない。そして、ユーザが歌い始めると、その歌唱音声を表す音声信号が音声加工部102に与えられるとともに映像生成部107に与えられる。映像生成部107は当該ユーザに対応するアバターを表すアバターデータの映像加工部108への出力を開始する。映像加工部108は、与えられたアバターデータを背景映像データの中央の座標に位置するように合成して映像出力データとして映像出力部110に与える。そのため、映像出力部110には、図6に示すように背景映像の中央にアバターを配置した映像が表示される。さらに、各音声出力部103から出力される上記ユーザの歌声が、映像出力部110に表示されたアバターの位置から聞こえるように、出力バランスは調整される。
When the output of the background video data from the background
上記の要領でアバターの表示が開始されると、カラオケ装置100のユーザはアバターに対する操作、或いは背景映像に対する操作を映像操作入力部104に対して行うことができる。なお、アバターに対する操作としては、前述したピンチイン/アウト操作とアバターの位置を移動させるタッチ操作が挙げられる。以下、これらの操作が為された場合にカラオケ装置100が行う動作について説明する。
When the display of the avatar is started as described above, the user of the
(B−1:アバターに対する操作が為された場合の動作)
前述したようにアバターに対する操作としては、ピンチイン/アウト操作とタッチ操作が挙げられる。
(B-1: Operation when an avatar is operated)
As described above, operations for an avatar include pinch-in / out operations and touch operations.
(B−1−1:アバターに対するピンチイン/アウト操作が為された場合の動作)
まず、アバターに対するピンチイン/アウト操作が為された場合の動作を説明する。
映像出力部110に表示されたアバターに対してピンチイン/アウト操作が行われると、上記で説明したように、映像操作入力部104は、ピンチイン/アウト操作を示す操作内容データを生成し、音声加工パラメータ生成部105と映像加工パラメータ生成部106に与える。前述したように、音声加工パラメータ生成部105は、アバターに対応する音声の音量をピンチイン/アウト操作の操作量に応じて減少/増大させることを指示する音声加工パラメータを生成し、映像加工パラメータ生成部106は、アバターの大きさを縮小/拡大することを指示する映像加工パラメータを生成する。
(B-1-1: Operation when a pinch-in / out operation is performed on an avatar)
First, an operation when a pinch-in / out operation for an avatar is performed will be described.
When a pinch-in / out operation is performed on the avatar displayed on the
音声加工パラメータは音声加工部102に与えられ、音声加工部102は、当該音声加工パラメータに従って、ピンチイン/アウト操作の為されたアバターに対応する音声入力部101から与えられた音声信号に音量を減少/増大させる加工を施し、加工後の音声信号を音声出力部103に与える。音声出力部103は、与えられた音声信号を放音する。なお、アバターのピンチイン/アウト操作と音声信号の音量の減少/増大の関係性については、ピンチイン操作により音声信号の音量が増大し、ピンチアウト操作により音声信号の音量が減少するようになっていてもよい。しかし、このような操作内容と加工内容の対応付けはユーザの直感とは合わないため、決して望ましいものではない。ピンチイン操作により音声信号の音量が減少し、ピンチアウト操作により音声信号の音量が増大するという操作内容と加工内容の対応付けが望ましい。
The voice processing parameter is given to the
映像加工部108は、映像加工パラメータに従い、ピンチイン/アウト操作の為されたアバターのアバターデータに縮小/拡大の加工を施し、背景映像データと加工後のアバターデータを合成し、出力映像データとする。そして、その出力映像データを映像出力部110に与える。映像出力部110は、与えられた出力映像データをユーザに表示する。そのため、映像出力部110および映像操作入力部104に表示されるアバターの全体が縮小/拡大する。なお、アバターの全体に対するピンチイン操作により、アバターの全体が拡大し、ピンチアウト操作によりアバターの全体が縮小してもよいが、このような操作内容と加工内容の対応付けはユーザの直感とは合わないため、決して望ましいものではない。
The
図9は、映像操作入力部104にピンチアウト操作を行った後に表示される映像を例示した図である。図8と図9とを比較すれば明らかなように、アバター全体にピンチアウト操作が行われると、アバター全体が拡大されて表示される。さらに、拡大されたアバターに対応した音声は、音量が増大して音声出力部103から放音される。このように、本実施形態によれば、映像と音声の同期が崩れることはない。
FIG. 9 is a diagram illustrating an image displayed after a pinch-out operation is performed on the video
(B−1−2:アバターに対するタッチ操作が為された場合の動作)
次に、アバターの位置を移動させるタッチ操作が為された場合の動作について説明する。
アバターの位置を移動させるタッチ操作が為されると、映像加工パラメータ生成部106は、タッチ操作終了位置にアバターを移動させる映像加工パラメータを生成する。映像加工パラメータ生成部106は、その映像加工パラメータを映像加工部108に与え、映像加工部108は映像加工パラメータを基にアバターデータと背景映像データを合成し、出力映像データとして映像出力部110に与える。映像出力部110は、与えられた出力映像データの表す映像を表示する。そのため、映像出力部110に表示されたアバターは、当該アバターに対するタッチ操作終了位置に移動する(図10参照)。なお、映像操作入力部104に表示されたアバターを画面外に移動させた場合には、映像加工パラメータ生成部106は、アバターを表示しない映像加工パラメータを生成し、音声加工パラメータ生成部105は、当該アバターに対応する音声のミュートを指示する音声加工パラメータを生成する。そのため、映像出力部110と映像操作入力部104にはアバターが表示されず、さらにユーザはそのアバターに対応した音声が聞こえなくなる。
(B-1-2: Operation when a touch operation is performed on an avatar)
Next, an operation when a touch operation for moving the position of the avatar is performed will be described.
When a touch operation for moving the position of the avatar is performed, the video processing
また、アバターの位置を移動させるタッチ操作が行われると、前述したように、音声加工パラメータ生成部105は、タッチ操作終了位置に当該アバターに対応する音像(すなわち、ユーザの歌唱音声の音像)が定位するように音声出力部103の出力バランスの調整を指示する音声加工パラメータを生成する。音声加工パラメータ生成部105は、その音声加工パラメータを音声加工部102に与え、音声加工部102は、タッチ操作の為されたアバターに対応する音声入力部101から与えられた音声信号に上記加工を施し、音声出力部103に与える。音声出力部103は、与えられた音声信号の表す音を放音する。そのため、ユーザは、アバターに対するタッチ操作におけるタッチ操作終了位置からアタバーが歌っているかのような聴感を得る。この場合も映像と音声の同期が崩れることはない。
When a touch operation for moving the position of the avatar is performed, as described above, the sound processing
(B−2:背景映像に対する操作が為された場合の動作)
最後に、背景映像に対する操作が為された場合の動作について説明する。
映像操作入力部104に表示された背景映像に対してフリック操作或いはスワイプ操作が行われると、前述したように、映像加工パラメータ生成部106は、背景映像をフリック操作或いはスワイプ操作前とは異なる背景映像の選択を指示する映像加工パラメータを生成する。映像加工パラメータ生成部106は、その映像加工パラメータを映像加工部108に与え、映像加工部108は、映像加工パラメータを基にその操作前と同じアバターデータとその操作前とは異なる背景映像データを合成し、出力映像データとして映像出力部110に与える。出力映像データにおいて、アバターデータの背景映像データに対する位置は、操作前後で同じである。映像出力部110は、与えられた出力映像データの表す映像を表示する。そのため、映像出力部110では、フリック操作或いはスワイプ操作前とは異なる背景映像が表示されているが、その操作前と同じアバターが背景映像に対して操作前と同じ位置に表示されている。
(B-2: Operation when an operation is performed on the background image)
Finally, the operation when an operation is performed on the background video will be described.
When a flick operation or swipe operation is performed on the background video displayed on the video
一方、音声加工パラメータ生成部105は、フリック操作或いはスワイプ操作後の背景映像に対応したリバーブを音声信号に施すことを指示する音声加工パラメータを生成する。音声加工パラメータ生成部105は、その音声加工パラメータを音声加工部102に与え、音声加工パラメータを基に音声信号にリバーブを施し、音声信号として音声出力部103に与える。音声出力部103は、与えられた音声信号の表す音を放音する。そのため、音声出力部103から、フリック操作或いはスワイプ操作後の背景映像に対応したリバーブを施された音声が放音される。この場合も映像と音声の同期が崩れることはない。
以上が、本実施形態のカラオケ装置100の動作である。
On the other hand, the audio processing
The above is the operation of the
以上説明したように、本実施形態のカラオケ装置100によれば、映像操作入力部104を操作することで、その操作に対応した音声加工パラメータと映像加工パラメータの両者が生成されるので、映像と音声の同期が崩れることはない。さらに、カラオケ装置100のユーザは、映像操作入力部104に表示された映像を操作することで、音声の特徴を視覚的に理解でき、音声加工を視覚的に行うことができる。
As described above, according to the
(C:変形例)
本実施形態のカラオケ装置100には様々な変形例が考えられる。以下にその変形例を示す。
(C: Modification)
Various modifications can be considered for the
(1)アバターに対するピンチイン/アウト操作やタッチ操作、背景映像に対するフリック操作或いはスワイプ操作は、カラオケ装置100のリモコンに設けられた操作子(例えば、スライダ)に対する操作であってもよい。映像操作入力部104をマウスなどのポインティングデバイスに置き換えてもよい。また、カラオケ装置100のキーボードやリモコンに付属している特定ボタンを押すのと同時にポインティングデバイスを操作することで、初めてピンチイン/アウト操作等と同じ操作ができるようになっていてもよい。また、アバターに対するピンチイン/アウト操作は、映像操作入力部104のアバターに対応する領域内で行われる操作に限定されず、アバターに対応する領域近傍で行われる態様であってもよい。つまり、映像操作入力部104のアバターに対応する領域内ではなく、アバターに対応する領域近傍でピンチイン/アウト操作を行っても、アバターに対応する領域内でピンチイン/アウト操作を行ったのと同じように操作内容データが生成される態様をとってもよい。さらに、映像操作入力部104として、モーションキャプチャデバイスを用いてもよく、音声識別デバイスであってもよい。また、疑似3D空間上のアバターをつまんで引き延ばす操作を行うことで、映像操作入力部104が操作内容データを生成する態様をとってもよい。
(1) The pinch-in / out operation or touch operation on the avatar, the flick operation or swipe operation on the background image may be an operation on an operator (for example, a slider) provided on the remote controller of the
(2)カラオケ装置100に設けられている音声入力部101の数よりも多い人数のユーザの各々が音声入力部101を交互に利用して一人ずつ歌唱を行うようにしても良い。この場合、音声信号識別子として音声入力部101の番号を用いるようにすれば、音声入力部101を利用するユーザが交代したとしても映像出力部110に表示されるアバターが切り替わることはない。つまり、この場合は、映像出力部110には、カラオケ装置100に設けられている音声入力部101の数分のアバターが表示されることになる。これに対して、音声信号識別子として波形データまたは特徴量データを用いるようにすれば、ユーザ毎に異なるアバターを表示させることが可能になる。また、一つの音声入力部101に対して一人のユーザが音声入力を行う場合と複数人が同時に音声入力を行う場合とで異なるアバターを表示させる場合も音声信号識別子として波形データまたは特徴量データを用いるようにすれば良く、同じアバターを表示させる場合には音声信号識別子として音声入力部101の番号を用いるようにすれば良い。
(2) Each of a larger number of users than the number of voice input units 101 provided in the
(3)背景映像取得部109にネットワークを介してホストコンピュータから背景映像データとともに歌詞字幕表示データが配信され、背景映像取得部109が当該歌詞字幕表示データと背景映像データを映像加工部108に与え、映像加工部108が、映像加工パラメータの制御下でアバターデータを加工して、加工後のアバターデータと背景映像データおよび歌詞字幕表示データを合成して映像加工部108に与える態様をとってもよい。具体的には、配置位置のアバターの口元の位置を示す相対座標(アバターを表す画像の左上隅を原点とした座標)をアバター毎に予め定めておく。映像加工部108は、背景映像に対するアバターの配置位置の座標から、歌詞字幕表示データを合成するアバターの口元の座標(表示面の左上隅を原点とする座標)を算出する。そして、映像加工部108は、アバターの口元付近に歌詞字幕表示データを位置させ、アバターの口元に歌詞が噴出し表示された映像出力データとなるように合成を行う。この場合、歌詞が見えるよう、アバターよりも手前に歌詞が表示されるように、映像加工部108は、アバターデータ、背景映像データおよび歌詞字幕表示データの合成を行う。
(3) Lyric subtitle display data and background video data are delivered from the host computer to the background
(4)アバターに影や残像が付与されている場合には、影や残像に対する操作に応じて、アバターに対応した音声信号にエコー効果が施されていてもよい。具体的には、映像操作入力部104に表示されたアバターにタッチし、タッチした指を移動させずに映像操作入力部104から離すという操作内容を表すデータに対応付けて、エコー効果を施すことを表すデータを音声加工テーブルに格納しておく。さらに、同操作を表すデータに対応付けて、アバターの周囲に影を表示させることを表すデータを映像加工テーブルに格納しておく。このような態様においては、アバターにタッチし、タッチした指を移動させずに映像操作入力部104から離すと、アバターの周囲に影が表示され、音声にエコー効果が施される。また、映像操作入力部104に表示されたアバターの周囲の影に対応する領域に行われたピンチイン/アウト操作を表すデータに対応付けて、エコー効果が弱くもしくは強く施されることを表すデータを音声加工テーブルに格納しておく。さらに、同操作を表すデータに対応付けて、アバターの周囲の影の範囲が縮小/拡大されることを表すデータを映像加工テーブルに格納しておく。映像操作入力部104に表示されたアバターの周囲の影にピンチイン/アウト操作を行うと、アバターに対応した音声に施されたエコー効果が弱くもしくは強くなり、アバターの周囲の影の範囲が縮小/拡大する。また、アバターの周囲の影に対してタッチし、タッチした指を移動させずに映像操作入力部104から離すという操作内容を表すデータに対応して、施されるエコーの種類が変化することを表すデータを音声加工テーブルに格納し、同操作を表すデータに対応して、アバターの服装が変化することを表すデータを映像加工テーブルに格納しておいてもよい。
(4) When a shadow or an afterimage is given to the avatar, an echo effect may be applied to the audio signal corresponding to the avatar according to an operation on the shadow or the afterimage. Specifically, the echo effect is applied in association with the data representing the operation content of touching the avatar displayed on the video
(5)映像操作入力部104に表示されたアバターにタッチし、タッチした指を移動させずに映像操作入力部104から離す操作を2回連続して行うという操作内容を表すデータに対応付けて、アバターの周囲が滲むことを表すデータを映像加工テーブルに格納し、同操作を表すデータに対応付けて、重複歌唱効果を施すことを表すデータを音声加工テーブルに格納しておいてもよい。この態様では、映像操作入力部104に表示されたアバターにタッチし、タッチした指を移動させずに映像操作入力部104から離す操作を2回連続して行うと、アバターの周囲が滲んで表示され、音声に重複歌唱効果が施される。この連続して2回行う操作は、ピンチイン/アウト操作であってもタッチ操作であってもよい。さらに、映像操作入力部104に表示されたアバターの周囲の滲みに対応する領域に行われたピンチイン/アウト操作を表すデータに対応して、重複歌唱効果が弱くもしくは強く施されることを表すデータを音声加工テーブルに格納しておき、同操作を表すデータに対応して、アバターの周囲の滲みの範囲が縮小/拡大することを表すデータを映像加工テーブルに格納しておいてもよい。映像操作入力部104に表示されたアバターの周囲の滲みにピンチイン/アウト操作を行うと、アバターに対応した音声に施された重複歌唱効果が弱くもしくは強くなり、アバターの周囲の滲みの範囲が縮小/拡大する。また、アバターの周囲が滲むことを表すデータの代わりに、同一のアバターを位置をずらして重ねて複数表示することを表すデータを映像加工テーブルに格納していてもよい。さらに、映像操作入力部104に表示されたアバターの周囲の重なりに対応する領域に行われたピンチイン/アウト操作を表すデータに対応して、重複歌唱効果を弱くもしくは強く施すことを表すデータを音声加工テーブルに格納しておき、同操作を表すデータに対応して、アバターの周囲の重なりの数が減少/増加することを表すデータを映像加工テーブルに格納しておいてもよい。
(5) Touching the avatar displayed on the video
(6)アバターは人間を模した形状をしているが、アバターが人間を模した形状以外の形状であってもよい。例えば、建造物、車、木、山、楽器といった形状であってもよい。入力される音声とは全く関連性のない形状であってもよい。アバターデータは、図示しないカメラで撮影した歌唱者自身を示す映像データでもよい。また、映像出力部110に表示させる映像は、背景映像とアバターとの合成映像には限定されず、アバターのみからなる映像であっても良い。
(6) Although the avatar has a shape imitating a human, the avatar may have a shape other than the shape imitating a human. For example, the shape may be a building, a car, a tree, a mountain, or a musical instrument. The shape may be completely unrelated to the input voice. The avatar data may be video data showing the singer himself photographed with a camera (not shown). The video displayed on the
(7)カラオケ装置100は、入力した音声を採点する機能を有していてもよい。さらに、その採点結果に応じて映像加工部108はアバター全体を変化させる態様をとってもよい。詳述すると、図示しない記憶装置には、同一の音声信号識別子に対応した3種類のアバターデータが格納されている。当該アバターデータは、同じキャラクターの喜び、普通、しょんぼりの様子を表しており、カラオケ装置100の採点結果の点数に対応付けられている。例えば、採点が100点満点であり、採点結果が70点から100点の間は喜びの様子を表したアバターデータが対応しており、採点結果が31点から69点の間は普通の様子を表したアバターデータが対応しており、採点結果が0点から30点の間はしょんぼりの様子を表したアバターデータが対応している。映像生成部107は、採点結果に対応したアバターデータを記憶装置から読み出し、そのアバターデータを映像加工部108に与える。映像加工部108は、そのアバターデータと背景映像を合成し、映像出力データとして映像出力部110に与え、映像出力部110は、その映像出力データをユーザに表示する。そのため、映像出力部110には、採点結果に対応したアバターが表示される。ただし、カラオケ装置100が採点を行っていない、もしくは採点中であると、映像生成部107は、普通の様子を表したアバターデータを映像加工部108に与える。
(7) The
(8)アバターの顔が、歌唱者の歌う歌のオリジナルのアーティストの顔とのモーフィング表示になっていてもよい。上記のように、カラオケ装置100が採点機能を有している場合には、採点の点数が高いほど、アバターの顔はオリジナルのアーティストの顔に近づくようになっていてもよい。詳述すると、図示しない記憶装置に歌唱者の歌う歌のオリジナルのアーティストの顔の画像データを記憶させておく。採点後、映像生成部107は、その記憶装置からオリジナルのアーティストの顔の画像データを読み出し、アバターの顔の画像データと採点結果に応じて以下の演算を行って、映像加工部108に出力する。すなわち、採点の点数が100点満点中C点であるとすると、オリジナルのアーティストの顔の画像データにおける画素Aと、元々のアバターの顔の画像データにおける画素Aと同じ位置の画素Bを用いて、画素AにC/100を掛けたものと、画素Bに1−C/100を掛けたものの合計を、採点後の画素Aに対応する画素値とするのである。
(8) The face of the avatar may be a morphing display with the face of the original artist of the song sung by the singer. As described above, when the
<第2実施形態>
第1実施形態では、映像操作入力部104に表示されたアバター全体に対してピンチイン/アウト操作やタッチ操作が行われた。これに対して本実施形態では、アバター全体ではなくアバターの部位を指定してピンチイン/アウト操作等の各操作が行われる。この点が本実施形態と第1実施形態が顕著に異なる点である。なお、本実施形態のカラオケ装置のハードウェア構成は第1実施形態のカラオケ装置100の構成と同一であるため、前掲図1を援用し、詳細な説明を省略する。
Second Embodiment
In the first embodiment, a pinch-in / out operation and a touch operation are performed on the entire avatar displayed on the video
アバターの部位に対する操作は、操作対象の部位を指定する操作(本実施形態では、操作対象の部位に対応する領域内の同じ位置に3回連続してタッチする操作)と、このようにして指定した部位に対する操作(ピンチイン/アウト、およびタッチ操作)とからなる。このため、アバターの部位に対する操作についての操作内容データには、操作対象の部位を指定する操作を表すデータが含まれており、この点がアバター全体に対する操作の操作内容データと異なる。図11は、音声加工パラメータ生成部105が音声加工パラメータを生成する処理の流れを示すフローチャートであり、図12は、映像加工パラメータ生成部106が映像加工パラメータを生成する処理の流れを示すフローチャートである。図11と図12を比較すれば明らかなように、ステップSA203およびステップSA204と、ステップSB203およびステップSB204とが各々対応し、これらのステップ以外は内容が同じであるため、図11と図12では同じステップ番号を用いる。音声加工パラメータ生成部105と映像加工パラメータ106は、映像操作入力部104から操作内容データを受け取ったことを契機として音声加工パラメータと映像加工パラメータの生成を各々開始する。音声加工パラメータ生成部105と映像加工パラメータ生成部106は、映像操作入力部104から受け取った操作内容データに操作対象の部位を指定する操作を表すデータが含まれているか否かを判定する(ステップSA201)。ステップSA201の判定結果が“No”であった場合、音声加工パラメータ生成部105と映像加工パラメータ生成部106は、音声加工パラメータと映像加工パラメータを生成せずに、当該生成処理を終了する。一方、ステップSA201の判定結果が“Yes”であった場合、音声加工パラメータ生成部105と映像加工パラメータ生成部106は、その操作内容データにピンチイン/アウト操作を表すデータが含まれているか否かを判定する(ステップSA202)。ステップSA202の判定結果が“Yes”であった場合、音声加工パラメータ生成部105と映像加工パラメータ生成部106は、音声加工パラメータおよび映像加工パラメータを各々生成する(ステップSA203およびステップSB203)。ここで、どのような操作に操作対象の部位を指定する役割を担わせるのかについては種々の態様が考えられる。例えば、アバターの部位に対応する領域内を3回連続してタッチする操作に上記役割を担わせる態様や、アバターの部位に対応する領域内を長押し(すなわち、予め設定した一定時間以上同じ位置でタッチし続ける)する操作に上記客割を担わせる態様が考えられる。本実施形態では、前者の態様が採用されている。
The operation for the avatar part is designated in this way with the operation for designating the part to be manipulated (in this embodiment, the operation of touching the same position in the region corresponding to the part to be manipulated three times in succession). Operation (pinch-in / out and touch operation) for the selected part. For this reason, the operation content data regarding the operation on the avatar part includes data representing an operation for designating the operation target part, which is different from the operation content data for the operation on the entire avatar. FIG. 11 is a flowchart showing a flow of processing in which the audio processing
映像加工パラメータ生成部106には、アバターの各部位に対する操作の各操作内容を表すデータに対応づけて当該操作が為されたときに当該アバターに施す加工内容を表すデータを格納した映像加工テーブルと、背景映像変更テーブル(図5参照)と、図13に示すアバター部位加工テーブルとが予め記憶されている。上記映像加工テーブルには、アバターの部位に対する操作内容を表すデータに対応付けて当該部位に加工を施すことを示すデータが格納されており、アバター部位加工テーブルにはアバターの部位に対応付けて当該部位に施す具体的な加工内容を表すデータが格納されている。例えば、上記映像加工テーブルには、アバターの部位に対するピンチイン/アウト操作を示すデータに対応づけてアバターの部位を縮小/拡大することを示すデータが格納されている。上記映像加工テーブルには、アバターのボディ以外の部位に対するタッチ操作を示すデータに対応付けて、ボディ以外の部位を移動させることを示すデータが格納されており、ボディに対するタッチ操作を示すデータに対応付けてアバターの衣装の変更を表すデータが格納されている。映像加工パラメータ生成部106は、映像出力部110に表示中のアバターの衣装を表す識別子を記憶している。
The video processing
映像加工パラメータ生成部106は、ステップSA202の判定結果が“Yes”であった場合、受け取った操作内容データに含まれる操作内容を表すデータに応じて当該部位を縮小/拡大することを指示する映像加工パラメータを生成する(ステップSB203)。これに対して、ステップSA202の判定結果が“No”であった場合、映像加工パラメータ生成部106は、受け取った操作内容データがタッチ操作を示すデータであるとし、タッチ操作に応じた映像加工パラメータを生成する(ステップSB204)。より詳細に説明すると、操作内容データの示すタッチ位置がアバターのボディ以外であれば、映像加工パラメータ生成部106はアバターのボディ以外に対するタッチ操作であるとし、当該タッチ位置に対応する部位の表示位置の移動を指示する映像加工パラメータを生成する。操作内容データの示すタッチ位置がアバターのボディであれば、映像加工テーブルの格納内容とその時点のアバターの衣装の識別子とから更新先の衣装を特定し、当該衣装に更新することを指示する映像加工パラメータを生成する。
When the determination result in step SA202 is “Yes”, the video processing
音声加工パラメータ生成部105には、アバターの各部位に対する操作の各操作内容を表すデータに対応づけて当該操作が為されたときに当該アバターに対応する音声に施す加工内容を表すデータを格納した音声加工テーブルと、リバーブ変更テーブル(図4参照)と、図14に示すコンプレッサ加工テーブルとが予め記憶されている。本実施形態では、アバターの部位に対するピンチイン/アウト操作に対応付けてコンプレッサによる加工内容を規定するパラメータの減少/増加を表すデータが上記音声加工テーブルに格納されている。
The voice processing
コンプレッサによる加工とは、加工対象の音声信号の表す音の音量が予め設定した閾値(スレッショルド値)を超えた場合、超過した音量を設定した比率(レシオ)で圧縮し、設定されたリリース時間で解放することで、カラオケ曲の進行とともに変動する音量の最大値を低下させることを言う。コンプレッサによる加工内容を規定するパラメータとしては、上記閾値、レシオおよびリリース時間の他に、ゲイン、アタック時間、およびニーの3つのパラメータが挙げられる。ゲインとは、音の音量の増減を示す値であり、アタック時間とは、加工対象の音声信号の表す音の音量がスレッショルド値を超えてから(すなわち、音量の圧縮が始まってから)上記レシオに到達するまでの時間のことである。ニーとは、スレッショルド値近傍においてレシオに到達するまでの圧縮の具合を示す値のことである。 Processing with a compressor means that if the volume of the sound represented by the audio signal to be processed exceeds a preset threshold (threshold value), the excess volume is compressed at a set ratio (ratio) and the set release time By releasing, it means reducing the maximum value of the volume that fluctuates with the progress of karaoke songs. As parameters that define the content of processing by the compressor, there are three parameters of gain, attack time, and knee in addition to the threshold value, ratio, and release time. The gain is a value indicating increase / decrease in the volume of the sound, and the attack time is the above ratio after the volume of the sound represented by the audio signal to be processed exceeds the threshold value (that is, after the compression of the volume starts). It is the time to reach. Knee is a value indicating the degree of compression until the ratio is reached in the vicinity of the threshold value.
本実施形態のコンプレッサ加工テーブルには、アバターの部位に対応付けて、コンプレッサのどの項目を調整するのかを表すデータが格納されている。例えば、図14に示すコンプレッサ加工テーブルでは、アバターの顔に対してゲインが対応付けられており、アバターのボディに対してニーが対応付けられており、アバターの右手に対してアタック時間が対応付けられている。さらに、図14に示すコンプレッサ加工テーブルでは、アバターの左手に対してリリース時間が対応付けられており、アバターの右足に対してスレッショルド値が対応付けられており、アバターの左足に対してレシオが対応付けられている。 The compressor processing table of the present embodiment stores data indicating which items of the compressor are to be adjusted in association with the avatar part. For example, in the compressor processing table shown in FIG. 14, a gain is associated with the avatar's face, a knee is associated with the avatar's body, and an attack time is associated with the avatar's right hand. It has been. Furthermore, in the compressor processing table shown in FIG. 14, the release time is associated with the avatar's left hand, the threshold value is associated with the avatar's right foot, and the ratio is associated with the avatar's left foot. It is attached.
また、本実施形態の音声加工テーブルには、アバターの部位に対するタッチ操作を示すデータに対応付けて、コンプレッサ以外の加工を当該アバターに対する音声に施すことを示すデータが格納されている。例えば、アバターの右手に対するタッチ操作を表すデータには、当該アバターの低音域を持ち上げることを表すデータが対応付けられており、アバターの左手に対するタッチ操作を表すデータには、当該アバターの高音域を持ち上げることを表すデータが対応付けられており、アバターのボディに対するタッチ操作を表すデータには、当該タッチ操作により更新後の衣装に応じて音響効果を変更することを表すデータが対応付けられている、といった具合である。例えば、変更後の衣装が和服であれば、演歌調の音響効果に変更することを表すといった具合である。 The voice processing table of the present embodiment stores data indicating that processing other than the compressor is performed on the voice for the avatar in association with data indicating a touch operation on the avatar part. For example, data representing a touch operation on the avatar's right hand is associated with data representing raising the bass range of the avatar, and data representing a touch operation on the avatar's left hand includes the treble range of the avatar. Data representing lifting is associated, and data representing a touch operation on the body of the avatar is associated with data representing changing the acoustic effect according to the updated costume by the touch operation. And so on. For example, if the costume after the change is Japanese clothes, the change represents an enka-like sound effect.
音声加工パラメータ生成部105は、ステップSA202の判定結果が“Yes”であった場合、音声加工テーブルおよび当該アバターに対応する音声信号にその操作内容に応じたコンプレッサ効果を付与することを指示する音声加工パラメータを生成する(ステップSA203)。例えば、アバターの顔に対するピンチイン/アウト操作であった場合、音声加工パラメータ生成部105は、音声信号のゲインの減少/増大を指示する音声加工パラメータを生成する。また、アバターのボディに対するピンチイン/アウト操作であった場合、音声加工パラメータ生成部105は、ニーの減少/増大を指示する音声加工パラメータを生成する。アバターの右手に対するピンチイン/アウト操作であった場合、音声加工パラメータ生成部105は、アタック時間の短縮/延長を指示する音声加工パラメータを生成する。アバターの左手に対するピンチイン/アウト操作であった場合、音声加工パラメータ生成部105は、リリース時間の短縮/延長を指示する音声加工パラメータを生成する。アバターの右足に対するピンチイン/アウト操作であった場合、音声加工パラメータ生成部105は、スレッショルド値の減少/増大を指示する音声加工パラメータを生成する。アバターの左足に対するピンチイン/アウト操作であった場合、音声加工パラメータ生成部105は、レシオの減少/増大を指示する音声加工パラメータを生成する。これに対して、ステップSA202の判定結果が“No”であった場合、音声加工パラメータ生成部105は、音声加工テーブルの格納内容を参照し当該部位に対応する音響効果の調整を指示する音声加工パラメータを生成する(ステップSA204)。例えば、アバターのボディに対するタッチ操作であり、そのタッチ操作による更新後の衣装が和服であった場合には、音声加工パラメータ生成部105は、演歌調の音響効果を付与することを指示する音声加工パラメータを生成するといった具合である。
When the determination result in step SA202 is “Yes”, the voice processing
なお、アバターの部位に対するピンチイン/アウト操作に対するアバターの部位の大きさや長さの縮小/拡大と、コンプレッサのパラメータの減少/増大や短縮/延長は逆でもよい。さらに、ピンチイン/アウト操作を行ったアバターの部位と、映像操作入力部104で縮小/拡大されるアバターの部位は一致しなくてもよい。例えば、アバターのボディに対してピンチイン操作を行うと、アバターの右手の長さが拡大し、音声信号のゲインが増大してもよい。しかし、このような操作内容と加工内容の対応付けはユーザの直感と合わないため、必ずしも望ましいものではない。また、アバターの部位に対する操作とコンプレッサのパラメータの関係性は、必ずしも上記で説明した関係性である必要はない。例えば、アバターのボディにピンチイン/アウト操作を行うと、アバターのボディが縮小/拡大し、アタック時間が短縮/延長してもよい。これらは、図13のアバターの部位加工テーブルと図14のコンプレッサ加工テーブルのアバター操作部位に対応する箇所を書き換えることで実現される。
以上が、本実施形態のカラオケ装置100の構成である。
Note that the avatar part size / length reduction / enlargement and the compressor parameter reduction / increase / shortening / extension may be reversed for pinch-in / out operations on the avatar part. Furthermore, the part of the avatar that has performed the pinch-in / out operation and the part of the avatar that is reduced / enlarged by the video
The above is the configuration of the
このような構成としたため、本実施形態のカラオケ装置においても、映像(アバター)に対して何らかの加工を施したとしても、当該映像と音声の同期が崩れることはない。以上本発明の第2実施形態について説明したが、この実施形態を以下のように変形してもよい。 Due to such a configuration, even in the karaoke apparatus of the present embodiment, even if some processing is performed on the video (avatar), the video and audio are not synchronized. Although the second embodiment of the present invention has been described above, this embodiment may be modified as follows.
(1)本実施形態の変形例として、第1実施形態の変形例の(1)〜(8)の態様をとってもよい。なお、本実施形態の変形例として、第1実施形態のようなアバター全体に対する操作によって音声と映像に加工が施される態様をとってもよい。 (1) As a modification of the present embodiment, the aspects (1) to (8) of the modification of the first embodiment may be taken. As a modification of the present embodiment, a mode in which sound and video are processed by an operation on the entire avatar as in the first embodiment may be employed.
(2)音声信号識別子として波形データや特徴量データを用いる場合には、音声信号の波形や特徴に関連付けたアバターの部位データを用意しておき、カラオケ装置100が、入力された音声信号に応じてアバターの部位データの中から各部位を選択して1つのアバターに合成しても良い。
(2) When waveform data or feature value data is used as an audio signal identifier, avatar part data associated with the waveform or feature of the audio signal is prepared, and the
(3)アバターの顔にタッチ操作を施すと、アバターの顔の形が変化して、音声信号に強くコンプレッサの効果が施される態様をとってもよい。この態様では、アバターの顔は、人間の顔の形を模した形である丸から四角や六角形に変化してもよい。また、アバターの顔にタッチ操作を施すことで、アバター全体が変化してもよい。アバター全体の変化とは、アバターの表情や髪型や体格が変化することで、アバター全体が人間以外の例えば昆布に変化してもよい。 (3) When a touch operation is performed on the avatar's face, the shape of the avatar's face may be changed so that the compressor effect is strongly applied to the audio signal. In this aspect, the face of the avatar may change from a circle, which is a shape imitating the shape of a human face, to a square or a hexagon. Moreover, the whole avatar may change by performing a touch operation on the face of the avatar. The change of the entire avatar is a change of the avatar's facial expression, hairstyle, or physique, so that the entire avatar may be changed to, for example, kelp other than humans.
<第3実施形態>
図15は、この発明の第3実施形態であるカラオケ装置200の構成を示すブロック図である。図15では、図1におけるものと同一の構成要素には図1におけるものと同一の符号が付されている。図1と図15を見比べれば明らかなように、カラオケ装置200の構成は、映像操作入力部104、音声加工パラメータ生成部105および映像加工パラメータ生成部106に代えて特徴量解析部204を設けた点がカラオケ装置100の構成と異なる。特徴量解析部204も、カラオケ装置200のCPUが当該カラオケ装置200に記憶されている制御プログラム(図15では図示略)にしたがって実現するソフトウェアモジュールである。以下では、本実施形態の特徴を顕著に示す特徴量解析部204を中心に説明する。
<Third Embodiment>
FIG. 15 is a block diagram showing a configuration of a
図16は、特徴量解析部204が映像加工パラメータを生成する処理の流れを示すフローチャートである。特徴量解析部204は、音声入力部101から受け取った音声信号を予め設定された一定時間分ずつ区切り(ステップSA301)、このようにして得られた一定時間分の音声信号の各々について音声解析を行い(ステップSA302)、その音声解析の結果を反映した映像加工パラメータを生成する(ステップSA303)。特徴量解析部204が実行する音声解析には、音声信号の音量のみを解析する態様と、音声信号の音量とダイナミクスレンジを解析する態様と、スペクトル包絡のみを解析する態様の3つの態様がある。ダイナミクスレンジとは、音声信号音量の最大値と最小値の比率であり、スペクトル包絡とは、例えば、一定時間の音声信号に対してフーリエ変換を施し、底が10の対数を取り、20倍したものである。
FIG. 16 is a flowchart illustrating a flow of processing in which the feature
特徴量解析部204が音声信号の音量のみを解析する態様の場合、特徴量解析部204は、前述した一定時間ごとの平均音量を計測する。特徴量解析部204は、平均音量とアバター全体の大きさを対応させる平均音量テーブル(図示略)を予め記憶している。本実施形態の平均音量テーブルには、平均音量が大きいほどアバターを大きくすることを表すデータが格納されているが、逆に平均音量が大きいほどアバターを小さくすることを表すデータが格納されている態様であってもよい。特徴量解析部204は、上記一定時間が経過する毎に平均音量テーブルの格納内容と計測した平均音量とからアバター全体の大きさを決定する映像加工パラメータを生成し、その映像加工パラメータを映像加工部108に与える。
When the feature
映像加工部108は、背景映像取得部109から与えられた背景映像と、映像生成部107から与えられたアバターと、特徴量解析部204から与えられた映像加工パラメータから映像出力データを生成して映像出力部110に与える。映像出力部110は当該映像出力データの表す映像を表示する。映像加工部108には、背景映像取得部109から複数の背景映像データが与えられるが、カラオケ装置100の製作者またはユーザが任意に選択した背景映像データ(或いは映像加工部108がランダムに選択した背景映像データ)が加工後のアバターデータとの合成に用いられる。さらに、映像加工部108は、背景映像データの中央にアバターデータが位置するように合成を行う。なお、音声入力部101は歌唱者が歌っていない時にも周囲雑音を音声として収音してしまう可能性がある。このため本態様においては、音声入力部101から与えられた音声信号の音量が予め設定した閾値以下の場合には、アバターを非表示とする映像加工パラメータを生成し映像加工部108に与える処理を特徴量解析部204に実行させてもよい。また、音声入力部101から与えられた音声信号の音量が予め設定した閾値以下の場合には当該音声信号に対応したアバターデータを映像生成部107に出力させないようにしても同一の効果が得られる。
The
次に、特徴量解析部204が音声信号の音量とダイナミクスレンジを解析する態様の場合、特徴量解析部204は、音声入力部101から与えられた音声信号について予め設定した一定時間ごとの平均音量とダイナミクスレンジを計測し、アバターの顔色を暖色に変化させる映像加工パラメータを生成する。詳述すると、特徴量解析部204は、音声信号の平均音量が閾値を超え、かつ音声信号の平均ダイナミクスレンジが閾値よりも小さいと、歌唱者の熱唱度は高いと判断する。そこで、アバターも熱唱しているようにするために、特徴量解析部204は、アバターの顔色を暖色に変化させる映像加工パラメータを生成し、その映像加工パラメータを映像加工部108に与える。その後は、上記の特徴量解析部204が平均音量のみを解析する態様と同様である。なお、特徴量解析部204に上記平均音量テーブルを記憶させておき、アバターの顔色を暖色に変化させるとともに音声信号の平均音量に応じてアバターの大きさを変化させる映像加工パラメータを特徴量解析部204に生成させるようにしてもよい。
Next, when the feature
最後に、特徴量解析部204がスペクトル包絡のみを解析する態様の場合、特徴量解析部204は、音声入力部101から与えられた音声信号について予め設定した一定時間ごとのスペクトル包絡を計測する。そして、特徴量解析部204は、図示しない記憶装置に格納されている、歌唱者が歌っている歌のオリジナルのアーティストの音声のスペクトル包絡とアバターを読み出し、計測した歌唱者の音声のスペクトル包絡と例えば相関関数を用いて比較照合する。特徴量解析部204は、計測したスペクトル包絡とオリジナルのスペクトル包絡の比較照合の結果(すなわち、相関関数の値)に応じて、入力された音声信号に対応したアバターとオリジナルのアーティストのアバターがモーフィングするような映像加工パラメータを生成し、映像加工部108に与える。その後は、上記の特徴量解析部204が平均音量のみを解析する態様と同様である。特徴量解析部204がスペクトル包絡のみを解析する態様においては、計測したスペクトル包絡とオリジナルのスペクトル包絡が完全に一致すると、映像出力部110に表示されるアバターはオリジナルのアーティストのアバターとなる。
Finally, in a case where the feature
この態様においても、上記平均音量テーブルを特徴量解析部204に記憶させておき、オリジナルのスペクトル包絡との類否に応じたモーフィングに加えて平均音量に応じてアバターの大きさを変化させる映像加工パラメータを特徴量解析部204に生成させてもよく、さらに、熱唱度に応じてアバターの顔色を暖色に変化させる映像加工パラメータを生成させてもよい。また、特徴量解析部204がネットワークを介してホストコンピュータに接続されており、歌唱者が歌っている歌のオリジナルのアーティストの音声のスペクトル包絡とアバターが、図示しない記憶装置ではなく、ホストコンピュータから特徴量解析部204に直接配信される態様をとってもよい。
Also in this aspect, the above-mentioned average volume table is stored in the feature
音声加工部102は、音声入力部101から与えられた音声信号を音声出力部103に振り分けて出力する。この点は第1実施形態と同じであるが、本実施形態の音声加工部102は、音声加工パラメータが与えられておらず、音声信号に加工が施されていない点が第1実施形態とは異なる。
以上が、本実施形態のカラオケ装置200の構成である。
The
The above is the configuration of the
このような構成としたため、本実施形態のカラオケ装置200においては入力された音声信号に対応した映像加工パラメータが生成されるので、映像と音声の同期が崩れることはない。さらに、カラオケ装置200のユーザは、音声信号に応じてアバターが変化するので、映像出力部110に表示された映像から、音声の変化を視覚的に理解することができる。以上本発明の第3実施形態のカラオケ装置200について説明したが、この実施形態を以下のように変形してもよい。
Because of such a configuration, in the
(1)本実施形態の変形例として、第1実施形態の変形例の(2)、(3)、(6)、(7)および(8)の態様をとってもよい。 (1) As a modification of the present embodiment, the modes (2), (3), (6), (7) and (8) of the modification of the first embodiment may be taken.
(2)アバターの顔色を暖色に変化させる映像加工パラメータを生成する場合、音量とダイナミクスレンジにより熱唱度の判断を行わず、サーモグラフィを用いて予め設定した一定時間ごとの歌唱者の平均体温を計測し、その平均体温を熱唱度の判断に用いてもよい。歌唱者は熱唱していると体温は上がるはずである。そのため、サーモグラフィが計測した歌唱者の平均体温が予め設定した閾値を超えていると、特徴量生成部204は、アバターの顔色を暖色に変化させる映像加工パラメータを生成し、映像加工部108に与える。なお、上記の音声信号の平均音量と平均ダイナミクスレンジを計測する態様に平均体温を計測する態様を組み合わせた態様をとってもよい。この態様では、音声信号の平均音量が閾値を超え、なおかつ音声信号の平均ダイナミクスレンジが閾値よりも小さく、さらになおかつ歌唱者の平均体温が閾値を超えると、特徴量解析部204は、アバターの顔色を暖色に変化させる映像加工パラメータを生成する。もちろん、特徴解析部204が、平均音量テーブルを記憶し、音声信号の平均音量に応じて、上記のようにアバターの大きさを変化させる映像加工パラメータを生成してもよい。
(2) When generating video processing parameters that change the avatar's face color to warm, measure the average body temperature of the singer at a preset time using thermography without judging the degree of enthusiasm based on volume and dynamics range And the average body temperature may be used for judgment of the enthusiasm. If the singer is singing, the body temperature should go up. Therefore, if the average body temperature of the singer measured by the thermography exceeds a preset threshold, the feature
(3)本実施形態と第1実施形態を組み合わせた態様をとってもよい。この場合、映像加工パラメータ生成部106と特徴量解析部204の両者が併存している態様でもよいし、両者が併存しない態様でもよい。両者が併存しない態様では、特徴量解析部204が存在せず、映像加工パラメータ生成部106が音声入力部101から音声信号を与えられ、映像加工パラメータを生成する。さらに、映像加工パラメータ生成部106は、特徴量解析部204の機能を担うことになる。
(3) The present embodiment may be combined with the first embodiment. In this case, the video processing
<その他の実施形態>
上記第1〜第3実施形態ではカラオケ装置への本発明の適用例を説明した。しかし、本発明をカラオケ装置以外の信号加工装置に適用してもよく、具体的には以下の通りである。
<Other embodiments>
In the first to third embodiments, the application example of the present invention to the karaoke apparatus has been described. However, the present invention may be applied to a signal processing apparatus other than a karaoke apparatus, and specifically as follows.
(1)音声入力部101が収音する音は、人間の音声に限られず、楽器の音であってもよいし、音声や楽器などの色々な音が混合した伴奏の音であってもよい。これら人間の音声以外の音であっても、映像生成部107は各音に対応したアバターを生成し、各音の特徴を視覚的に理解し、各音の加工を視覚的に施すことができる。
(1) The sound collected by the voice input unit 101 is not limited to a human voice, and may be a sound of a musical instrument, or may be an accompaniment sound in which various sounds such as a voice and a musical instrument are mixed. . Even for sounds other than these human sounds, the
(2)上記第1〜第3実施形態では、音声入力部101により収音された音を表す音声信号がリアルタイム入力される場合について説明した。しかし、予め録音された音声と録画された背景映像であって、互いに同期再生される音声と背景映像について、後者に対する映像加工に応じた音声加工を前者に施す態様でもよく、前者に応じた映像加工を後者に施す態様でもよい。この態様では、音声入力部101や背景映像取得部109を省略することができる。さらに、音声出力部103と映像出力部110については例えばパソコンの出力デバイスで代用できるため、この態様はソフトウェアのみで実現可能である。つまり、本態様はパソコン上で行う動画編集等に好適である。
(2) In the first to third embodiments, the case where the audio signal representing the sound collected by the audio input unit 101 is input in real time has been described. However, it is also possible to apply a sound processing corresponding to the latter to the former for the sound and the background video that are recorded in advance and recorded in synchronization with each other. An embodiment in which processing is applied to the latter may be used. In this aspect, the audio input unit 101 and the background
(3)携帯電話機などの携帯装置に本発明を適用してもよい。例えば携帯電話機に本発明を適用する場合、音声入力部101は携帯電話機のマイクに相当し、音声出力部103は携帯電話機のスピーカに相当する。背景映像取得部109により取得される背景映像データは例えば携帯電話機に保存された映像データに相当し、映像出力部110や映像操作入力部104は携帯電話機の画面に相当する。マイクで収音した音を保存された映像に応じて加工することができたり、マイクで収音した音に応じて保存された映像を加工することができる。また、据え置き型や携帯型のゲーム機に本発明を適用してもよい。この場合、ゲーム機のコントローラやタッチパネルが映像装置入力部104に相当する。タッチパネルに対してはタッチペンやスタイラスで操作を行う。さらに、ゲーム機がモーションキャプチャデバイスに対応している場合には、モーションセンサが映像操作入力部104に相当する。
(3) The present invention may be applied to a portable device such as a cellular phone. For example, when the present invention is applied to a mobile phone, the voice input unit 101 corresponds to a microphone of the mobile phone, and the
(4)この発明をアプリケーションサービスプロバイダ(ASP)用のサーバ装置に適用してもよい。詳述すると、第1実施形態や第2実施形態の音声加工部102、音声加工パラメータ生成部105、映像加工パラメータ生成部106、映像生成部107および映像加工部108を有するサーバ装置、もしくは、第3実施形態の音声加工部102、映像生成部107、映像加工部108および特徴量解析部204を有するサーバ装置をインターネットなどの電気通信回線に接続しておく。前者のサーバ装置は、電気通信回線経由で音声信号と背景映像データと操作内容データとを受信し、音声加工や映像加工を施して、加工後の音声信号や出力映像データを電気通信回線経由で送信する。後者のサーバ装置は電気通信回線経由で音声信号と背景映像データとを受信し、音声加工や映像加工を施して、加工後の音声信号や出力映像データを電気通信回線経由で送信する。この態様では、ユーザは自身のパソコンから互いに同期再生される音声と映像を表す各信号(前者のサーバ装置であれば、さらに操作内容データ)を上記電気通信回線経由で上記サーバ装置に送信し、サーバ装置により加工された音声信号と映像データとをネットワーク経由で受信して再生することで、上記各実施形態と同様の映像加工および音声加工を行うことができる。
(4) The present invention may be applied to a server device for an application service provider (ASP). Specifically, the server device having the
また、この態様では、ユーザは、自らが送信した映像データおよび音声信号と他のユーザがサーバ装置に送信した映像データおよび音声信号とをサーバ装置に加工させ、加工後の映像データと音声信号を受け取ってもよい。例えば、自分のアバターと他のユーザのアバターとを合成して両アバターがデュエットしているかのような映像データを生成させ、自分の歌声を表す音声信号と上記他のユーザの歌声を表す音声信号とを合成しデュエットしているかのような音声を表す音声信号を生成させる、といった具合である。 Also, in this aspect, the user causes the server device to process the video data and audio signal transmitted by the user and the video data and audio signal transmitted from the other user to the server device, and the processed video data and audio signal are processed. You may receive it. For example, by synthesizing one's avatar and another user's avatar to generate video data as if both avatars are duet, an audio signal representing one's singing voice and an audio signal representing the other user's singing voice And generating a sound signal representing sound as if duet.
(5)上記第1〜第3実施形態では、音声出力部103は、音声加工部102から与えられた音声信号の表す音を放音する放音装置であったが、例えばアンプやミキサなどの放音装置以外の外部装置であってもよい。カラオケ装置100を録音用途に用いる場合は、当該外部装置が録音装置であってもよい。さらに、当該外部装置と放音装置を併用する態様であってもよい。
(5) In the first to third embodiments, the
100,200…カラオケ装置、101…音声入力部、102…音声加工部、103…音声出力部、104…映像操作入力部、105…音声加工パラメータ生成部、106…映像加工パラメータ生成部、107…映像生成部、108…映像加工部、109…背景映像取得部、110…映像出力部、204…特徴量解析部。
DESCRIPTION OF SYMBOLS 100,200 ... Karaoke apparatus, 101 ... Audio | voice input part, 102 ... Audio | voice processing part, 103 ... Audio | voice output part, 104 ... Image | video operation input part, 105 ... Audio | voice processing parameter generation part, 106 ... Video | video processing parameter generation part, 107 ...
Claims (3)
前記入力音信号の表す音と同期して前記表示装置に表示させる映像を表す映像データに対して前記映像加工パラメータに基づいた加工を施し、加工済の映像データを前記表示装置に与える映像加工部と、
を有することを特徴とする信号加工装置。 A parameter generation unit that generates a video processing parameter representing processing content for a video to be displayed on the display device according to an input sound signal;
A video processing unit that performs processing based on the video processing parameters on video data representing video to be displayed on the display device in synchronization with the sound represented by the input sound signal, and supplies the processed video data to the display device When,
A signal processing apparatus comprising:
前記表示装置に表示される映像に対する操作が入力される映像操作入力部と、
前記入力音信号に対して音加工パラメータに基づいた加工を施して出力する音加工部と、
を備え、
前記パラメータ生成部は、
前記入力音信号に応じて前記映像加工パラメータを生成する処理に代えて前記映像操作入力部に入力された操作に応じて前記映像加工パラメータを生成する処理、または前記入力音信号と前記映像操作入力部に入力された操作とに応じて前記映像加工パラメータを生成する処理を実行するとともに、前記音加工パラメータを前記映像操作入力部に入力された操作に応じて生成する
ことを特徴とする請求項1に記載の信号加工装置。 A video generation unit that generates video data to be processed by the video processing unit based on the input sound signal;
A video operation input unit for inputting an operation on a video displayed on the display device;
A sound processing unit that performs processing based on a sound processing parameter and outputs the input sound signal;
With
The parameter generator is
In place of the process of generating the video processing parameter according to the input sound signal, the process of generating the video processing parameter according to the operation input to the video operation input unit, or the input sound signal and the video operation input The processing for generating the video processing parameter according to an operation input to the unit is executed, and the sound processing parameter is generated according to the operation input to the video operation input unit. The signal processing apparatus according to 1.
前記映像データは、前記ユーザを模したアバターの各部位を表すデータであり、
前記アバターの部位毎に異なる音響効果が割り当てられており、
前記パラメータ生成部は、前記映像操作入力部により操作が為されたアバターの部位毎に当該部位に対する加工内容を表す映像加工パラメータを生成するとともに、操作の為された部位に対応する音響効果を調整する音加工パラメータを生成する
ことを特徴とする請求項2に記載の信号加工装置。
The input sound signal includes a sound signal representing a user's singing voice,
The video data is data representing each part of an avatar that imitates the user,
Different sound effects are assigned to each part of the avatar,
The parameter generation unit generates a video processing parameter representing processing content for the part for each part of the avatar operated by the video operation input unit, and adjusts an acoustic effect corresponding to the operated part. The signal processing apparatus according to claim 2, wherein a sound processing parameter to be generated is generated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014212921A JP2016080908A (en) | 2014-10-17 | 2014-10-17 | Signal processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014212921A JP2016080908A (en) | 2014-10-17 | 2014-10-17 | Signal processing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016080908A true JP2016080908A (en) | 2016-05-16 |
Family
ID=55956257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014212921A Pending JP2016080908A (en) | 2014-10-17 | 2014-10-17 | Signal processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016080908A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2020208668A1 (en) * | 2019-04-08 | 2020-10-15 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123977A (en) * | 1994-10-24 | 1996-05-17 | Imeeji Rinku:Kk | Animation system |
JPH11175061A (en) * | 1997-12-09 | 1999-07-02 | Yamaha Corp | Control unit and karaoke device |
JP2003271158A (en) * | 2002-03-14 | 2003-09-25 | Pioneer Electronic Corp | Karaoke device having image changing function and program |
JP2007094140A (en) * | 2005-09-29 | 2007-04-12 | Xing Inc | Coordination system between music information distribution system and karaoke system |
-
2014
- 2014-10-17 JP JP2014212921A patent/JP2016080908A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123977A (en) * | 1994-10-24 | 1996-05-17 | Imeeji Rinku:Kk | Animation system |
JPH11175061A (en) * | 1997-12-09 | 1999-07-02 | Yamaha Corp | Control unit and karaoke device |
JP2003271158A (en) * | 2002-03-14 | 2003-09-25 | Pioneer Electronic Corp | Karaoke device having image changing function and program |
JP2007094140A (en) * | 2005-09-29 | 2007-04-12 | Xing Inc | Coordination system between music information distribution system and karaoke system |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2020208668A1 (en) * | 2019-04-08 | 2020-10-15 | ||
WO2020208668A1 (en) * | 2019-04-08 | 2020-10-15 | AlphaTheta株式会社 | Reproduction control device, program, and reproduction control method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111326132B (en) | Audio processing method and device, storage medium and electronic equipment | |
JP6344578B2 (en) | How to play an electronic musical instrument | |
EP2945152A1 (en) | Musical instrument and method of controlling the instrument and accessories using control surface | |
US9997153B2 (en) | Information processing method and information processing device | |
US20150103019A1 (en) | Methods and Devices and Systems for Positioning Input Devices and Creating Control | |
JP6805422B2 (en) | Equipment, programs and information processing methods | |
JP2016080827A (en) | Phoneme information synthesis device and voice synthesis device | |
WO2022163137A1 (en) | Information processing device, information processing method, and program | |
JP3978506B2 (en) | Music generation method | |
JP5498341B2 (en) | Karaoke system | |
JP2016080908A (en) | Signal processing device | |
JP6070652B2 (en) | Reference display device and program | |
JP2011206267A (en) | Game device, game progressing method, and game progressing program | |
JP5486941B2 (en) | A karaoke device that makes you feel like singing to the audience | |
JP6657866B2 (en) | Sound effect imparting device and sound effect imparting program | |
JP6631205B2 (en) | Karaoke device, image effect imparting device, and image effect imparting program | |
JP6115932B2 (en) | Sound generating apparatus and sound generating program | |
JP6295597B2 (en) | Apparatus and system for realizing cooperative performance by multiple people | |
JP4720974B2 (en) | Audio generator and computer program therefor | |
JP6817281B2 (en) | Voice generator and voice generator | |
JP5030668B2 (en) | Karaoke system with background video production function | |
JP2015138160A (en) | Character musical performance image creation device, character musical performance image creation method, character musical performance system, and character musical performance method | |
JP5486538B2 (en) | Karaoke equipment | |
JP6870024B2 (en) | Karaoke equipment and karaoke programs | |
JP5652522B1 (en) | Singing model display device, program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170824 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180508 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181218 |