JP2014235301A - Command input discrimination system using gesture - Google Patents

Command input discrimination system using gesture Download PDF

Info

Publication number
JP2014235301A
JP2014235301A JP2013116493A JP2013116493A JP2014235301A JP 2014235301 A JP2014235301 A JP 2014235301A JP 2013116493 A JP2013116493 A JP 2013116493A JP 2013116493 A JP2013116493 A JP 2013116493A JP 2014235301 A JP2014235301 A JP 2014235301A
Authority
JP
Japan
Prior art keywords
command
singer
gesture
command input
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013116493A
Other languages
Japanese (ja)
Other versions
JP6110731B2 (en
JP2014235301A5 (en
Inventor
橘 聡
Satoshi Tachibana
聡 橘
里恵 執行
Rie Shigyo
里恵 執行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daiichikosho Co Ltd
Original Assignee
Daiichikosho Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daiichikosho Co Ltd filed Critical Daiichikosho Co Ltd
Priority to JP2013116493A priority Critical patent/JP6110731B2/en
Publication of JP2014235301A publication Critical patent/JP2014235301A/en
Publication of JP2014235301A5 publication Critical patent/JP2014235301A5/ja
Application granted granted Critical
Publication of JP6110731B2 publication Critical patent/JP6110731B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To discriminate a command gesture from a singing posture of a singer to replace the command gesture with another video, or to enable discrimination of a command gesture to enhance interest in an image disclosure.SOLUTION: An input discrimination system includes: a command database 45c for managing a given command correlated with an action of a singer; command determination means 48 for analyzing an action video of the singer and determining a command gesture if the action of the singer exists in the command database 45c; command input section identification means 49 for identifying a pickup section in which a command gesture is performed from the singing posture of the singer; and motion image data edit means 50 capable of editing motion image in the identified pickup section to edit as a serial piece of motion image data not including a gesture for command input, or discriminating a gesture for command input.

Description

本発明は、ジェスチャーによるコマンド入力識別システムに関するものであり、例えば、ジェスチャーにより種々のコマンドを実行可能なカラオケシステムにおいて、コマンド入力のためのジェスチャーと歌唱時の振り付けとを区別可能なシステムに関するものである。   The present invention relates to a command input identification system using gestures. For example, in a karaoke system capable of executing various commands using gestures, the present invention relates to a system capable of distinguishing gestures for command input and choreography during singing. is there.

近年、ナチュラルユーザーインターフェイスとして、利用者の動作(ジェスチャー)を撮像して3次元解析等を行うことにより、種々のコマンドを認識することが可能な技術が開発されている。この技術を用いて、利用者の動作(ジェスチャー)とコマンドとを紐付けしておくことにより、利用者はカラオケリモコン装置等を操作することなく、動作(ジェスチャー)によりコマンド入力を行うことができる。   In recent years, as a natural user interface, a technology capable of recognizing various commands by imaging a user's action (gesture) and performing three-dimensional analysis or the like has been developed. By using this technique to link a user's action (gesture) and a command, the user can input a command by the action (gesture) without operating the karaoke remote control device or the like. .

例えば、利用者の動作(ジェスチャー)により自動演奏、歌唱音声に対する効果等を制御することが可能な技術が開示されている(特許文献1参照)。特許文献1に記載された技術は、撮像手段から得られる人物の姿形と、三次元位置計測装置から得られる人物の三次元位置情報とに基づき、画像処理装置において人物の三次元モデルとのマッチングを行い人物のジェスチャーを検出する。そして、画像処理装置は、検出されたジェスチャーに基づき、楽音処理装置および映像表示装置に制御イベントを伝達する。楽音処理装置及び映像表示装置は、受け取った制御イベントに基づき、自動演奏、歌唱音声に対する効果等を制御するようになっている。   For example, a technique capable of controlling an automatic performance, an effect on a singing voice, and the like by a user's operation (gesture) is disclosed (see Patent Document 1). The technique described in Patent Document 1 is based on the figure of a person obtained from the imaging means and the three-dimensional position information of the person obtained from the three-dimensional position measurement device. Matches and detects human gestures. Then, the image processing device transmits a control event to the musical tone processing device and the video display device based on the detected gesture. The musical tone processing device and the video display device are configured to control automatic performance, effects on the singing voice, and the like based on the received control event.

特開平11−175061号公報JP-A-11-175061

ところで、カラオケを楽しむ際に、歌唱だけではなくアーティストのダンスの振り付けを真似て歌唱することがあり、このような歌唱者の歌唱姿態を他人に見て貰いたいという要望がある。そこで、現在普及しているカラオケシステムでは、歌唱者の歌唱姿態を動画撮影してDVD等の記録媒体に記録したり、ウェブサイトで公開したりする機能を有しているものがある。このような動画公開機能を有するカラオケシステムに、上述した利用者の動作(ジェスチャー)によりコマンド入力を行う機能を採用することが考えられる。   By the way, when enjoying karaoke, there is a demand not only to sing but also to imitate the choreography of the artist's dance, and to ask others to see the singing appearance of such a singer. Therefore, some currently popular karaoke systems have a function of taking a video of a singer's singing state and recording it on a recording medium such as a DVD or publishing it on a website. A karaoke system having such a moving image publishing function may employ a function of inputting a command by the above-described user operation (gesture).

しかし、歌唱者の歌唱姿態を動画撮影する場合に、ダンスの振り付けだけではなく、コマンド入力のための動作(ジェスチャー)が含まれていると、振り付けとは関係のない動作が録画されてしまい、動画を公開する利用者や動画の視聴者にとって、動画公開の興趣を削いでしまうおそれがあった。   However, when shooting a singer's singing appearance, if not only dance choreography but also movements for command input (gestures) are included, movements unrelated to choreography will be recorded, For users who publish videos and viewers of videos, there is a risk of losing interest in publishing videos.

本発明は、上述した事情に鑑み提案されたもので、歌唱者の歌唱姿態を動画撮影する機能と、歌唱者の動作を認識してコマンド入力を行う機能とを有するカラオケシステムにおいて、両者を識別して、コマンド入力のための動作が行われた場合に、当該動作を他の映像に置き換え、あるいは、コマンド入力のための動作であることを識別できるような情報を映像に付加して、動画公開の興趣を高めることが可能なジェスチャーによるコマンド入力識別システムを提供することを目的とする。   The present invention has been proposed in view of the above-described circumstances, and identifies a karaoke system having a function of capturing a video of a singer's singing state and a function of recognizing a singer's operation and inputting a command. Then, when an operation for command input is performed, the operation is replaced with another video, or information that can identify that the operation is for command input is added to the video, An object of the present invention is to provide a command input identification system using gestures that can enhance public interest.

本発明のジェスチャーによるコマンド入力識別システムは、上述した事情に鑑み提案されたもので、以下の特徴点を有している。すなわち、本発明のジェスチャーによるコマンド入力識別システムは、歌唱者の歌唱姿態を録画する機能と、歌唱者の動作を認識してコマンド入力を行う機能とを有するカラオケシステムにおいて、撮影手段と、音声入力手段と、動画データ作成手段と、コマンドデータベースと、コマンド判定手段と、コマンド入力区間特定手段と、動画データ編集手段とを備えたことを特徴とするものである。   The command input identification system by gesture according to the present invention has been proposed in view of the above-described circumstances, and has the following features. That is, the command input identification system by gesture according to the present invention is a karaoke system having a function of recording a singer's singing state and a function of recognizing a singer's operation and inputting a command. And a moving image data creating means, a command database, a command determining means, a command input section specifying means, and a moving image data editing means.

撮影手段は、歌唱者の歌唱姿態を撮影するための手段である。音声入力手段は歌唱者の歌唱音声を入力するための手段である。動画データ作成手段は、撮影手段で撮影した歌唱者の歌唱姿態及び音声入力手段により入力された歌唱音声を用いて動画データを作成して保存するための手段である。コマンドデータベースは、予め定められた歌唱者の動作と、当該歌唱者の動作に対応する所定のコマンドとを紐付けして管理するためのデータベースである。   The photographing means is means for photographing the singing state of the singer. The voice input means is means for inputting a singer's singing voice. The moving image data creating means is a means for creating and storing moving image data using the singing appearance of the singer photographed by the photographing means and the singing voice inputted by the voice input means. The command database is a database for associating and managing a predetermined singer's action and a predetermined command corresponding to the singer's action.

コマンド判定手段は、歌唱者の動作映像を解析し、当該歌唱者の動作がコマンドデータベースに存在する場合に、当該歌唱者の動作をコマンド入力のためのジェスチャーであると判定するための手段である。コマンド入力区間特定手段は、歌唱者の動作がコマンド入力のためのジェスチャーであると判定された場合に、動画撮影された歌唱者の歌唱姿態の中から当該コマンド入力が行われている撮影区間を特定するための手段である。動画データ編集手段は、コマンド入力が行われていると特定された撮影区間の動画データを編集して、当該コマンド入力のためのジェスチャーが含まれない一連の動画データとして編集し、あるいは当該コマンド入力のためのジェスチャーを識別可能とするための手段である。   The command determination means is a means for analyzing the action video of the singer and determining that the action of the singer is a gesture for inputting a command when the action of the singer exists in the command database. . The command input section specifying means determines the shooting section in which the command input is performed from the singing state of the singer that has been filmed when the operation of the singer is determined to be a gesture for command input. It is a means for specifying. The video data editing means edits the video data of the shooting section identified as command input, and edits as a series of video data not including a gesture for inputting the command, or the command input It is a means for making the gesture for identifiable.

また、コマンド判定手段で判定の対象となる動作映像とは、撮影手段で撮影している歌唱者の歌唱姿態と、動画データ作成手段で作成された動画データに含まれる歌唱者の歌唱姿態のいずれか一方とすることが可能である。   In addition, the motion video to be determined by the command determination unit is any of the singing state of the singer photographed by the photographing unit and the singing state of the singer included in the moving image data created by the moving image data creating unit. Either can be used.

また、動画データ編集手段は、コマンドデータベースに基づいて、コマンド入力が行われていると特定された撮影区間を含む所定区間の動画データを、当該コマンド入力のためのジェスチャーを含まない歌唱者の顔を中心とした映像にデジタルズームアップした映像データに置き換えることが可能である。   Further, the moving image data editing means is configured to, based on the command database, the moving image data of a predetermined section including a shooting section identified as a command input being performed, and a singer's face not including a gesture for inputting the command. It is possible to replace it with video data that has been digitally zoomed up into a video centered on the.

また、コマンドデータベースに、コマンドの内容に応じた映像データを含ませることにより、動画データ編集手段において、コマンドデータベースに基づいて、コマンド入力が行われていると特定された撮影区間の動画データに、当該の内容に応じた映像データを合成して、コマンド入力のためのジェスチャーを識別可能とすることが可能である。   In addition, by including video data corresponding to the content of the command in the command database, the moving image data editing means, based on the command database, in the moving image data of the shooting section identified as being command input, It is possible to synthesize video data in accordance with the contents so that a gesture for inputting a command can be identified.

このような構成からなるジェスチャーによるコマンド入力識別システムでは、音声入力手段(例えば、マイクロホン及びその付帯機器)の機能により歌唱者の歌唱音声を入力し、撮影手段(例えば、ビデオカメラ及びその付帯機器)の機能により、歌唱者の歌唱姿態を撮影する。そして、動画データ作成手段の機能により、撮影した歌唱姿態及び入力された歌唱音声を用いて動画データを作成して、所定の記録装置(例えば、HDD)に保存する。保存した動画データは、DVD等の記録媒体に記録したり、動画公開を目的としたウェブサイト等にアップロードしたりすることができる。   In the command input identification system based on the gesture having such a configuration, the singing voice of the singer is input by the function of the voice input means (for example, the microphone and its auxiliary equipment), and the photographing means (for example, the video camera and its auxiliary equipment) With this function, the singing state of the singer is photographed. Then, by the function of the moving image data creating means, moving image data is created using the photographed singing appearance and the input singing voice, and is stored in a predetermined recording device (for example, HDD). The stored moving image data can be recorded on a recording medium such as a DVD or uploaded to a website or the like for the purpose of moving image release.

また、本発明では、予め定められた歌唱者の動作と、当該歌唱者の動作に対応する所定のコマンドとを紐付けして管理するためのデータベースを備えており、コマンド判定手段の機能により、歌唱者の動作映像を解析し、当該歌唱者の動作がコマンドデータベースに存在する場合に、当該歌唱者の動作をコマンド入力のためのジェスチャーであると判定する。歌唱者の動作がコマンド入力のためのジェスチャーであると判定された場合には、当該コマンドに基づくカラオケ演奏装置の操作が行われる。このようなコマンドには、例えば、音量の増減、効果音(拍手や歓声等)の発生、エコーの強弱の設定、演奏キーの変更、演奏テンポの変更等がある。   Further, in the present invention, a database for managing a predetermined singer's motion and a predetermined command corresponding to the singer's motion is provided and managed by the function of the command determination means. The motion video of the singer is analyzed, and when the singer's motion is present in the command database, the singer's motion is determined to be a gesture for inputting a command. When it is determined that the singer's action is a gesture for inputting a command, the karaoke performance device is operated based on the command. Such commands include, for example, increase / decrease in volume, generation of sound effects (applause, cheer, etc.), setting of echo strength, change of performance keys, change of performance tempo, and the like.

さらに、歌唱者の動作がコマンド入力のためのジェスチャーであると判定された場合には、コマンド入力区間特定手段の機能により、コマンド入力が行われている撮影区間を特定する。そして、動画データ編集手段の機能により、コマンド入力が行われていると特定された撮影区間を含む所定区間の動画データについて、当該コマンド入力のためのジェスチャーが含まれない一連の動画データとして編集し、あるいは当該コマンド入力のためのジェスチャーを識別可能とする処理を実施する。これにより、コマンド入力のためのジェスチャーが含まれない一連の動画データ、あるいは歌唱者の動作がコマンド入力のためのジェスチャーであることを識別可能な動画データが作成される。コマンド入力のためのジェスチャーが含まれない一連の動画データとは、例えば、歌唱者の顔を中心とした映像にデジタルズームアップした映像データ、歌唱者のストップモーション画像、予め用意されたムード映像、カラオケを一緒に楽しんでいる他の利用者の映像等である。   Furthermore, when it is determined that the singer's action is a gesture for inputting a command, the shooting section in which the command is input is specified by the function of the command input section specifying means. Then, the function of the moving image data editing means edits the moving image data of the predetermined section including the shooting section identified as the command input being performed as a series of moving image data not including the gesture for inputting the command. Alternatively, a process for enabling identification of a gesture for inputting the command is performed. Thus, a series of moving image data that does not include a gesture for inputting a command, or moving image data that can identify that a singer's action is a gesture for inputting a command is created. A series of video data that does not include gestures for command input includes, for example, video data that has been digitally zoomed into a video centered on the singer's face, a singer's stop motion image, a mood image prepared in advance, karaoke Videos of other users who are enjoying together.

また、コマンドデータベースに、コマンドの内容に応じた映像データ(コマンドの説明文字データ、コマンドの内容表示データ)を含ませた場合には、コマンド入力が行われていると特定された撮影区間の映像において、ジェスチャーがコマンド入力のための動作であることを識別可能とする。   In addition, if the command database includes video data (command descriptive character data, command content display data) according to the command content, the video of the shooting section identified as the command input being performed , It is possible to identify that the gesture is an operation for inputting a command.

本発明のジェスチャーによるコマンド入力識別システムによれば、歌唱者の歌唱姿態を録画する機能と、歌唱者の動作を認識してコマンド入力を行う機能とを有するカラオケシステムにおいて、現に撮影している歌唱者の映像、あるいは保存されている動画データにおいて、コマンド入力のための動作が映っている場合に、当該動作をコマンド入力のためのジェスチェーであると識別して、当該ジェスチャーを他の映像に置き換え、あるいはジェスチャーがコマンド入力のための動作であることを識別可能とする。   According to the command input identification system based on the gesture of the present invention, in the karaoke system having the function of recording the singer's singing state and the function of recognizing the operation of the singer and inputting the command, the singing that is actually photographed When an action for command input is shown in the video of the user or stored video data, the action is identified as a gesture for inputting the command, and the gesture is replaced with another video. Alternatively, it is possible to identify that the gesture is an operation for inputting a command.

したがって、歌唱動画を録画して後に再生したり、歌唱動画の公開を行ったりした場合に、歌唱動画の中に余分な動作が含まれることがなく、また、余分な動作が含まれたままでも、その動作自体がコマンド入力のための動作(ジェスチャー)であると識別することができるので、歌唱者及び視聴者の興趣を高めることが可能となる。   Therefore, when a singing video is recorded and played back later, or when the singing video is released, no extra motion is included in the singing video, and even if the extra motion is included Since the operation itself can be identified as an operation (gesture) for command input, it is possible to enhance the interest of the singer and the viewer.

本発明の実施形態に係るジェスチャーによるコマンド入力識別システムの構成を示すブロック図。The block diagram which shows the structure of the command input identification system by the gesture which concerns on embodiment of this invention. 動画データの編集処理の手順を示すフローチャート。The flowchart which shows the procedure of the edit process of moving image data. 映像の置き換えを説明する説明図。Explanatory drawing explaining replacement | exchange of an image | video. コマンド入力のためのジェスチャーを識別可能とする映像処理の模式図。The schematic diagram of the video processing which makes it possible to identify the gesture for command input.

図面を参照して、本発明のジェスチャーによるコマンド入力識別システム(以下、コマンド入力識別システムと略記する)の実施形態について説明する。図1〜図4は本発明の実施形態に係るコマンド入力識別システムを示すもので、図1はコマンド入力識別システムの構成を示すブロック図、図2は動画データの編集処理の手順を示すフローチャート、図3は映像の置き換えを説明する説明図、図4はコマンド入力のためのジェスチャーを識別可能とする映像処理の模式図である。   With reference to the drawings, an embodiment of a command input identification system (hereinafter abbreviated as a command input identification system) using a gesture according to the present invention will be described. 1 to 4 show a command input identification system according to an embodiment of the present invention. FIG. 1 is a block diagram showing a configuration of the command input identification system. FIG. 2 is a flowchart showing a procedure of editing processing of moving image data. FIG. 3 is an explanatory diagram for explaining video replacement, and FIG. 4 is a schematic diagram of video processing that makes it possible to identify a gesture for inputting a command.

<コマンド入力識別システムの概要>
本発明の実施形態に係るコマンド入力識別システム10は、歌唱者の歌唱姿態を録画する機能と、歌唱者の動作を認識してコマンド入力を行う機能とを有するカラオケシステムに適用する技術であり、主要な構成要素として、図1に示すように、撮影手段(ビデオカメラ32及びその付帯機器)と、音声入力手段(マイクロホン34及びA/Dコンバータ53)と、動画データ作成手段51と、コマンドデータベース45cと、コマンド判定手段48と、コマンド入力区間特定手段49と、動画データ編集手段50とを備えている。各手段等は、カラオケ演奏端末30及びその付帯装置の機能手段として実現される。
<Overview of command input identification system>
The command input identification system 10 according to the embodiment of the present invention is a technique applied to a karaoke system having a function of recording a singer's singing state and a function of recognizing a singer's operation and inputting a command. As main components, as shown in FIG. 1, photographing means (video camera 32 and its associated devices), audio input means (microphone 34 and A / D converter 53), moving image data creation means 51, command database 45c, command determining means 48, command input section specifying means 49, and moving image data editing means 50. Each means is realized as a function means of the karaoke performance terminal 30 and its associated devices.

なお、以下の説明において、プログラムとは、RAM等に記憶され、CPU等のハードウェアで実行されることにより、その機能を発揮するソフトウェアだけではなく、同等の機能を発揮することが可能な論理回路も含む概念である。   In the following description, a program is a logic that can be stored in a RAM or the like and executed by hardware such as a CPU, so that not only software that exhibits the function but also an equivalent function can be achieved. It is a concept that includes a circuit.

<カラオケ演奏端末>
本発明の実施形態に係るコマンド入力識別システム10を適用するカラオケ演奏端末30は、図1に示すように、カラオケ本体40、カラオケリモコン装置31、ビデオカメラ32、スピーカ33、マイクロホン34、表示装置35、ミキシングアンプ36を備えている。また、本実施形態のカラオケ演奏端末30は、ルータ20及びデータ送受信回線70を介して、管理サーバ60にネットワーク接続されている。
<Karaoke performance terminal>
The karaoke performance terminal 30 to which the command input identification system 10 according to the embodiment of the present invention is applied includes a karaoke main body 40, a karaoke remote control device 31, a video camera 32, a speaker 33, a microphone 34, and a display device 35, as shown in FIG. A mixing amplifier 36 is provided. In addition, the karaoke performance terminal 30 of the present embodiment is connected to the management server 60 via the router 20 and the data transmission / reception line 70.

<管理サーバ>
管理サーバ60は、会員情報の管理、カラオケ演奏端末30に対する楽曲データ等の配信、利用者がアップロードしたカラオケ動画の公開等を行うためのサーバである。データ送受信回線70は、例えば、インターネット回線、デジタル通信回線、アナログ通信回線、無線通信回線、LAN等、環境に応じてどのような回線を用いてもよいが、ネットワークに対する第三者の侵入やデータの傍聴及び改竄が困難であるとともに、帯域を独占せずに安価な通信網であるという点で、インターネットにより構成されるVPNを利用することが好ましい。
<Management server>
The management server 60 is a server for managing member information, distributing music data and the like to the karaoke performance terminal 30, and publishing karaoke videos uploaded by users. The data transmission / reception line 70 may be any line depending on the environment, such as an Internet line, a digital communication line, an analog communication line, a wireless communication line, a LAN, etc. It is preferable to use a VPN constituted by the Internet in that it is difficult to hear and tamper with the network and is an inexpensive communication network without monopolizing the bandwidth.

なお、単独の管理サーバ60により、上述した複数の機能を実現するのではなく、各機能に特化したサーバを設け、各サーバにより各機能を実現してもよい。この際、仮想化技術により、1つのサーバに複数の機能を持たせることもできる。   Instead of realizing the above-described plurality of functions by the single management server 60, a server specialized for each function may be provided, and each function may be realized by each server. At this time, one server can have a plurality of functions by using a virtualization technique.

<カラオケリモコン装置>
カラオケリモコン装置31は、ユーザインタフェース機能を備えており、カラオケ本体40のローカル送受信手段46との間で有線方式又は無線方式によりデータの送受信を行うようになっている。このカラオケリモコン装置31は、楽曲検索手段31aとして機能するプログラム、楽曲索引データベース31b、種々のデータを記憶するためのデータ記憶部31c、データの入出力を行うための入出力表示部31d等を備えている。このカラオケリモコン装置31に付帯するスイッチ類や、入出力表示部31dに表示される各種のアイコン等を操作することにより、選曲操作等が行われる。
<Karaoke remote control device>
The karaoke remote control device 31 has a user interface function, and transmits / receives data to / from the local transmission / reception means 46 of the karaoke main body 40 by a wired method or a wireless method. The karaoke remote control device 31 includes a program functioning as a music search means 31a, a music index database 31b, a data storage unit 31c for storing various data, an input / output display unit 31d for inputting / outputting data, and the like. ing. A music selection operation or the like is performed by operating switches attached to the karaoke remote controller 31 or various icons displayed on the input / output display unit 31d.

<楽曲検索手段/楽曲索引データベース>
楽曲検索手段31aは、利用者の指示に基づき、楽曲索引データベース31bを参照して楽曲を検索するためのプログラムからなる。楽曲索引データベース31bは、カラオケ演奏端末30で演奏に供されるカラオケ楽曲について、その属性情報を記述したデータベースであり、例えば、楽曲番号・曲名・歌手名・歌い出し部分の歌詞・流行時期・音楽ジャンル区分・デュエット曲か否かなど、種々の属性情報がこれに含まれている。
<Music search means / music index database>
The music search means 31a is composed of a program for searching for music by referring to the music index database 31b based on a user instruction. The song index database 31b is a database describing attribute information of karaoke songs used for performance at the karaoke performance terminal 30. For example, the song number, song name, singer name, lyrics of the singing part, popular season, music This includes various attribute information such as genre classification and whether or not it is a duet song.

<マイクロホン>
マイクロホン34は、歌唱音声の入力を行うための装置である。マイクロホン34から入力された歌唱音声信号は、ミキシングアンプ36により、音楽再生制御手段52から送出される演奏音声信号とミキシングされると共に増幅され、スピーカ33へ出力される。なお、マイクロホン34からの音声入力信号は、A/Dコンバータ53によりデジタル変換され、動画データ作成手段51における動画の作成や歌唱採点手段(図示せず)における採点等に使用される。本実施形態では、マイクロホン34及びA/Dコンバータ53が音声入力手段として機能する。
<Microphone>
The microphone 34 is a device for inputting singing voice. The singing voice signal input from the microphone 34 is mixed and amplified by the mixing amplifier 36 with the performance voice signal sent from the music reproduction control means 52 and output to the speaker 33. Note that the audio input signal from the microphone 34 is digitally converted by the A / D converter 53 and used for creating a moving image in the moving image data creating means 51 and scoring in a singing scoring means (not shown). In the present embodiment, the microphone 34 and the A / D converter 53 function as sound input means.

<ビデオカメラ>
ビデオカメラ32は、利用者の歌唱姿態を撮影するための撮影手段として機能する装置であり、撮像レンズ及び撮像素子を主要な構成要素とし、フォーカシング機構、ズーム機構、パン・チルト機構等を備えていてもよい。ビデオカメラ32で撮影が行われると、映像信号(ビデオ信号)が入力される。この映像信号は動画作成手段51における動画の作成やコマンド判定手段48における歌唱者の動作映像の解析等に使用される。なお、図1に示す例では、ビデオカメラ32を2台設けている。これは、利用者の歌唱姿態だけではなく、置換映像データ44cとして、観客の様子を撮影する場合を考慮したためである。
<Video camera>
The video camera 32 is a device that functions as a photographing unit for photographing a user's singing state, and includes an imaging lens and an imaging element as main components, and includes a focusing mechanism, a zoom mechanism, a pan / tilt mechanism, and the like. May be. When shooting is performed by the video camera 32, a video signal (video signal) is input. This video signal is used for creating a moving image in the moving image creating means 51, analyzing an action video of the singer in the command determining means 48, and the like. In the example shown in FIG. 1, two video cameras 32 are provided. This is because not only the user's singing state but also the case where the state of the audience is photographed as the replacement video data 44c is considered.

<表示装置>
表示装置35は、カラオケ楽曲に関連した背景映像や歌詞テロップ等を表示するための装置で、例えば、液晶ディスプレイ等により構成される。
<Display device>
The display device 35 is a device for displaying a background video, lyrics telop, and the like related to karaoke music, and is configured by a liquid crystal display, for example.

<カラオケ本体>
カラオケ本体40は、ネットワーク送受信手段41、中央制御手段42、ROM43、RAM44、HDD45、ローカル送受信手段46、予約管理手段47、コマンド判定手段48、コマンド入力区間特定手段49、動画データ編集手段50、動画データ作成手段51、音楽再生制御手段52、A/Dコンバータ53、映像再生制御手段54を備えている。
<Karaoke body>
The karaoke main body 40 includes a network transmission / reception means 41, a central control means 42, a ROM 43, a RAM 44, an HDD 45, a local transmission / reception means 46, a reservation management means 47, a command determination means 48, a command input section specifying means 49, a moving picture data editing means 50, a moving picture. Data creation means 51, music reproduction control means 52, A / D converter 53, and video reproduction control means 54 are provided.

<中央制御手段>
中央制御手段42は、カラオケ本体40を総合的に制御するための手段であり、例えばCPU及びその周辺機器により構成されており、CPU等がROM43等に記憶されたプログラムに従って動作することにより、制御機能を発揮することができるようになっている。
<Central control means>
The central control means 42 is a means for comprehensively controlling the karaoke main body 40 and is constituted by, for example, a CPU and its peripheral devices, and is controlled by the CPU or the like operating according to a program stored in the ROM 43 or the like. The function can be demonstrated.

<ROM/RAM>
ROM43は、カラオケ本体40を構成する各機器を制御するためのプログラムデータや数値データを記憶するための機器で、例えば半導体メモリ等で構成される。また、RAM44は、プログラムや各種データを一時的に記憶する一時記憶領域として機能するもので、例えば半導体メモリ等で構成される。なお、物理的な半導体メモリによりRAM44を構成するのではなく、ハードディスク記憶装置等を用いて仮想的なRAM44を構成してもよい。
<ROM / RAM>
The ROM 43 is a device for storing program data and numerical data for controlling each device constituting the karaoke main body 40, and is composed of, for example, a semiconductor memory. The RAM 44 functions as a temporary storage area for temporarily storing programs and various data, and is constituted by, for example, a semiconductor memory. Instead of configuring the RAM 44 with a physical semiconductor memory, the virtual RAM 44 may be configured using a hard disk storage device or the like.

本実施形態では、RAM44に、予約待ち行列44a、動画データ44b、置換映像データ44cが記憶されるようになっている。なお、予約待ち行列44aは、選曲予約されたカラオケ楽曲について、演奏順に楽曲IDを並べて構成されたデータテーブルであり、選曲者の利用者ID、動画撮影を行う旨のフラグ等、他の識別データが紐付けられている場合もある。   In the present embodiment, a reservation queue 44a, moving image data 44b, and replacement video data 44c are stored in the RAM 44. The reservation queue 44a is a data table in which music IDs are arranged in order of performance for karaoke music reserved for music selection, and other identification data such as a user ID of a music selector and a flag for performing video shooting. May be linked.

<動画データ>
動画データ44bは、ビデオカメラ32により撮像され、ビデオ信号として入力された画像データと、マイクロホン34から入力され、A/Dコンバータ53によりデジタル変換された歌唱音声データとを動画データ作成手段51において同期させたデータである。この動画データ44bは、DVD等の記録媒体に記録したり、管理サーバ60等にアップロードして公開したりすることができる。
<Movie data>
The moving image data 44 b is synchronized in the moving image data creation means 51 with image data captured by the video camera 32 and input as a video signal, and singing voice data input from the microphone 34 and digitally converted by the A / D converter 53. Data. The moving image data 44b can be recorded on a recording medium such as a DVD, or uploaded to the management server 60 or the like and released.

<置換映像データ>
置換映像データ44cは、コマンド入力のためのジェスチャーであると特定された撮影区間における動画データ44bと置き換えるための映像データ素材であり、例えば、予め用意されたムード映像、カラオケを一緒に楽しんでいる他の利用者の映像等からなる。
<Replacement video data>
The replacement video data 44c is video data material for replacing the moving image data 44b in the shooting section specified as a gesture for inputting a command. For example, the mood video and karaoke prepared in advance are enjoyed together. Consists of images of other users.

<HDD>
HDD45は、大容量記憶装置として機能するもので、少なくとも、楽曲データベース45a、映像データベース45b、コマンドデータベース45cが格納されている。なお、HDD45に替えて、あるいはHDD45と共に、データを書き替え可能なDVD等の大容量記憶装置を用いてもよい。
<HDD>
The HDD 45 functions as a mass storage device, and stores at least a music database 45a, a video database 45b, and a command database 45c. Note that a large-capacity storage device such as a DVD capable of rewriting data may be used instead of the HDD 45 or together with the HDD 45.

<楽曲データベース/映像データベース>
楽曲データベース45aは、演奏制御データ(MIDI規格のデータ)及び歌詞描出データが同期されて構成される楽曲データについて、楽曲IDと対応付けてそれぞれ構成されたデータベースである。演奏制御データは、各楽曲の演奏を制御するためのデジタルデータであり、歌詞描出データは演奏に同期した歌詞文字の表示タイミングデータ及び色変わりデータを含んでいる。映像データベース45bは、演奏されるカラオケ楽曲に対応した背景映像を、当該カラオケ楽曲の楽曲IDに対応させた映像ファイルとして所定数格納したデータベースである。
<Music database / video database>
The music database 45a is a database configured by associating music control data (MIDI standard data) and lyrics rendering data in synchronization with music IDs. The performance control data is digital data for controlling the performance of each musical piece, and the lyric rendering data includes display timing data and color change data of lyric characters synchronized with the performance. The video database 45b is a database in which a predetermined number of background videos corresponding to the karaoke music to be played are stored as video files corresponding to the music ID of the karaoke music.

<コマンドデータベース>
コマンドデータベース45cは、予め定められた歌唱者の動作と、当該歌唱者の動作に対応する所定のコマンドとを紐付けして管理するためのデータベースである。コマンドデータベース45cで管理されるコマンドは、カラオケ演奏端末30の操作に関するものであり、例えば、音量の増減、効果音(拍手や歓声等)の発生、エコーの強弱の設定、演奏キーの変更、演奏テンポの変更等である。これらのコマンドと紐付けされるジェスチャーは、例えば、左手又は右手を横に振り出す、左手又は右手を上に挙げる、両手を上に挙げる、これらの動作を連続して組み合わせる等、種々の動作とすることができる。また、コマンドデータベース45cに、コマンドの内容に応じた映像データを含ませてもよい。
<Command database>
The command database 45c is a database for associating and managing a predetermined singer's action and a predetermined command corresponding to the singer's action. The commands managed in the command database 45c relate to the operation of the karaoke performance terminal 30. For example, increase / decrease in volume, generation of sound effects (applause, cheer, etc.), setting of echo strength, change of performance keys, performance For example, changing the tempo. Gestures associated with these commands include various actions such as swinging out the left or right hand, raising the left or right hand, raising both hands, and combining these actions in succession. can do. Further, video data corresponding to the content of the command may be included in the command database 45c.

後に詳述するが、撮影手段で撮影した動作が、コマンド入力のためのジェスチャーである場合には、当該ジェスチャーに紐付けられたコマンド入力が行われるとともに、動画データ編集手段50の機能により、動画編集が行われる。ジェスチャーによるコマンド入力については、例えば、上述した特許文献1(特開平11−175061号公報)に記載された技術を応用することができる。   As will be described in detail later, when the action photographed by the photographing means is a gesture for inputting a command, a command input associated with the gesture is performed, and the video data editing means 50 functions to Editing is done. For command input by gesture, for example, the technique described in Patent Document 1 (Japanese Patent Laid-Open No. 11-175061) described above can be applied.

<送受信手段>
ローカル送受信手段46は、カラオケ本体40とカラオケリモコン装置31との間で、データの送受信を行うための電子回路及びプログラムからなる。本実施形態では、赤外線通信により、カラオケ本体40とカラオケリモコン装置31との間でデータの送受信が行われる。また、本実施形態では、ルータ20との間でデータの送受信を行うためのネットワーク送受信手段41を備えている。
<Transmitting / receiving means>
The local transmission / reception means 46 includes an electronic circuit and a program for transmitting / receiving data between the karaoke main body 40 and the karaoke remote control device 31. In the present embodiment, data transmission / reception is performed between the karaoke main body 40 and the karaoke remote control device 31 by infrared communication. In the present embodiment, network transmission / reception means 41 for transmitting / receiving data to / from the router 20 is provided.

<予約管理手段>
予約管理手段47は、利用者により楽曲検索手段31aの機能を用いて選曲された楽曲IDを演奏順に並べて予約待ち行列44aを作成し、この予約待ち行列44aをRAM44に格納して管理するためのプログラムからなる。
<Reservation management means>
The reservation management means 47 creates a reservation queue 44a by arranging the song IDs selected by the user using the function of the music search means 31a in the order of performance, and stores this reservation queue 44a in the RAM 44 for management. Consists of programs.

<音楽再生制御手段>
音楽再生制御手段52は、楽曲IDに基づいて楽曲データベース45aから抽出された演奏制御データに基づいて、音源データをデジタル再生すると共にアナログ変換してミキシングアンプ36に出力するための電子回路である。上述したように、ミキシングアンプ36は、マイクロホン34から入力された歌唱者の歌唱音声信号と、音楽再生制御手段52から送出される演奏音声信号とをミキシングすると共に、アンプ機能により増幅してスピーカ33より出力させるための装置である。
<Music playback control means>
The music reproduction control means 52 is an electronic circuit for digitally reproducing the sound source data based on the performance control data extracted from the music database 45a based on the music ID and converting it to analog and outputting it to the mixing amplifier 36. As described above, the mixing amplifier 36 mixes the singer's singing voice signal input from the microphone 34 and the performance voice signal sent from the music reproduction control means 52, and amplifies it by the amplifier function to be amplified by the speaker 33. It is a device for outputting more.

<映像再生制御手段>
映像再生制御手段54は、カラオケ楽曲の演奏中に、映像データベース45bから抽出した映像データと、楽曲データベース45aに含まれる歌詞描出データに基づいて作成される歌詞文字とを、当該カラオケ楽曲の楽曲データに同期させて表示装置35に出力するためのプログラムからなる。
<Video playback control means>
The video reproduction control means 54 uses the video data extracted from the video database 45b and the lyric characters created based on the lyric rendering data included in the music database 45a during the performance of the karaoke music, and the music data of the karaoke music. And a program for outputting to the display device 35 in synchronization with the.

<動画データ作成手段>
動画データ作成手段51は、撮影手段(ビデオカメラ32及びその付帯機器)で撮影した歌唱者の歌唱姿態及びマイクロホン34から入力され、A/Dコンバータ53でデジタル変換された歌唱音声を用いて動画データ44bを作成して保存するための電子機器及びプログラムからなる。上述したように、動画データ作成手段51で作成した動画データ44bは、HDD45等に保存されて、動画データ編集手段50における動画の編集、DVD等の記録媒体への記録、管理サーバ60における歌唱動画の公開等に使用される。
<Video data creation means>
The moving image data creating means 51 uses the singing appearance of the singer photographed by the photographing means (the video camera 32 and its associated devices) and the singing voice inputted from the microphone 34 and digitally converted by the A / D converter 53. It consists of an electronic device and a program for creating and storing 44b. As described above, the moving image data 44b created by the moving image data creating unit 51 is stored in the HDD 45 or the like, edited in the moving image data editing unit 50, recorded on a recording medium such as a DVD, and singing moving image in the management server 60. It is used for the public release.

<コマンド判定手段>
コマンド判定手段48は、歌唱者の動作映像を解析し、当該歌唱者の動作がコマンドデータベース45cに存在する場合に、当該歌唱者の動作をコマンド入力のためのジェスチャーであると判定するためのプログラムからなる。上述したように、歌唱者の動作映像は、ビデオカメラ32で撮影され、デジタルデータとしてコマンド判定手段48に入力される。コマンド判定手段48では、3次元解析等、周知の解析技術により解析し、コマンドデータベース45cに存在する動作(ジェスチャー)と比較することにより、歌唱者の動作がコマンド入力のためのジェスチャーであるか否かを判定する。歌唱者の動作がコマンド入力のためのジェスチャーであると判定された場合には、中央制御手段33が音楽再生制御手段等に対し、音量の増減、効果音の発生、エコーの強弱の設定などの指示を出す。
<Command determination means>
The command determination means 48 analyzes a singer's motion video, and when the singer's motion exists in the command database 45c, a program for determining that the singer's motion is a gesture for command input Consists of. As described above, the motion video of the singer is captured by the video camera 32 and input to the command determination means 48 as digital data. In the command determination means 48, whether or not the singer's action is a gesture for inputting a command is analyzed by a known analysis technique such as three-dimensional analysis and compared with the action (gesture) existing in the command database 45c. Determine whether. When it is determined that the singer's action is a gesture for inputting a command, the central control unit 33 controls the music reproduction control unit etc. to increase / decrease the volume, generate a sound effect, set the strength of the echo, etc. Give instructions.

<コマンド入力区間特定手段>
コマンド入力区間特定手段49は、コマンド判定手段48の機能により、歌唱者の動作がコマンド入力のためのジェスチャーであると判定された場合に、動画撮影された歌唱者の歌唱姿態の中から当該コマンド入力が行われている撮影区間を特定するためのプログラムからなる。すなわち、コマンド入力区間特定手段49は、現に撮影されている歌唱者の歌唱姿態、あるいはHDD45等に保存されている動画データ44bについて、コマンド入力のためのジェスチャーが行われている撮影区間を特定する。
<Command input section specifying means>
The command input section specifying means 49, when the function of the command determining means 48 determines that the singer's action is a gesture for command input, the command input section specifying means 49 It consists of a program for specifying the shooting section in which an input is made. That is, the command input section specifying means 49 specifies the shooting section in which a gesture for command input is performed with respect to the singing state of the singer currently shot or the moving image data 44b stored in the HDD 45 or the like. .

<動画データ編集手段>
動画データ編集手段50は、コマンド入力が行われていると特定された撮影区間の動画データを編集して、コマンド入力のためのジェスチャーが含まれない一連の動画データとして編集し、あるいは当該コマンド入力のためのジェスチャーを識別可能とするためのプログラムからなる。
<Video data editing means>
The moving image data editing means 50 edits moving image data of a shooting section identified as command input, and edits it as a series of moving image data that does not include a gesture for command input. It consists of a program that makes it possible to identify gestures for.

例えば、コマンド入力区間特定手段49の機能により、現に撮影されている歌唱者の歌唱姿態、あるいはHDD45等に保存されている動画データ44bに、コマンド入力が行われていると特定された撮影区間が存在すると、HDD45等に保存されている動画データ44bを他の映像データ(置換映像データ44c)に置き換えて、当該コマンド入力のためのジェスチャーが含まれない一連の動画データ44bとして編集する。   For example, by the function of the command input section specifying means 49, the shooting section that is specified as the command input is performed on the singing state of the singer who is actually photographed or the moving image data 44b stored in the HDD 45 or the like. If present, the moving image data 44b stored in the HDD 45 or the like is replaced with other video data (replacement video data 44c), and edited as a series of moving image data 44b that does not include a gesture for inputting the command.

また、現に撮影されている歌唱者の歌唱姿態、あるいはHDD45等に保存されている動画データ44bに、コマンド入力が行われていると特定された撮影区間が存在すると、当該撮影区間の映像において、他の映像に置き換える代わりに、ジェスチャーがコマンド入力のための動作であることを識別するための説明表示を動画データ44bに付加してもよい。   In addition, if there is a shooting section that is specified as a command input in the singing state of the singer currently being shot or the moving image data 44b stored in the HDD 45 or the like, in the video of the shooting section, Instead of replacing with another video, an explanation display for identifying that the gesture is an operation for inputting a command may be added to the moving image data 44b.

本実施形態では、コマンド入力のためのジェスチャーと置き換える置換映像データ44cはRAM44に格納されている。この置換映像データ44cは、例えば、予め用意されたムード映像、カラオケを一緒に楽しんでいる他の利用者の映像等からなる。また、動画データ44bを直接加工して、歌唱者の顔を中心とした映像にデジタルズームアップした映像データ、歌唱者のストップモーション画像などに置き換えてもよい。   In this embodiment, replacement video data 44 c to be replaced with a gesture for inputting a command is stored in the RAM 44. The replacement video data 44c includes, for example, a mood video prepared in advance, a video of another user who enjoys karaoke together, and the like. Alternatively, the moving image data 44b may be directly processed and replaced with video data that has been digitally zoomed into a video centered on the singer's face, a singer's stop motion image, or the like.

動画データ44bの編集(置換データ44cへの置き換え)は、コマンド入力が行われていると特定された撮影区間を含む前後所定の撮影区間について行うことが好ましい。すなわち、コマンド入力が行われていると特定された撮影区間のみについて、他の映像データと置き換えた場合には、動画の繋がりが不自然なものとなる可能性がある。したがって、歌唱フレーズの区切り等を、動画編集を行う撮影区間の開始点及び終了点とすることにより、動画として不必要なコマンド入力のためのジェスチャーが他の映像に置き換えられるだけではなく、動画全体の繋がりが自然なものとなり、さらに一層、歌唱者及び視聴者の興趣を高めることが可能となる。   The editing of the moving image data 44b (replacement with the replacement data 44c) is preferably performed for a predetermined shooting section before and after the shooting section specified as the command input is performed. That is, when only the shooting section identified as command input is replaced with other video data, the connection of moving images may become unnatural. Therefore, by setting the singing phrase breaks as the starting and ending points of the shooting section for editing the video, not only the gestures for inputting commands unnecessary for the video are replaced with other videos, but also the entire video. Connection becomes natural, and it is possible to further enhance the interest of the singer and viewer.

<ジェスチャー動画の編集/ジェスチャーの識別可能表示>
次に、図2〜図4を参照して、コマンド入力のためのジェスチャーを他の映像に置き換え、あるいはジェスチャーを識別可能とする手順について説明する。
<Editing gesture videos / Displaying gestures that can be identified>
Next, with reference to FIG. 2 to FIG. 4, a procedure for replacing a gesture for command input with another video or making a gesture identifiable will be described.

ジェスチャー動画の編集処理では、図2に示すように、現に撮影している歌唱者の動作映像、あるいは保存されている動画データ44bにおける歌唱者の動作映像を解析する(S1)。続いて、歌唱者の動作がコマンドデータベース45cに存在するか否かを判定し(S2)、歌唱者の動作がコマンドデータベース45cに存在する場合に、当該歌唱者の動作をコマンド入力のためのジェスチャーであると判定する(S3)。   In the gesture moving image editing process, as shown in FIG. 2, an operation image of the singer currently photographed or an operation image of the singer in the stored moving image data 44b is analyzed (S1). Subsequently, it is determined whether or not the operation of the singer exists in the command database 45c (S2). When the operation of the singer exists in the command database 45c, the operation of the singer is a gesture for inputting a command. (S3).

ここで、歌唱者の動作がコマンド入力のためのジェスチャーであると判定されると、現に撮影している歌唱者の動作映像、あるいは保存されている動画データ44bの中から当該コマンド入力が行われている撮影区間を特定する(S4)。一方、コマンド入力のためのジェスチャーが存在しなければ、撮影区間の特定は行わない。   Here, if it is determined that the singer's action is a gesture for inputting a command, the command is input from the action video of the singer who is currently shooting or from the stored video data 44b. A shooting section is specified (S4). On the other hand, if there is no gesture for command input, the shooting section is not specified.

続いて、特定された撮影区間の動画データを他の映像データ(動画データ44bを直接加工した映像あるいは置換映像データ44c)に置き換え、あるいはコマンド入力のためのジェスチャーであることを識別可能とする(S5)。そして、特定された撮影区間のすべてにおいて、動画データの置き換え又は識別可能とする処理が終了したか否か(特定された撮影区間が、さらに存在するか否か)を判断し(S6)、特定された撮影区間がさらに存在すれば、順次、画像の置き換え、あるいはコマンド入力のためのジェスチャーであることを識別可能とする処理を行う(S5)。そして、すべての撮影区間に画像について画像の置き換え、あるいはコマンド入力のためのジェスチャーであることを識別可能とする処理が終了したら、動画データ44bの編集処理を終了する。   Subsequently, the moving image data of the specified shooting section is replaced with other video data (video obtained by directly processing the moving image data 44b or replacement video data 44c), or it is possible to identify a gesture for inputting a command ( S5). Then, in all of the specified shooting sections, it is determined whether or not the process for replacing or identifying the moving image data has been completed (whether or not the specified shooting section further exists) (S6). If there is a further shooting section, a process for making it possible to identify a gesture for image replacement or command input is sequentially performed (S5). Then, when the process of making it possible to identify an image replacement or a command input gesture for all the shooting sections is finished, the editing process of the moving image data 44b is finished.

画像の置き換え処理は、図3に示すように、コマンド入力のためのジェスチャーが行われていると特定された撮影区間を含む所定区間について、当該ジェスチャーの動画データ44bを他の映像データ(置換映像データ44c)に置き換えて、歌唱者の顔画像のズームアップを表示する等、画像データの編集を行う。   As shown in FIG. 3, in the image replacement process, the moving image data 44b of the gesture is replaced with other video data (replacement video) for a predetermined section including a shooting section identified as a gesture for inputting a command. In place of the data 44c), the image data is edited such as displaying a zoom-in of the singer's face image.

また、コマンド入力のためのジェスチャーであることを識別可能とする処理は、図4に示すように、コマンド入力のためのジェスチャーが行われている映像に対して、当該コマンドの内容を説明する説明映像を合成すればよい。   In addition, as shown in FIG. 4, the process for making it possible to identify a gesture for inputting a command is a description for explaining the contents of the command with respect to a video in which a gesture for inputting a command is performed. Just synthesize the video.

<他の実施形態>
本発明のシステム及びその周辺装置を構成する機器や手段は上述したものに限定されず、その利用目的に応じて、必要な機器や手段のみの構成としたり、適宜他の機器や手段を付加したりすることができる。また、各手段をそれぞれ別個のものとして構成するのではなく、複数の機能を統合した手段として構成してもよい。
<Other embodiments>
The devices and means constituting the system of the present invention and its peripheral devices are not limited to those described above, and only the necessary devices and means are configured according to the purpose of use, or other devices and means are appropriately added. Can be. Further, each unit may be configured as a unit in which a plurality of functions are integrated, instead of being configured separately.

10 コマンド入力識別システム
20 ルータ
30 カラオケ演奏端末
31 カラオケリモコン装置
31a 楽曲検索手段
31b 楽曲索引データベース
31c データ記憶部
31d 入出力表示部
32 ビデオカメラ
33 スピーカ
34 マイクロホン
35 表示装置
36 ミキシングアンプ
40 カラオケ本体
41 ネットワーク送受信手段
42 中央制御手段
43 ROM
44 RAM
44a 予約待ち行列
44b 動画データ
44c 置換映像データ
45 HDD
45a 楽曲データベース
45b 映像データベース
45c コマンドデータベース
46 ローカル送受信手段
47 予約管理手段
48 コマンド判定手段
49 コマンド入力区間特定手段
50 動画データ編集手段
51 動画データ作成手段
52 音楽再生制御手段
53 A/Dコンバータ
54 映像再生制御手段
60 管理サーバ
70 データ送受信回線
DESCRIPTION OF SYMBOLS 10 Command input identification system 20 Router 30 Karaoke performance terminal 31 Karaoke remote control apparatus 31a Music search means 31b Music index database 31c Data storage part 31d Input / output display part 32 Video camera 33 Speaker 34 Microphone 35 Display apparatus 36 Mixing amplifier 40 Karaoke main body 41 Network Transmission / reception means 42 Central control means 43 ROM
44 RAM
44a Reservation queue 44b Movie data 44c Replacement video data 45 HDD
45a Music database 45b Video database 45c Command database 46 Local transmission / reception means 47 Reservation management means 48 Command determination means 49 Command input section identification means 50 Video data editing means 51 Video data creation means 52 Music playback control means 53 A / D converter 54 Video playback Control means 60 Management server 70 Data transmission / reception line

Claims (4)

歌唱者の歌唱姿態を録画する機能と、歌唱者の動作を認識してコマンド入力を行う機能とを有するカラオケシステムにおいて、
歌唱者の歌唱姿態を撮影する撮影手段と、
歌唱者の歌唱音声を入力する音声入力手段と、
前記撮影手段で撮影した歌唱者の歌唱姿態及び入力された歌唱音声を用いて動画データを作成して保存する動画データ作成手段と、
予め定められた歌唱者の動作と、当該歌唱者の動作に対応する所定のコマンドとを紐付けして管理するコマンドデータベースと、
歌唱者の動作映像を解析し、当該歌唱者の動作が前記コマンドデータベースに存在する場合に、当該歌唱者の動作をコマンド入力のためのジェスチャーであると判定するコマンド判定手段と、
前記歌唱者の動作がコマンド入力のためのジェスチャーであると判定された場合に、前記動画撮影された歌唱者の歌唱姿態の中から当該コマンド入力が行われている撮影区間を特定するコマンド入力区間特定手段と、
前記コマンド入力が行われていると特定された撮影区間を含む所定区間の動画データを編集して、当該コマンド入力のためのジェスチャーが含まれない一連の動画データとして編集し、あるいは当該コマンド入力のためのジェスチャーを識別可能とする動画データ編集手段と、
を備えたことを特徴とするジェスチャーによるコマンド入力識別システム。
In a karaoke system having a function of recording a singer's singing appearance and a function of recognizing the singer's operation and inputting a command,
Photography means for photographing the singer's singing appearance,
Voice input means for inputting the singing voice of the singer;
Movie data creation means for creating and storing movie data using the singing appearance of the singer photographed by the photographing means and the input singing voice;
A command database for managing a predetermined singer's motion and a predetermined command corresponding to the singer's motion,
A command determination unit that analyzes a motion video of the singer and determines that the singer's motion is a gesture for command input when the singer's motion is present in the command database;
A command input section that specifies a shooting section in which the command input is performed from the singing state of the singer that has been filmed when the action of the singer is determined to be a gesture for command input. Specific means,
Edit the moving image data of a predetermined section including the shooting section identified as the command input being performed, and edit as a series of moving image data not including the gesture for the command input, or the command input Video data editing means for identifying gestures for
A command input identification system using gestures characterized by comprising:
前記コマンド判定手段で判定の対象となる前記動作映像とは、前記撮影手段で撮影している歌唱者の歌唱姿態と、前記動画データ作成手段で作成された動画データに含まれる歌唱者の歌唱姿態のいずれか一方であることを特徴とする請求項1に記載のジェスチャーによるコマンド入力識別システム。   The motion video to be determined by the command determination means is the singing appearance of the singer who is photographing by the photographing means, and the singing appearance of the singer included in the video data created by the moving picture data creation means. The command input identification system by gesture according to claim 1, wherein the system is one of the following. 前記動画データ編集手段は、前記コマンドデータベースに基づいて、前記コマンド入力が行われていると特定された撮影区間の動画データを、当該コマンド入力のためのジェスチャーを含まない歌唱者の顔を中心とした映像にデジタルズームアップした映像データに置き換えることを特徴とする請求項1又は2に記載のジェスチャーによるコマンド入力識別システム。   The moving image data editing means, based on the command database, the moving image data of the shooting section identified as the command input being performed, focusing on the face of the singer who does not include a gesture for the command input. 3. The command input identification system by gesture according to claim 1 or 2, wherein the image is replaced with video data that has been digitally zoomed up. 前記コマンドデータベースは、コマンドの内容に応じた映像データを含み、
前記動画データ編集手段は、前記コマンドデータベースに基づいて、前記コマンド入力が行われていると特定された撮影区間の動画データに、当該の内容に応じた映像データを合成して、前記コマンド入力のためのジェスチャーを識別可能とすることを特徴とする請求項1又は2に記載のジェスチャーによるコマンド入力識別システム。
The command database includes video data corresponding to the content of the command,
The moving image data editing means combines the moving image data corresponding to the content with the moving image data of the shooting section identified as the command input being performed based on the command database, and The gesture command input identification system according to claim 1 or 2, wherein a gesture for identification can be identified.
JP2013116493A 2013-05-31 2013-05-31 Command input recognition system by gesture Active JP6110731B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013116493A JP6110731B2 (en) 2013-05-31 2013-05-31 Command input recognition system by gesture

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013116493A JP6110731B2 (en) 2013-05-31 2013-05-31 Command input recognition system by gesture

Publications (3)

Publication Number Publication Date
JP2014235301A true JP2014235301A (en) 2014-12-15
JP2014235301A5 JP2014235301A5 (en) 2016-04-28
JP6110731B2 JP6110731B2 (en) 2017-04-05

Family

ID=52138051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013116493A Active JP6110731B2 (en) 2013-05-31 2013-05-31 Command input recognition system by gesture

Country Status (1)

Country Link
JP (1) JP6110731B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016183989A (en) * 2015-03-25 2016-10-20 ブラザー工業株式会社 Information processing device and program
KR101775784B1 (en) * 2015-09-21 2017-09-19 동의대학교 산학협력단 Karaoke Machine System control method using Virtual Touch Sensor Based On Depth Information

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175061A (en) * 1997-12-09 1999-07-02 Yamaha Corp Control unit and karaoke device
JP2002318588A (en) * 2002-02-18 2002-10-31 Yamaha Corp Karaoke device
JP2008192004A (en) * 2007-02-06 2008-08-21 Hiroshima Univ Input information processor, input information processing method, input information processing program and computer-readable recording medium for recording program thereof
WO2009044525A1 (en) * 2007-10-01 2009-04-09 Panasonic Corporation Voice emphasis device and voice emphasis method
JP2009198714A (en) * 2008-02-20 2009-09-03 Brother Ind Ltd Karaoke device and reproduction processing method of karaoke accompaniment music and program
US20120268374A1 (en) * 2011-04-25 2012-10-25 Heald Arthur D Method and apparatus for processing touchless control commands
WO2012147960A1 (en) * 2011-04-28 2012-11-01 Necシステムテクノロジー株式会社 Information processing device, information processing method, and recording medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175061A (en) * 1997-12-09 1999-07-02 Yamaha Corp Control unit and karaoke device
JP2002318588A (en) * 2002-02-18 2002-10-31 Yamaha Corp Karaoke device
JP2008192004A (en) * 2007-02-06 2008-08-21 Hiroshima Univ Input information processor, input information processing method, input information processing program and computer-readable recording medium for recording program thereof
WO2009044525A1 (en) * 2007-10-01 2009-04-09 Panasonic Corporation Voice emphasis device and voice emphasis method
JP2009198714A (en) * 2008-02-20 2009-09-03 Brother Ind Ltd Karaoke device and reproduction processing method of karaoke accompaniment music and program
US20120268374A1 (en) * 2011-04-25 2012-10-25 Heald Arthur D Method and apparatus for processing touchless control commands
WO2012147960A1 (en) * 2011-04-28 2012-11-01 Necシステムテクノロジー株式会社 Information processing device, information processing method, and recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016183989A (en) * 2015-03-25 2016-10-20 ブラザー工業株式会社 Information processing device and program
KR101775784B1 (en) * 2015-09-21 2017-09-19 동의대학교 산학협력단 Karaoke Machine System control method using Virtual Touch Sensor Based On Depth Information

Also Published As

Publication number Publication date
JP6110731B2 (en) 2017-04-05

Similar Documents

Publication Publication Date Title
JP4426623B2 (en) VIDEO DISTRIBUTION DEVICE, VIDEO DISTRIBUTION METHOD, VIDEO DISTRIBUTION PROGRAM, AND RECORDING MEDIUM
KR101414217B1 (en) Real time image synthesis apparatus and image synthesis method
KR20180080642A (en) Video editing method with music source
JP6110731B2 (en) Command input recognition system by gesture
JP4786225B2 (en) Karaoke device, program, and ranking summary server
JP6533108B2 (en) Background image support system when playing karaoke music
JP6058991B2 (en) Singing video selection system corresponding to singing voice
JP2014186177A (en) Reproduction device
JP5794934B2 (en) Collaboration song recording system
JP6144477B2 (en) Collaboration singing video display system
JP6177050B2 (en) Online karaoke system
JP2010262072A (en) Digital television-compatible karaoke system
JP6121139B2 (en) Singing voice selection system for karaoke singing video
JP5325012B2 (en) Karaoke system with singer image shooting function
JP6266234B2 (en) Karaoke system
JP6037557B2 (en) Singing action advance notification system in collaboration singing
KR102625045B1 (en) Video editing device, video editing method, and computer program
JP6013879B2 (en) Collaboration singing system
JP5780258B2 (en) Portable terminal device, portable terminal program, server, and image browsing system
JP7258441B2 (en) karaoke device
JP2012118286A (en) Karaoke system adaptive to user attribute
JP6176933B2 (en) Recommended viewing location display system for karaoke singing videos
JP6242083B2 (en) Background video display system
JP6110623B2 (en) Brightness adjustment system for collaboration singing images
JP6095202B2 (en) Collaboration singing system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170310

R150 Certificate of patent or registration of utility model

Ref document number: 6110731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250