JP2023108730A

JP2023108730A - カラオケ装置

Info

Publication number: JP2023108730A
Application number: JP2022009930A
Authority: JP
Inventors: 聡橘; Satoshi Tachibana
Original assignee: Daiichikosho Co Ltd
Current assignee: Daiichikosho Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2023-08-07

Abstract

【課題】カラオケ装置を利用する利用者の感情に応じたエフェクト処理を可能とするカラオケ装置を提供する。【解決手段】歌唱音声の音声信号に対してエフェクト処理を実行するエフェクタを有するカラオケ装置であって、撮影手段から出力された利用者の顔画像信号に基づいて、利用者の感情を示す感情情報を取得する取得部、取得された感情情報に対応するエフェクト処理を実行するようエフェクタを制御する演奏制御部を有するカラオケ装置。【選択図】図２

Description

本発明はカラオケ装置に関する。

カラオケ装置は、歌唱音声の音声信号に対してエフェクト処理を実行するエフェクタを備えている。エフェクト処理を実行することにより、カラオケ装置のスピーカからは、エコー等のエフェクトが付与された歌唱音声が放音される。

特許文献１には、マイクにて取得された音響信号に含まれる音について発音持続時間を測定し、測定された発音持続時間に基づいて、エフェクト処理の内容を決定し、音響信号に対し決定された内容のエフェクト処理を施し、エフェクト処理が施された音響信号を出力することができるカラオケ装置が開示されている。

特開２０１１－１９７２３５号公報

本発明の目的は、カラオケ装置を利用する利用者の感情に応じたエフェクト処理を可能とするカラオケ装置を提供することにある。

上記目的を達成するための一の発明は、歌唱音声の音声信号に対してエフェクト処理を実行するエフェクタを有するカラオケ装置であって、撮影手段から出力された利用者の顔画像信号に基づいて、利用者の感情を示す感情情報を取得する取得部と、取得された前記感情情報に対応するエフェクト処理を実行するよう前記エフェクタを制御する演奏制御部と、を有するカラオケ装置である。
本発明の他の特徴については、後述する明細書及び図面の記載により明らかにする。

本発明によれば、カラオケ装置を利用する利用者の感情に応じたエフェクト処理ができる。

実施形態に係るカラオケ装置を示す図である。実施形態に係るカラオケ本体を示す図である。実施形態に係る感情の種類とエフェクトとの対応を示す図である。実施形態に係るカラオケ装置の処理を示すフローチャートである。変形例２に係る感情の強さとエフェクトとの対応を示す図である。

＜実施形態＞
図１～図４を参照して、実施形態に係るカラオケ装置について説明する。なお、以下の説明においては、カラオケ装置の利用者のうち、カラオケ歌唱を行う利用者を「歌唱者」といい、歌唱者以外の利用者（カラオケ歌唱を聴取する利用者）を「聴衆」という場合がある。

＝＝カラオケ装置＝＝
カラオケ装置Ｋは、楽曲のカラオケ演奏、及び歌唱者がカラオケ歌唱を行うための装置である。図１に示すように、カラオケ装置Ｋは、カラオケ本体１０、スピーカ２０、表示装置３０、マイク４０、リモコン装置５０、及び撮影手段６０を備える。

カラオケ本体１０は、選曲された楽曲のカラオケ演奏制御、歌詞や背景映像等の表示制御、マイク４０を通じて入力された音声信号の処理といった、カラオケ演奏やカラオケ歌唱に関する各種の制御を行う。スピーカ２０はカラオケ本体１０からの信号に基づいてカラオケ演奏音や歌唱音声を放音するための構成である。表示装置３０はカラオケ本体１０からの信号に基づいて映像や画像を画面に表示するための構成である。マイク４０は歌唱者のカラオケ歌唱に伴う歌唱音声をアナログの音声信号に変換してカラオケ本体１０に入力するための構成である。リモコン装置５０は、カラオケ本体１０に対する各種操作をおこなうための装置である。撮影手段６０は、カラオケ装置Ｋの利用者を撮影するためのカメラである。撮影手段６０は、複数設けられていてもよい。

図２に示すように、本実施形態に係るカラオケ本体１０は、記憶手段１０ａ、通信手段１０ｂ、入力手段１０ｃ、演奏手段１０ｄ、及び制御手段１０ｅを備える。各構成はインターフェース（図示なし）を介してバスＢに接続されている。

［記憶手段］
記憶手段１０ａは、各種のデータを記憶する大容量の記憶装置である。記憶手段１０ａは、楽曲データを記憶する。楽曲データは、楽曲識別情報が付与されている。楽曲識別情報は、楽曲を識別するための楽曲ＩＤ等、各楽曲に固有の情報である。楽曲データは、カラオケ演奏データ、リファレンスデータ、区間情報等を含む。カラオケ演奏データは、カラオケ演奏音の元となるＭＩＤＩ形式のデータである。リファレンスデータは、カラオケ演奏された楽曲の主旋律を示すデータである。区間情報は、演奏区間を示す。演奏区間は、カラオケ演奏が行われる区間である。演奏区間は、歌唱区間及び非歌唱区間を含む。歌唱区間は、ある楽曲において歌唱すべき歌詞が設定されている区間（たとえば、１番のＡメロ、Ｂメロ、サビ）である。非歌唱区間は、たとえば前奏、間奏、後奏のような、ある楽曲において歌唱すべき歌詞が設定されていない区間である。

また、記憶手段２０は、楽曲毎に、カラオケ演奏時に表示される背景映像に対応する背景映像データ、及び楽曲の属性情報（楽曲名、歌手名、ジャンル等）を記憶する。

［通信手段・入力手段］
通信手段１０ｂは、リモコン装置５０との通信を行うためのインターフェースを提供する。入力手段１０ｃは、利用者が各種の指示入力を行うための構成である。入力手段１０ｃは、カラオケ本体１０に設けられたボタン等である。或いは、リモコン装置５０が入力手段１０ｃとして機能してもよい。

［演奏手段］
演奏手段１０ｄは、制御手段１０ｅの制御に基づき、楽曲のカラオケ演奏、及びマイク４０を通じて入力された歌唱音声の音声信号の処理を行う。本実施形態において、演奏手段１０ｄは、音源１０１ｄ、エフェクタ１０２ｄ、ミキサ１０３ｄ、及びアンプ１０４ｄを含む。

音源１０１ｄは、カラオケ演奏データに基づいて演奏音信号を生成する。音源１０１ｄは、生成した演奏音信号をミキサ１０３ｄに出力する。

エフェクタ１０２ｄは、マイク４０を通じて入力された歌唱音声の音声信号に対してエフェクト処理を実行する。エフェクタ１０２ｄは、エフェクト処理を行った音声信号をミキサ１０３ｄに出力する。

エフェクト処理は、エフェクトの種類に応じて、音量レベルや周波数特性の変更、遅延等の処理を音声信号に対して施すことにより、歌唱音声を変化させる処理である。エフェクトの種類は、ディストーション、ディレイ、コーラス、エコー、リバーブ、フェイズシフタ等がある。エフェクタ１０２ｄは、エフェクトの種類に応じて複数設けられていてもよいし、マルチエフェクタのような一のエフェクタが設けられていてもよい。

ミキサ１０３ｄは、入力された音声信号及び演奏音信号をミキシングする。アンプ１０４ｄは、ミキサ１０３ｄから出力された信号を増幅し、カラオケ演奏音及び歌唱音声をスピーカ２０から放音させる。

［制御手段］
制御手段１０ｅは、カラオケ装置Ｋにおける各種の制御を行う。制御手段１０ｅは、ＣＰＵおよびメモリ（いずれも図示無し）を備える。ＣＰＵは、メモリに記憶されたプログラムを実行することにより各種の機能を実現する。

本実施形態においてはＣＰＵがメモリに記憶されるプログラムを実行することにより、制御手段１０ｅは、取得部１００及び演奏制御部２００として機能する。

（取得部）
取得部１００は、撮影手段６０から出力された利用者の顔画像信号に基づいて、感情情報を取得する。

取得部１００は、カラオケ演奏の開始に伴い、撮影手段６０を制御し、利用者の顔の撮影を実行させる。撮影手段６０は、利用者の顔を撮影し、顔画像データを生成する。撮影手段６０は、顔画像データに対応する顔画像信号をカラオケ本体１０に出力する。

感情情報は、利用者の感情を示す。取得部１００は、公知の技術を用いて顔画像信号を処理することにより、感情情報を取得する。感情情報の取得は、所定のタイミング及び所定の回数、行うことができる。たとえば、取得部１００は、一の楽曲のカラオケ演奏において、あるタイミングで一回だけ感情情報を取得することができる。あるタイミングは、たとえばカラオケ演奏の開始から１分後や、１番のサビの歌唱区間に相当するカラオケ演奏中とすることができる。取得部１００は、取得した感情情報を、演奏制御部２００に出力する。

或いは、取得部１００は、一の楽曲のカラオケ演奏において、所定のタイミング毎（たとえばカラオケ演奏開始後、４０秒間隔）や、各歌唱区間の開始のタイミング毎に複数回、感情情報を取得することもできる。この場合、取得部１００は、感情情報を取得する都度、演奏制御部２００に出力する。

ここで、本実施形態において、取得部１００は、感情のタイプ（たとえば、「喜び」、「悲しみ」、「怒り」）を感情情報として取得する。取得部１００が取得する感情のタイプは、予め設定されている。

感情のタイプの取得には、動画内の表情から感情をリアルタイムに予測する深層学習フレームワーク（“Estimation of continuous valence and arousal levels from faces in naturalistic conditions" Samsung AI、インペリアル・カレッジ・ロンドン）や、「表情推定ＡＩ」（株式会社ユーザーローカル）のようなＡＩを利用したソフトウェアを用いることができる。取得部１００は、撮影手段６０から出力された顔画像信号をソフトウェアに入力することにより、当該顔画像信号に対応する顔画像データに表れている感情のタイプを取得することができる。

また本実施形態において、取得部１００は、歌唱者の感情を示す感情情報を取得する。

たとえば、カラオケ装置Ｋの利用者が一人の場合、当該利用者が歌唱者となる。撮影手段６０は、歌唱者の顔を撮影し、顔画像データを生成する。取得部１００は、歌唱者の顔画像信号に基づいて、歌唱者の感情を示す感情情報を取得する。

一方、カラオケ装置Ｋの利用者が複数人の場合、歌唱者と聴衆が存在することとなる。この場合、撮影手段６０は、歌唱者及び聴衆の顔画像データを生成し、対応する顔画像信号をカラオケ本体１０に出力する。取得部１００は、撮影手段６０から出力された顔画像信号を分析することにより、歌唱者の顔画像信号を特定する。顔画像信号の特定は、公知の技術を用いることができる。たとえば、取得部１００は、顔画像信号に対応する顔画像データを分析することにより、複数の利用者の中からマイク４０を持っている利用者を「歌唱者」として特定し、それ以外の利用者を「聴衆」として特定することができる。取得部１００は、特定した歌唱者の顔画像信号に基づいて、歌唱者の感情を示す感情情報を取得する。

（演奏制御部）
演奏制御部２００は、楽曲のカラオケ演奏を行うよう演奏手段１０ｄを制御する。

具体的に、演奏制御部２００は、予約待ち行列に登録されている楽曲の楽曲ＩＤを元に、対応するカラオケ演奏データを記憶手段１０ａから取得する。そして、演奏制御部２００は、取得したカラオケ演奏データを演奏手段１０ｄに出力し、カラオケ演奏を行わせる。歌唱者は、カラオケ演奏に合わせてカラオケ歌唱を行う。

演奏制御部２００は、マイク４０を通じて入力された歌唱音声の音声信号に対して、予め設定されている通常時のエフェクト処理を実行するようエフェクタ１０２ｄを制御する。なお、通常時には、エフェクト処理を実行しないという設定がなされていてもよい。

ここで、本実施形態に係る演奏制御部２００は、取得された感情情報に対応するエフェクト処理を実行するようエフェクタ１０２ｄを制御する。

具体的に、演奏制御部２００は、取得部１００により取得された感情情報に対応するエフェクトを特定し、特定したエフェクトに対応する処理を実行するようエフェクタ１０２ｄを制御する。

エフェクトの特定は、たとえば記憶手段１０ａに予め記憶されているテーブルを参照して行うことができる。

図３は、感情のタイプとエフェクトとの関係を示したテーブルである。この例では、「喜び」のタイプには「深いエコー」のエフェクトが紐付けられ、「怒り」のタイプには「ディストーション」のエフェクトが紐付けられ、「悲しみ」のタイプには「フェイズシフタ」のエフェクトが紐付けられている。

「深いエコー」は、通常のエコーより残響時間が長く、リピート回数も多いエフェクトである。よって、「喜び」の感情に相応しい華やかさを演出することができる。「ディストーション」は、歌唱音声を激しく歪ませるエフェクトである。よって、「怒り」の感情に伴う激しさを強調することができる。「フェイズシフタ」は、歌唱音声を揺らしたり、うねらせたりするエフェクトである。よって、「悲しみ」の感情を想起させることができる。

たとえば、取得部１００は、取得した感情のタイプ「怒り」を、演奏制御部２００に出力したとする。この場合、演奏制御部２００は、図３に示したテーブルを参照し、感情のタイプ「怒り」に対応するエフェクト「ディストーション」を特定する。演奏制御部２００は、「ディストーション」に対応する処理を実行するようエフェクタ１０２ｄを制御する。エフェクタ１０２ｄは、歌唱音声の音声信号に対して「ディストーション」に対応する処理を実行する。

ミキサ１０３ｄは、エフェクタ１０２ｄで「ディストーション」に対応する処理が行われた音声信号、及びカラオケ演奏の演奏音信号をミキシングする。アンプ１０４ｄは、ミキサ１０３ｄから出力された信号を増幅し、カラオケ演奏音及び「ディストーション」のエフェクトが付与された歌唱音声をスピーカ２０から放音させる。

＝＝カラオケ装置における処理について＝＝
次に、図４を参照して本実施形態に係るカラオケ装置Ｋにおける処理について述べる。図４は、カラオケ装置Ｋにおける処理を示すフローチャートである。この例では、利用者Ｕが一人でカラオケ装置Ｋを利用する。また、通常時のエフェクト処理として、「通常のエコー」に対応する処理が予め設定されているとする。また、記憶手段１０ａには、図３に示すテーブルが記憶されているとする。

利用者Ｕは、リモコン装置５０を介し、自らがカラオケ歌唱を希望する楽曲Ｘを選曲する。

演奏制御部２００は、楽曲Ｘのカラオケ演奏を行うよう演奏手段１０ｄを制御する。演奏手段１０ｄは、楽曲Ｘのカラオケ演奏を開始する（カラオケ演奏の開始。ステップ１０）。利用者Ｕは、楽曲Ｘのカラオケ演奏に合わせてカラオケ歌唱を行う。この場合、「通常のエコー」のエフェクトが付与された利用者Ｕの歌唱音声が、スピーカ２０から放音される。

撮影手段６０は、カラオケ歌唱を行う利用者Ｕの顔を撮影し、顔画像データを生成する。撮影手段６０は、顔画像データに対応する顔画像信号をカラオケ本体１０に出力する（利用者の顔画像データに対応する顔画像信号を出力。ステップ１１）。

取得部１００は、ステップ１１で出力された利用者Ｕの顔画像信号に基づいて、利用者Ｕの感情を示す感情情報を取得する（感情情報の取得。ステップ１２）。取得部１００は、取得した感情情報を演奏制御部２００に出力する。

演奏制御部２００は、ステップ１２で取得された感情情報に対応するエフェクト処理を実行するようエフェクタ１０２ｄを制御する（感情情報に対応するエフェクト処理を実行。ステップ１３）。

たとえば、撮影手段６０が、楽曲Ｘの１番のサビのタイミングにおいて利用者Ｕの顔を撮影したとする。そして、取得部１００は、撮影手段６０が生成した顔画像データに対応する顔画像信号に基づいて、利用者Ｕの感情のタイプとして「怒り」を取得したとする。この場合、取得部１００は、取得した感情のタイプ「怒り」を感情情報として、演奏制御部２００に出力する。

演奏制御部２００は、図３に示したテーブルを参照し、感情のタイプ「怒り」に対応するエフェクトである「ディストーション」を特定する。演奏制御部２００は、予め設定されている「通常のエコー」に代えて、「ディストーション」に対応する処理を実行するようエフェクタ１０２ｄを制御する。

その後、撮影手段６０が、楽曲Ｘの２番のＡメロのタイミングにおいて利用者Ｕの顔を撮影したとする。そして、取得部１００は、撮影手段６０が生成した顔画像データに対応する顔画像信号に基づいて、利用者Ｕの感情のタイプとして「悲しみ」を取得したとする。この場合、取得部１００は、取得した感情のタイプ「悲しみ」を感情情報として、演奏制御部２００に出力する。

演奏制御部２００は、図３に示したテーブルを参照し、感情のタイプ「悲しみ」に対応するエフェクトである「フェイズシフタ」を特定する。演奏制御部２００は、「ディストーション」に代えて、「フェイズシフタ」に対応する処理を実行するようエフェクタ１０２ｄを制御する。

更に、撮影手段６０が、楽曲Ｘの３番のＢメロのタイミングにおいて利用者Ｕの顔を撮影したとする。そして、取得部１００は、撮影手段６０が生成した顔画像データに対応する顔画像信号に基づいて、利用者Ｕの感情のタイプとして「喜び」を取得したとする。この場合、取得部１００は、取得した感情のタイプ「喜び」を感情情報として、演奏制御部２００に出力する。

演奏制御部２００は、図３に示したテーブルを参照し、感情のタイプ「喜び」に対応するエフェクトである「深いエコー」を特定する。演奏制御部２００は、「フェイズシフタ」に代えて、「深いエコー」に対応する処理を実行するようエフェクタ１０２ｄを制御する。

演奏制御部２００は、エフェクタ１０２ｄでエフェクト処理が行われた音声信号、及びカラオケ演奏の演奏音信号をミキシングするようミキサ１０３ｄを制御する。演奏制御部２００は、ミキサ１０３ｄから出力された信号を増幅し、カラオケ演奏音及びエフェクトが付与された歌唱音声をスピーカ２０から放音させるようアンプ１０４ｄを制御する（カラオケ演奏音及びエフェクトが付与された歌唱音声を放音。ステップ１４）。

カラオケ装置Ｋは、楽曲Ｘのカラオケ演奏が終了するまで（ステップ１５でＹの場合）、ステップ１１からステップ１４の処理を繰り返し行う。

なお、演奏制御部２００は、歌唱区間毎にエフェクタ１０２ｄの制御を行ってもよい。たとえば、演奏制御部２００は、楽曲Ｘの２番のＡメロのタイミングで「フェイズシフタ」に対応する処理を実行するようエフェクタ１０２ｄを制御したとする。その後、楽曲Ｘの２番のＡメロの歌唱区間が終了した場合（すなわち、当該歌唱区間におけるカラオケ演奏が終了した場合）、演奏制御部２００は、「フェイズシフタ」に対応する処理の実行を停止し、通常時のエフェクト処理（上記例における「通常のエコー」に対応する処理）を実行するようエフェクタ１０２ｄを制御する。

以上から明らかなように、本実施形態に係るカラオケ装置Ｋは、歌唱音声の音声信号に対してエフェクト処理を実行するエフェクタ１０２ｄを有する。カラオケ装置Ｋは、撮影手段６０から出力された利用者の顔画像信号に基づいて、利用者の感情を示す感情情報を取得する取得部１００と、取得された感情情報に対応するエフェクト処理を実行するようエフェクタ１０２ｄを制御する演奏制御部２００と、を有する。

このようなカラオケ装置Ｋによれば、利用者の感情情報に基づいて、利用者の感情に応じたエフェクトを特定し、音声信号に対して特定したエフェクトに対応する処理を実行することができる。従って、カラオケ装置Ｋは、利用者の感情を反映した歌唱音声を放音することができる。すなわち、本実施形態に係るカラオケ装置Ｋによれば、カラオケ装置Ｋを利用する利用者の感情に応じたエフェクト処理を行うことができる。

また、本実施形態に係る取得部１００は、感情のタイプを感情情報として取得することができる。この場合、カラオケ装置Ｋは、感情のタイプに応じた適切なエフェクト処理を実行することができる。

また、本実施形態に係る取得部１００は、カラオケ歌唱を行う利用者である歌唱者の顔画像信号に基づいて、感情情報を取得することができる。この場合、カラオケ装置Ｋは、歌唱者の感情を反映した歌唱音声を放音させることができる。

＜変形例１＞
取得部１００は、感情のタイプ及び感情の強さを感情情報として取得することができる。

感情のタイプ及び感情の強さの取得には、たとえば、感情認識ソフトウェア「Ａｆｆｄｅｘ」（Ａｆｆｅｃｔｉｖａ社）のような公知のソフトウェアを利用することができる。取得部１００は、撮影手段６０から出力された顔画像信号をソフトウェアに入力することにより、当該顔画像信号に対応する顔画像データに表れている感情のタイプ及びその強さを取得することができる。感情の強さは、感情のタイプ毎に数値（たとえば、０～１０の値）で示すことができる。

実施形態の例と同様、撮影手段６０が、楽曲Ｘの１番のサビのタイミングにおいて利用者Ｕの顔を撮影したとする。取得部１００は、撮影手段６０が生成した顔画像データに対応する顔画像信号に基づいて、利用者Ｕの感情のタイプ及び強さとして「怒り（７）、喜び（１）、悲しみ（３）」を取得したとする。この場合、取得部１００は、取得した感情のタイプ及び強さ「怒り（７）、喜び（１）、悲しみ（３）」を感情情報として、演奏制御部２００に出力する。

演奏制御部２００は、取得部１００から出力された感情情報に基づいて、複数の感情のタイプの中から、最も強い（数値が高い）「怒り」の感情のタイプを特定する。演奏制御部２００は、「怒り」の感情のタイプに対応するエフェクト処理を実行するようエフェクタ１０２ｄを制御する。

このように、本変形例に係る取得部１００は、感情のタイプ及び感情の強さを感情情報として取得することができる。この場合、感情のタイプ及び強さに適したエフェクト処理を実行することができる。

＜変形例２＞
或いは、取得部１００は、感情の強さを単独で感情情報として取得してもよい。たとえば、取得部１００は、撮影手段６０から出力された顔画像信号を公知のソフトウェアに入力することにより、当該顔画像信号に対応する顔画像データに表れている感情の強さを取得することができる。取得部１００は、取得した感情の強さを感情情報として演奏制御部２００に出力する。感情の強さは、数値（たとえば、０～１０の値）で示すことができる。

演奏制御部２００は、取得された感情の強さに対応するエフェクトを特定し、特定したエフェクトに対応する処理を実行するようエフェクタ１０２ｄを制御する。

図５は、感情の強さとエフェクトとの関係を示したテーブルである。この例では、感情の強さを０から１０の数値で示している。「０～２」の数値には「ロボットボイス」のエフェクトが紐付けられ、「３～６」の数値には「通常のエコー」のエフェクトが紐付けられ、「７～１０」の数値には「ライブサウンド」のエフェクトが紐付けられている。

「ロボットボイス」は、歌唱音声を無機質且つ無感情に聴こえるよう加工するエフェクトである。よって、利用者が感情を顔に出していないことを強調することができる。一方、「ライブサウンド」は、スタジアムのような大きなステージ特有の音響特性（たとえば残響）を模擬するエフェクトである。よって、利用者の感情表現をより強調することができる。

実施形態の例と同様、撮影手段６０が、楽曲Ｘの１番のサビのタイミングにおいて利用者Ｕの顔を撮影したとする。取得部１００は、撮影手段６０が生成した顔画像データに対応する顔画像信号に基づいて、利用者Ｕの感情の強さとして数値「７」を取得したとする。この場合、取得部１００は、取得した感情の強さ「７」を感情情報として、演奏制御部２００に出力する。

演奏制御部２００は、図５に示したテーブルを参照し、感情の強さ「７」に対応するエフェクト「ライブサウンド」を特定する。演奏制御部２００は、「ライブサウンド」に対応する処理を実行するようエフェクタ１０２ｄを制御する。

このように、本変形例に係る取得部１００は、感情の強さを感情情報として取得することができる。この場合、感情の強さに適したエフェクト処理を実行することができる。

＜変形例３＞
上記実施形態では、歌唱者の感情を示す感情情報を取得する例について述べた。一方、取得部１００は、聴衆の感情を示す感情情報を取得してもよい。

実施形態で述べたように、取得部１００は、複数人の顔画像信号に対応する画像を分析することにより、歌唱者以外の利用者である聴衆を特定することができる。取得部１００は、特定した聴衆の顔画像信号に基づいて、聴衆の感情を示す感情情報を取得する。聴衆の感情を示す感情情報の取得は、歌唱者の感情を示す感情情報と同様の方法により取得できる。

なお、聴衆が複数いる場合もありうる。この場合、取得部１００は、聴衆毎に取得した感情情報の全てを演奏制御部２００に出力してもよいし、複数の感情情報の中から一の感情情報を選択して演奏制御部２００に出力してもよい。

聴衆毎に取得した感情情報の全てが出力された場合、演奏制御部２００は、実行する一のエフェクト処理を、所定の条件に基づいて決定する。所定の条件は、たとえば「最も数が多い感情情報」のように予め一の条件が設定されてる。

たとえば、取得部１００から出力された複数の感情情報に、感情のタイプ「怒り」が２つ、感情のタイプ「悲しみ」が１つ含まれていたとする。この場合、演奏制御部２００は、数が多い方の感情のタイプ「怒り」に対応するエフェクト処理を実行するようエフェクタ１０２ｄを制御する。

このように、本変形例に係る取得部１００は、カラオケ歌唱を聴取する利用者である聴衆の顔画像信号に基づいて、感情情報を取得することができる。聴衆の顔画像信号を用いることにより、聴衆の感情を反映した歌唱音声を放音させることができる。

＜変形例４＞
取得部１００は、歌唱者及び聴衆の感情を示す感情情報を取得してもよい。

実施形態及び変形例３で述べたように、取得部１００は、特定した歌唱者の顔画像信号に基づいて歌唱者の感情を示す感情情報を取得し、特定した聴衆の顔画像信号に基づいて聴衆の感情を示す感情情報を取得することができる。

取得部１００は、取得した歌唱者の感情情報及び聴衆の感情情報を演奏制御部２００に出力する。

歌唱者の感情情報及び聴衆の感情情報が出力された場合、演奏制御部２００は、歌唱者の感情情報及び聴衆の感情情報を比較する。取得した歌唱者の感情情報と聴衆の感情情報とが一致する場合、演奏制御部２００は、当該感情情報に対応するエフェクト処理を実行するようエフェクタ１０２ｄを制御する。一方、取得した歌唱者の感情情報と聴衆の感情情報とが一致しない場合、演奏制御部２００は、特段の処理を実行しない。

このようなカラオケ装置Ｋによれば、取得した歌唱者の感情情報と聴衆の感情情報とが一致する場合にのみ、感情情報に対応するエフェクト処理を実行することができる。よって、歌唱者と聴衆の共通の感情を反映した歌唱音声を放音することができる。

＜その他＞
上記実施形態は、例として提示したものであり、発明の範囲を限定するものではない。上記の構成は、適宜組み合わせて実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

６０撮影手段
１００取得部
１０２ｄエフェクタ
２００演奏制御部
Ｋカラオケ装置

Claims

歌唱音声の音声信号に対してエフェクト処理を実行するエフェクタを有するカラオケ装置であって、
撮影手段から出力された利用者の顔画像信号に基づいて、利用者の感情を示す感情情報を取得する取得部と、
取得された前記感情情報に対応するエフェクト処理を実行するよう前記エフェクタを制御する演奏制御部と、
を有するカラオケ装置。
前記取得部は、感情のタイプ及び／または感情の強さを前記感情情報として取得することを特徴とする請求項１に記載のカラオケ装置。
前記取得部は、カラオケ歌唱を行う利用者である歌唱者またはカラオケ歌唱を聴取する利用者である聴衆の顔画像信号に基づいて、前記感情情報を取得することを特徴とする請求項１または２記載のカラオケ装置。