JP7423164B2

JP7423164B2 - カラオケ装置

Info

Publication number: JP7423164B2
Application number: JP2020128145A
Authority: JP
Inventors: 誠一山本
Original assignee: Daiichikosho Co Ltd
Current assignee: Daiichikosho Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2024-01-29
Anticipated expiration: 2040-07-29
Also published as: JP2022025367A

Description

本発明は、カラオケ装置に関する。

インターネット上に公開された映像に視聴者がコメントを付与し、映像と共にコメントを画面に表示できるシステムが知られている（例えば、特許文献１参照）。特許文献１に記載のシステムは、画面に映像を再生表示させながら、画面の一側方から他側方にコメントを移動表示させている。コメントは表示時間と文字列長に基づいた速度で移動して、映像の再生中にコメントが次々に画面に表示される。また、ライブ配信中の映像を視聴しながら、視聴者によって映像に付与されたコメントを楽しむことができるシステムも提案されている。

特開２００８－１４８０７１号公報

ところで、グループでカラオケルームを利用する場合、歌唱者以外の参加者（非歌唱者）がカラオケ歌唱中の歌唱者に声援を送ったり、合いの手を入れたりすることがあるが、このような声援や合いの手は歌唱者にとって聞き取り辛い。そこで、参加者の声援や合いの手をテキスト化して、特許文献１のシステムのように、コメントとして背景映像と共にモニタに表示させることが考えられる。しかしながら、参加者がカラオケ演奏に合わせて歌唱すると、歌唱音声信号がテキスト化されてモニタに不要な歌詞が表示され、モニタの限られた表示領域が圧迫されるという不具合がある。

本発明の目的は、モニタの表示領域を圧迫することなく、声援や合いの手等をコメントとしてモニタに表示することができるカラオケ装置を提供することである。

上記目的を達成するための主たる発明は、歌詞テロップデータ及び背景映像データを楽曲毎に記憶したカラオケ装置であって、楽曲のカラオケ演奏中に歌唱者以外でカラオケに参加する参加者の音声信号を取得する取得部と、所定の演奏区間毎に参加者の音声信号を音声認識処理してテキストデータを生成する生成部と、所定の演奏区間毎にテキストデータと歌詞テロップデータを比較して、歌詞テロップデータと同一内容を削除する修正処理をテキストデータに施す修正部と、修正処理後のテキストデータと背景映像データに基づいた映像を表示部に表示させる表示制御部と、を有するカラオケ装置である。

本発明によれば、楽曲のカラオケ演奏中に、所定の演奏区間毎に参加者の音声信号からテキストデータが生成され、このテキストデータから歌詞テロップデータと同一内容が削除されてテキストデータが修正される。参加者が声援等を歌唱者に送った場合には、テキスト化された声援等がコメントとして背景映像と共に表示部に表示され、参加者が歌唱者と共に歌唱した場合には、テキスト化された歌詞が表示部に表示されない。よって、表示部の限られた表示領域を圧迫することなく、参加者の声援等をコメントとして表示部に表示することができる。

第１実施形態のカラオケ装置の構成図である。第１実施形態のカラオケ装置の機能ブロック図である。第１実施形態の修正処理の一例を示す図である。第１実施形態のカラオケ装置の処理を示すフローチャートである。第２実施形態のカラオケ装置の機能ブロック図である。第２実施形態の修正処理の一例を示す図である。第３実施形態のカラオケ装置の機能ブロック図である。

＜第１実施形態＞
図１及び図２を参照して、第１実施形態のカラオケ装置１０について説明する。図１は、第１実施形態のカラオケ装置１０の構成図である。図２は、第１実施形態のカラオケ装置１０の機能ブロック図である。なお、図２の機能ブロック図には、説明の便宜上、コメントの表示処理に関する機能ブロックを図示している。

図１に示すように、カラオケ装置１０は、カラオケ本体１１と、モニタ１２と、スピーカ１３と、マイクロフォン１４と、リモコン装置１５と、を備えている。また、カラオケ装置１０には、利用者が所持した携帯端末Ｍ１が通信可能に接続されている。モニタ１２は、カラオケ本体１１からの映像信号等に基づいて、カラオケ演奏に合わせて背景映像と共に歌詞テロップ等を表示する。スピーカ１３は、カラオケ本体１１からの放音信号に基づいて、楽曲の伴奏音と共に歌唱者の歌唱音声を放音する。マイクロフォン１４は、歌唱者の歌唱音声を歌唱音声信号に変換してカラオケ本体１１に入力する。

リモコン装置１５は、タッチパネルを主体に構成されている。リモコン装置１５は、検索メニューや検索結果等の各種情報をタッチパネルに表示すると共に、タッチパネルによって入力を受け付けている。リモコン装置１５とカラオケ本体１１は近距離無線通信を介してペアリングされており、リモコン装置１５とカラオケ本体１１の間で各種情報が相互に送受信される。リモコン装置１５は、利用者のタッチ操作に基づいて楽曲を検索する。タッチパネルに表示された転送ボタンのタッチによって、リモコン装置１５から予約楽曲情報がカラオケ本体１１に送信される。

カラオケ本体１１は、リモコン装置１５から受信した予約楽曲情報を記憶部２１（図２参照）の予約管理テーブルに登録する。記憶部２１には、楽曲毎にカラオケ歌唱に関する各種データ、例えば、カラオケ楽曲の伴奏音の元になる伴奏データ、歌唱の採点基準となるリファレンスデータ、モニタ１２に表示される歌詞テロップや背景映像の元になる歌詞テロップデータや背景映像データが記憶されている。カラオケ本体１１は、予約管理テーブルから登録順に予約楽曲情報を読み出し、この予約楽曲情報に対応する各種データを記憶部２１から読み出す。

カラオケ本体１１がカラオケ演奏を開始すると、伴奏データの再生に同期して、歌詞テロップデータ及び背景映像データに基づいて歌詞テロップと背景映像がモニタ１２に表示される。また、カラオケ本体１１ではカラオケ演奏の伴奏音信号とマイクロフォン１４から入力された歌唱音声信号がミキサによって適切な比率でミキシングされて、このミキシング信号がアンプによって増幅されてスピーカ１３から放音される。このように、歌唱者がカラオケ演奏に合わせて歌唱すると、スピーカ１３から伴奏音と共に歌唱音声が放音される。歌唱音声はリファレンスデータに基づいて採点される。

携帯端末Ｍ１は、いわゆるスマートフォンであり、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信を介してカラオケ装置１０に接続されている。携帯端末Ｍ１にはアプリケーションのインストールによって様々な機能が追加されている。本実施形態の携帯端末Ｍ１には、カラオケ専用アプリケーションがインストールされており、歌唱者に対するコメント入力機能が搭載されている。携帯端末Ｍ１のカラオケ専用アプリケーションが起動されることで、携帯端末Ｍ１からカラオケ装置１０に入力された利用者の音声信号がテキスト化されて、コメントとして背景映像に重ねてモニタ１２に表示される。

図２に示すように、カラオケ本体１１は、カラオケ演奏処理に加えて、カラオケ演奏中に声援等をコメントとしてモニタ１２に表示させるように構成されている。カラオケ本体１１には、記憶部２１と、演奏部２２と、取得部２３と、生成部２４と、修正部２５と、表示制御部２６とが設けられている。記憶部２１には、予約楽曲情報が登録順に並べられた予約管理テーブル、楽曲毎に楽曲データ、背景映像データ、歌詞テロップデータ等が記憶されている。演奏部２２は、ＭＩＤＩ（Musical Instrument Digital Interface）音源等によって構成されている。演奏部２２は、記憶部２１から伴奏データを読み出して再生する。

取得部２３は、楽曲のカラオケ演奏中に歌唱者以外でカラオケに参加する参加者（非歌唱者）の音声信号を取得する。カラオケ装置１０には参加者が所持した携帯端末Ｍ１が通信可能に接続されており、参加者が携帯端末Ｍ１に発声することで、参加者の音声が携帯端末Ｍ１のマイクロフォンによって音声信号に変換される。携帯端末Ｍ１からカラオケ本体１１に音声信号が送信されて、取得部２３によって参加者の音声信号が取得される。これにより、音声分離技術を用いることなく、歌唱者の音声信号と参加者の音声信号を区別して取得できる。なお、取得部２３は、カラオケルームに設置された集音器から参加者の音声信号を取得してもよい。

生成部２４は、所定の演奏区間毎に参加者の音声信号を音声認識処理してテキストデータを生成する。本実施形態の所定の演奏区間は１小節であり、１小節毎に参加者の音声信号が音声認識処理によってテキスト化される。これにより、参加者の音声信号に対応したテキストデータがカラオケ演奏の進行に合わせて１小節ずつ時系列に並べられる。音声信号に対応したテキストデータは、仮名文字又はローマ字等によって表されている。なお、音声認識処理としては、音声スペクトラムの分析、パターンマッチング等の公知の技術が使用される。

修正部２５は、所定の演奏区間毎にテキストデータと歌詞テロップデータを比較して、歌詞テロップデータと同一内容を削除する修正処理をテキストデータに施している。カラオケ演奏の開始時に修正部２５によって記憶部２１から歌詞テロップデータが読み出され、カラオケ演奏の進行に合わせて生成部２４から出力されたテキストデータと歌詞テロップデータが１小節ずつ比較される。テキストデータ中に歌詞テロップデータと同一文字列が含まれる場合にはテキストデータから当該文字列が削除される。このように、テキスト内容に歌詞が含まれないようにテキストデータが修正される。

なお、本実施形態において、歌詞テロップデータと同一内容とは、歌詞テロップデータと完全に同一内容である必要はなく、歌詞テロップデータと略同一と見做せる内容であればよい。例えば、テキストデータの文字列と歌詞テロップデータの文字列の一致率が９割以上であれば、歌詞テロップデータと略同一内容と見做して、テキストデータから当該同一内容の文字列が削除されてテキストデータが修正されてもよい。また、テキストデータと歌詞テロップデータを略同一内容と見做すための一致率は、音声認識処理の精度に応じて変更されてもよい。

表示制御部２６は、修正処理後のテキストデータと背景映像データに基づいた映像を表示部としてのモニタ１２に表示させる。カラオケ演奏の開始時に表示制御部２６によって記憶部２１から背景映像データが読み出され、カラオケ演奏の進行に合わせて修正部２５から表示制御部２６に修正処理後のテキストデータが入力される。表示制御部２６によって背景映像データとテキストデータに基づいて、モニタ１２に映された背景映像上にテキスト内容がコメントとして順次表示される。なお、表示制御部２６は、モニタ１２の画面の一側方から他側方にコメントを移動表示させてもよい。

カラオケ本体１１の各部の処理は、プロセッサを用いてソフトウェアによって実現されてもよいし、集積回路等に形成された論理回路（ハードウェア）によって実現されてもよい。プロセッサを用いる場合には、プロセッサがメモリに記憶されているプログラムを読み出して実行することで各種処理が実施される。プロセッサとしては、例えば、ＣＰＵ（Central Processing Unit）が使用される。また、メモリは、用途に応じてＲＯＭ(Read Only Memory)、ＲＡＭ（Random Access Memory）等の一つ又は複数の記憶媒体によって構成されている。

図３を参照して、カラオケ装置１０の処理動作について具体例を挙げて説明する。図３は、第１実施形態の修正処理の一例を示す図である。なお、図３では、図１及び図２の符号を適宜使用して説明する。

カラオケルームには利用者Ｕ１－Ｕ３が入室し、利用者Ｕ３によってカラオケ装置１０に楽曲Ｘが予約される。また、利用者Ｕ１が所持する携帯端末Ｍ１がカラオケ装置１０にペアリングされており、利用者Ｕ１によって携帯端末Ｍ１のカラオケ専用アプリケーションが起動される。携帯端末Ｍ１とカラオケ装置１０が通信可能に接続され、利用者Ｕ１が携帯端末Ｍ１に発声した音声信号が携帯端末Ｍ１からカラオケ装置１０に送信可能になっている。このように、利用者Ｕ３が歌唱者（以下、歌唱者Ｕ３とする）であり、利用者Ｕ１、Ｕ２が歌唱者Ｕ３以外でカラオケに参加する参加者（以下、参加者Ｕ１、Ｕ２とする）である。

図３に示すように、楽曲Ｘは前奏１６小節、第１コーラス３２小節、第２コーラス３２小節、間奏１６小節、第３コーラス３２小節、後奏１６小節の計１４４小節で構成されている。第１－第３コーラスは、それぞれＡメロ、Ｂメロ、サビで構成されている。本実施形態では所定の演奏区間が１小節であるため、楽曲ＸにはＰ００１－Ｐ１４４の演奏区間が含まれている。これらの演奏区間のうち第１コーラスＰ０１７－Ｐ０４８、第２コーラスＰ０４９－Ｐ０８０、第３コーラスＰ０９７－Ｐ１２８の９６区間は歌詞テロップデータが存在する歌唱区間である。

歌唱者Ｕ３によってカラオケ装置１０に楽曲Ｘのカラオケ演奏が指示されると、演奏音が放音され始めると共に背景映像が表示され始める。歌唱者Ｕ３によって第１コーラスのサビが歌唱されているときに、このサビの２小節目の演奏区間Ｐ０４２で参加者Ｕ１がカラオケ演奏に合わせて「天使のように」と歌唱すると、携帯端末Ｍ１からカラオケ装置１０に参加者Ｕ１の音声信号が送信される。カラオケ装置１０の取得部２３によって音声信号が取得され、生成部２４によって参加者Ｕ１の音声信号に音声認識処理が施されてテキストデータＴＤ１として「テンシノヨウニ」が生成される。

修正部２５によってテキストデータＴＤ１の「テンシノヨウニ」と演奏区間Ｐ０４２の歌詞テロップデータの「天使のように」が比較される。テキストデータＴＤ１の「テンシノヨウニ」と歌詞テロップデータの「天使のように」の仮名文字の文字列が同じであるため、テキストデータＴＤ１の「テンシノヨウニ」が削除される。演奏区間Ｐ０４２のテキストデータＴＤ１には「テンシノヨウニ」しか含まれていないため、修正部２５によって演奏区間Ｐ０４２のテキストデータＴＤ１全体が削除される。演奏区間Ｐ０４２では表示制御部２６にはテキストデータＴＤ１が入力されず、背景映像と歌詞テロップがモニタ１２に表示される。

また、歌唱者Ｕ３によって第３コーラスのＡメロが歌唱されているときに、このＡメロの１小節目の演奏区間Ｐ０９７で参加者Ｕ１が「やばいよー」と発声すると、携帯端末Ｍ１からカラオケ装置１０に参加者Ｕ１の音声信号が送信される。カラオケ装置１０の取得部２３によって音声信号が取得され、生成部２４によって参加者Ｕ１の音声信号に音声認識処理が施されてテキストデータＴＤ１として「ヤバイヨー」が生成される。

修正部２５によってテキストデータＴＤ１の「ヤバイヨー」と演奏区間Ｐ０９７の歌詞テロップデータの「ずっと」が比較される。テキストデータＴＤ１の「ヤバイヨー」と歌詞テロップデータ「ずっと」の仮名文字の文字列が異なるため、修正部２５によってテキストデータＴＤ１の「ヤバイヨー」が削除されない。演奏区間Ｐ０９７では表示制御部２６にテキストデータＴＤ１が入力されて、背景映像上に「ヤバイヨー」というコメントが重畳されて歌詞テロップと共にモニタ１２に表示される。このとき、コメントは、背景映像上の歌詞テロップに重ならない位置に重畳される。

このように、歌唱者Ｕ３の歌唱中に、参加者Ｕ１が「やばいよー」と発声したときには背景映像上に「ヤバイヨー」とコメントが表示され、参加者Ｕ１がカラオケ演奏に合わせて「天使のように」と歌唱したときには背景映像上にコメントが表示されない。よって、歌唱者Ｕ３の歌唱中に参加者Ｕ１の歌唱音声が不要なコメントとして背景映像上に表示されることがない。なお、歌詞テロップが存在しない演奏区間（非歌唱区間）、すなわち前奏区間Ｐ００１－Ｐ０１６、間奏区間Ｐ０８１－Ｐ０９６、後奏区間Ｐ１２９－Ｐ１４４においては、修正部２５がテキストデータＴＤ１の修正処理を実施しなくてもよい。すなわち、それらの演奏区間では、生成されたテキストデータＴＤ１は（歌詞テロップデータと比較されることなく）表示制御部２６にそのまま入力され、背景映像上にコメントとして表示される。

また、生成部２４及び修正部２５は、予め伴奏データに設定された演奏区間の情報を参照してもよいし、伴奏データに基づいて楽曲の演奏区間を分析してもよい。また、上記の例では、所定の演奏区間が１小節に設定されたが、所定の演奏区間が４小節等の長めに設定されてもよい。例えば、修正部２５は４小節分のテキストデータＴＤ１から歌詞テロップデータと同一内容の１小節分を削除して、表示制御部２６は残りの３小節分のテキストデータＴＤ１をコメントとして表示してもよい。また、表示制御部２６は、背景映像にコメントを重畳して一つの表示領域に表示させる代わりに、モニタ１２の画面を複数の表示領域に分けて、背景映像とコメントを別々の表示領域に表示させてもよい。

図４を参照して、カラオケ装置１０の処理動作の流れについて説明する。図４は、第１実施形態のカラオケ装置１０の処理を示すフローチャートである。なお、図４に示すフローチャートは一例を示すものであり、カラオケ装置１０の処理動作は、このフローチャートに限定されない。なお、図４では、図１及び図２の符号を適宜使用して説明する。

図４に示すように、歌唱者によって楽曲のカラオケ演奏の開始が指示されると、１小節目（ｎ＝００１）から順番にカラオケ演奏及び背景映像の表示が開始される（ステップＳ０１）。演奏区間Ｐｎのカラオケ演奏が実施されると（ステップＳ０２）、演奏区間Ｐｎの演奏中に取得部２３による参加者の音声信号の取得状況が監視されている（ステップＳ０３）。取得部２３によって参加者の音声信号が取得されない場合には（ステップＳ０３でＮｏ）、ステップＳ０４ーＳ０６の各処理をスキップしてステップＳ０７に処理が移行する。

取得部２３によって参加者の音声信号が取得された場合には（ステップＳ０３でＹｅｓ）、生成部２４によって音声信号に音声認識処理が実施されてテキストデータが生成される（ステップＳ０４）。次に、修正部２５によって演奏区間Ｐｎのテキストデータと歌詞テロップデータが比較される（ステップＳ０５）。テキストデータに歌詞テロップデータと同一内容（文字列）が含まれている場合には、この同一内容がテキストデータから削除される。テキストデータに歌詞テロップデータと同一内容が含まれない場合には、テキストデータは削除されない。

そして、表示制御部２６によってテキストデータと背景映像データに基づいて、テキスト内容がコメントとして背景映像上に重畳されてモニタ１２に表示される（ステップＳ０６）。次に、最終区間ＰＮ（ｎ＝Ｎ）まで楽曲が演奏されたか否かが判定される（ステップＳ０７）。最終区間ＰＮまで楽曲が演奏された場合には（ステップＳ０７でＹｅｓ）、楽曲のカラオケ演奏が終了される。一方、最終区間ＰＮまで楽曲が演奏されていない場合には（ステップＳ０７でＮｏ）、次小節（ｎ＝ｎ＋００１）の演奏区間ＰｎでステップＳ０２－ステップＳ０６の処理が実施される。

以上、第１実施形態によれば、楽曲のカラオケ演奏中に、所定の演奏区間毎に参加者の音声信号からテキストデータが生成され、このテキストデータから歌詞テロップデータと同一内容が削除されてテキストデータが修正される。参加者が声援等を歌唱者に送った場合には、テキスト化された声援等がコメントとして背景映像と共にモニタ１２に表示され、参加者が歌唱者と共に歌唱した場合には、テキスト化された歌詞がモニタ１２に表示されない。よって、モニタ１２の限られた表示領域を圧迫することなく、参加者の声援等をコメントとしてモニタ１２に表示することができる。

＜第２実施形態＞
図５を参照して、第２実施形態のカラオケ装置３０について説明する。図５は、第２実施形態のカラオケ装置３０の機能ブロック図である。なお、第２実施形態のカラオケ装置３０は、参加者毎にコメントの表示態様を異ならせる点で、第１実施形態のカラオケ装置１０と相違する。したがって、第２実施形態については、第１実施形態と同様な構成については説明を省略する。

図５に示すように、第２実施形態のカラオケ装置３０は、第１実施形態のカラオケ装置１０（図２参照）と略同様に構成されており、カラオケ演奏中に声援等をコメントとしてモニタ３９に表示させるように構成されている。カラオケ装置３０のカラオケ本体３１には、記憶部３２と、演奏部３３と、取得部３４と、生成部３５と、修正部３６と、表示制御部３７とが設けられている。取得部３４は、歌唱者以外の複数の参加者の音声信号を識別可能に取得する。参加者が所持した携帯端末Ｍ１、Ｍ２からカラオケ装置３０に音声信号と共に端末識別情報が送信されており、端末識別情報によって複数の参加者の音声信号が識別される。

生成部３５は、取得部３４が複数の参加者の音声信号を取得した場合に、参加者毎に識別可能なテキストデータを生成する。テキストデータには各携帯端末Ｍ１、Ｍ２の端末識別情報が関連付けられ、端末識別情報によって複数の参加者のテキストデータが識別される。修正部３６は、所定の演奏区間毎に各参加者のテキストデータと歌詞テロップデータを比較して、各参加者のテキストデータに対して修正処理を施す。表示制御部３７は、参加者毎に異なる表示態様で、修正処理後のテキストデータと背景映像データに基づいた映像をモニタ３９に表示させる。

図６を参照して、カラオケ装置３０の処理動作について具体例を挙げて説明する。図６は、第２実施形態の修正処理の一例を示す図である。なお、図６では、図５の符号を適宜使用して説明する。また、楽曲Ｘには第１の実施形態と同様にＰ００１－Ｐ１４４の演奏区間が含まれている。また、ここでは、表示態様の一例として、参加者Ｕ１のコメントには赤い文字色が使用され、参加者Ｕ２のコメントには緑の文字色が使用されている。

カラオケルームには利用者Ｕ１－Ｕ３が入室し、利用者Ｕ３によってカラオケ装置３０に楽曲Ｘが予約される。また、利用者Ｕ１、Ｕ２が所持する携帯端末Ｍ１、Ｍ２がカラオケ装置３０にペアリングされており、利用者Ｕ１、Ｕ２によって携帯端末Ｍ１、Ｍ２のカラオケ専用アプリケーションが起動される。携帯端末Ｍ１、Ｍ２とカラオケ装置３０が通信可能に接続され、利用者Ｕ１、Ｕ２が携帯端末Ｍ１、Ｍ２に発声した音声信号が携帯端末Ｍ１、Ｍ２からカラオケ装置３０に送信可能になっている。このように、利用者Ｕ３が歌唱者（以下、歌唱者Ｕ３とする）であり、利用者Ｕ１、Ｕ２が歌唱者Ｕ３以外でカラオケに参加する参加者（以下、参加者Ｕ１、Ｕ２とする）である。

歌唱者Ｕ３によってカラオケ装置３０に楽曲Ｘのカラオケ演奏が指示されると、演奏音が放音され始めると共に背景映像が表示され始める。図６に示すように、歌唱者Ｕ３によって第１コーラスのサビが歌唱されているときに、このサビの２小節目の演奏区間Ｐ０４２で参加者Ｕ１がカラオケ演奏に合わせて「天使のように」と歌唱し、参加者Ｕ２が「おらー」と発声している。携帯端末Ｍ１、Ｍ２からカラオケ装置３０に音声信号及び端末識別情報が送信され、カラオケ装置３０の取得部３４によって参加者Ｕ１、Ｕ２の音声信号及び端末識別情報が取得される。

生成部３５によって参加者Ｕ１の音声信号に音声認識処理が施されてテキストデータＴＤ１として「テンシノヨウニ」が生成される。テキストデータＴＤ１には携帯端末Ｍ１の端末識別情報が関連付けられている。また、生成部３５によって参加者Ｕ２の音声信号に音声認識処理が施されてテキストデータＴＤ２として「オラー」が生成される。テキストデータＴＤ２には携帯端末Ｍ２の端末識別情報が関連付けられている。携帯端末Ｍ１、Ｍ２の端末識別情報によって参加者Ｕ１、Ｕ２のテキストデータＴＤ１、ＴＤ２が識別されている。

修正部３６によってテキストデータＴＤ１の「テンシノヨウニ」と演奏区間Ｐ０４２の歌詞テロップデータ「天使のように」が比較される。テキストデータＴＤ１の「テンシノヨウニ」と歌詞テロップデータ「天使のように」の仮名文字の文字列が同じであるため、テキストデータＴＤ１の「テンシノヨウニ」が削除される。また、修正部３６によってテキストデータＴＤ２の「オラー」と歌詞テロップデータ「天使のように」が比較される。テキストデータＴＤ２の「オラー」と歌詞テロップデータ「天使のように」の仮名文字の文字列が異なるため、テキストデータＴＤ２の「オラー」は削除されない。演奏区間Ｐ０４２では表示制御部３７によって背景映像に「オラー」というコメントのみが重畳されて歌詞テロップと共にモニタ３９に表示される。このとき、携帯端末Ｍ２の端末識別情報に関連付けられた参加者Ｕ２のコメント「オラー」は緑の文字色で表示される。

また、歌唱者Ｕ３によって第３コーラスのＡメロが歌唱されているときに、このＡメロの１小節目の演奏区間Ｐ０９７で参加者Ｕ１が「やばいよー」と発声し、参加者Ｕ２が「おらー」と発声している。携帯端末Ｍ１、Ｍ２からカラオケ装置３０に音声信号及び端末識別情報が送信され、カラオケ装置３０の取得部３４によって参加者Ｕ１、Ｕ２の音声信号及び端末識別情報が取得される。

生成部３５によって参加者Ｕ１の音声信号に音声認識処理が施されてテキストデータＴＤ１として「ヤバイヨー」が生成される。テキストデータＴＤ１には携帯端末Ｍ１の端末識別情報が関連付けられている。また、生成部３５によって参加者Ｕ２の音声信号に音声認識処理が施されてテキストデータＴＤ２として「オラー」が生成される。テキストデータＴＤ２には携帯端末Ｍ２の端末識別情報が関連付けられている。

修正部３６によってテキストデータＴＤ１の「ヤバイヨー」と演奏区間Ｐ０９７の歌詞テロップデータ「ずっと」が比較される。テキストデータＴＤ１の「ヤバイヨー」と歌詞テロップデータ「ずっと」の仮名文字の文字列が異なるため、テキストデータＴＤ１の「ヤバイヨー」は削除されない。また、修正部３６によってテキストデータＴＤ２の「オラー」と演奏区間Ｐ０９７の歌詞テロップデータ「ずっと」が比較される。テキストデータＴＤ２の「オラー」と歌詞テロップデータ「ずっと」の仮名文字の文字列が異なるため、テキストデータＴＤ２の「オラー」は削除されない。

演奏区間Ｐ０９７では表示制御部３７によって背景映像に「ヤバイヨー」、「オラー」というコメントが重畳されて歌詞テロップと共にモニタ３９に表示される。このとき、携帯端末Ｍ１の端末識別情報に関連付けられた参加者Ｕ１のコメント「ヤバイヨー」は赤い文字色で表示され、携帯端末Ｍ２の端末識別情報に関連付けられた参加者Ｕ２のコメント「オラー」は緑の文字色で表示される。なお、コメントの表示態様として、上記の文字色以外にも、フォント種類、文字サイズ等が参加者（携帯端末）毎に変更されてもよい。モニタ３９に異なる表示態様でコメントが表示されることで演出効果が高められる。

なお、取得部３４は、カラオケルームに設置された集音器から複数の参加者の音声信号を取得してもよい。取得部３４には複数の参加者の音声が混在した音声信号が取得されるが、公知の音声分離技術を用いて参加者毎に音声信号が分離される。例えば、音声分離技術としては、ディープラーニングとクラスタリングを組み合わせた三菱電機株式会社のディープクラスタリングが挙げられる。

以上、第２実施形態によれば、第１実施形態と同様に、モニタ３９の限られた表示領域を圧迫することなく、参加者の声援等をコメントとしてモニタ３９に表示することができる。さらに、参加者毎に異なる表示態様でコメントを表示することで演出効果を高めることができる。

＜第３実施形態＞
図７を参照して、第３実施形態のカラオケ装置４０について説明する。図７は、第３実施形態のカラオケ装置４０の機能ブロック図である。なお、第３実施形態のカラオケ装置４０は、歌唱映像上にコメントを表示する点で、第１実施形態のカラオケ装置１０と相違する。したがって、第３実施形態については、第１実施形態と同様な構成については説明を省略する。

図７に示すように、第３実施形態のカラオケ装置４０は、第１実施形態のカラオケ装置１０（図２参照）と略同様に構成されており、歌唱映像に声援等をコメントとして付加するように構成されている。カラオケ装置４０のカラオケ本体４１には、記憶部４２と、演奏部４３と、取得部４４と、生成部４５と、修正部４６と、表示制御部４７と、撮影部４８と、記憶制御部４９と、が設けられている。撮影部４８は、楽曲のカラオケ演奏中に歌唱者を撮影して歌唱映像データを生成する。記憶制御部４９は、歌唱映像データを、当該歌唱映像データに対応する修正処理後のテキストデータに関連付けて記憶させる。なお、歌唱映像データは、歌唱音声やカラオケ演奏音を含んでいてもよい。

このように構成されたカラオケ装置４０では、歌唱者Ｕ３によって楽曲Ｘのカラオケ演奏が指示されると、演奏音が放音され始めると共に背景映像が表示され始める。また、撮影部４８によって歌唱者Ｕ３の撮影が開始されて、撮影部４８から歌唱者Ｕ３の歌唱映像データが記憶制御部４９に出力される。歌唱者Ｕ３の歌唱中に３つの演奏区間Ｐ０９７、Ｐ０９８、Ｐ０９９で参加者Ｕ１が発声すると、携帯端末Ｍ１からカラオケ装置４０に参加者Ｕ１の音声信号が送信される。カラオケ装置４０の取得部４４によって音声信号が取得され、生成部４５によって参加者Ｕ１の音声信号に音声認識処理が施されてテキストデータＴＤ１が生成される。

修正部４６によってテキストデータＴＤ１と演奏区間Ｐ０９７、Ｐ０９８、Ｐ０９９の歌詞テロップデータが比較される。テキストデータＴＤ１から歌詞テロップデータと同一内容が削除されてテキストデータＴＤ１が修正される。演奏区間Ｐ０９７、Ｐ０９８、Ｐ０９９ではテキストデータＴＤ１に歌詞テロップデータと同一内容が含まれないため、修正部４６によってテキストデータＴＤ１は修正されない。演奏区間Ｐ０９７、Ｐ０９８、Ｐ０９９では表示制御部４７にテキストデータＴＤ１が入力され、背景映像にコメントが重畳されて歌詞テロップと共にモニタ５０に表示される。

記憶制御部４９には演奏区間Ｐ０９７、０９８、０９９のテキストデータＴＤ１が入力され、テキストデータＴＤ１がＴＤ１－０９７、ＴＤ１－０９８、ＴＤ１－０９９として歌唱映像データに関連付けられた状態で記憶される。歌唱映像の撮影開始からの経過時間と演奏区間が対応付けられているため、演奏区間Ｐ０９７、０９８、０９９に対応したタイミングで、テキストデータＴＤ１－０９７、ＴＤ１－０９８、ＴＤ１－０９９のテキスト内容がコメントとして歌唱映像に重畳される。

表示制御部４７は、テキストデータＴＤ１－０９７、ＴＤ１－０９８、ＴＤ１－０９９と歌唱映像データに基づいた映像をモニタ５０に表示させてもよい。より具体的には、歌唱者Ｕ３の歌唱映像がモニタ５０に表示され、演奏区間Ｐ０９７ではテキストデータＴＤ１－０９７のテキスト内容がコメントとして歌唱映像上に表示される。また、演奏区間Ｐ０９８ではテキストデータＴＤ１－０９８のテキスト内容がコメントとして歌唱映像上に表示され、演奏区間Ｐ０９９ではテキストデータＴＤ１－０９９のテキスト内容がコメントとして歌唱映像上に表示される。

なお、カラオケ装置４０は、テキストデータ及び歌唱映像データに基づいて、コメントが重畳された撮影映像を作成してネットワーク上に公開してもよい。

以上、第３実施形態によれば、第１実施形態と同様に、モニタ５０の限られた表示領域を圧迫することなく、参加者の声援等をコメントとしてモニタ５０に表示することができる。さらに、テキストデータに関連付けた歌唱映像データを容易に生成し、テキスト化された歌唱等を歌唱映像と共にモニタ５０に表示させることができる。

また、各実施形態では、カラオケ装置１０、３０、４０がカラオケコマンダである一例について説明したが、カラオケ装置１０、３０、４０は携帯電話等の携帯機器によって構成されてもよい。

また、第３実施形態では、カラオケ装置４０が撮影部４８を有する構成にしたが、カラオケ装置４０が撮影部４８を有さなくてもよい。カラオケ装置４０は、カラオケ装置４０とは別体の撮影部４８から歌唱映像データを取得してもよい。

また、上記した各実施形態において、カラオケ装置１０、３０、４０に対してプログラムをインストールすることによって、カラオケ演奏中に声援等をコメントとして表示させるコメント表示機能がカラオケ装置１０、３０、４０に追加されてもよい。このプログラムは記憶媒体に記憶されている。記憶媒体は特に限定されないが、光ディスク、光磁気ディスク、フラッシュメモリ等の非一過性の記憶媒体であってもよい。

また、本実施形態を説明したが、他の実施形態として、上記実施形態及び変形例を全体的又は部分的に組み合わせたものでもよい。

また、本発明の技術は上記の実施形態に限定されるものではなく、技術的思想の趣旨を逸脱しない範囲において様々に変更、置換、変形されてもよい。さらには、技術の進歩又は派生する別技術によって、技術的思想を別の仕方によって実現することができれば、その方法を用いて実施されてもよい。したがって、特許請求の範囲は、技術的思想の範囲内に含まれ得る全ての実施態様をカバーしている。

１０、３０、４０：カラオケ装置
１２、３９、５０：モニタ（表示部）
２３、３４、４４：取得部
２４、３５、４５：生成部
２５、３６、４６：修正部
２６、３７、４７：表示制御部
４８：撮影部
４９：記憶制御部
Ｕ１、Ｕ２：参加者
Ｕ３：歌唱者

Claims

歌詞テロップデータ及び背景映像データを楽曲毎に記憶したカラオケ装置であって、
楽曲のカラオケ演奏中に歌唱者以外でカラオケに参加する参加者の音声信号を取得する取得部と、
所定の演奏区間毎に参加者の音声信号を音声認識処理してテキストデータを生成する生成部と、
所定の演奏区間毎にテキストデータと歌詞テロップデータを比較して、歌詞テロップデータと同一内容を削除する修正処理をテキストデータに施す修正部と、
修正処理後のテキストデータと背景映像データに基づいた映像を表示部に表示させる表示制御部と、を有することを特徴とするカラオケ装置。
前記カラオケ装置には参加者が所持した携帯端末が通信可能に接続されており、
前記取得部は、前記携帯端末から送信された参加者の音声信号を取得することを特徴とする請求項１に記載のカラオケ装置。
前記取得部が複数の参加者の音声信号を取得した場合に、前記生成部は参加者毎に識別可能なテキストデータを生成し、
前記表示制御部は、参加者毎に異なる表示態様で、修正処理後のテキストデータと背景映像データに基づいた映像を前記表示部に表示させることを特徴とする請求項１又は請求項２に記載のカラオケ装置。
撮影部によって撮影された歌唱者の歌唱映像データを、当該歌唱映像データに対応する修正処理後のテキストデータに関連付けて記憶させる記憶制御部を有することを特徴とする請求項１から請求項３のいずれか１項に記載のカラオケ装置。
前記表示制御部は、修正処理後のテキストデータ及び歌唱映像データに基づいた映像を前記表示部に表示させることを特徴とする請求項４に記載のカラオケ装置。