JP7158331B2

JP7158331B2 - カラオケ装置

Info

Publication number: JP7158331B2
Application number: JP2019067225A
Authority: JP
Inventors: 政之鎌田
Original assignee: Daiichikosho Co Ltd
Current assignee: Daiichikosho Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2022-10-21
Anticipated expiration: 2039-03-29
Also published as: JP2020166141A

Description

本発明は、カラオケ装置に関する。

カラオケ歌唱を一人で楽しむ、「一人カラオケ」のニーズが高まっている。

一人カラオケを行う際の場を盛り上げるための技術として、たとえば、特許文献１には、マイクロホンの向きが水平を中心として上下に所定の狭い角度範囲に収まっている場合には唱和フレーズにおける聴衆の唱和の歌声データを再生させる技術が開示されている。この技術により、コンサート会場においてステージ上のアーティストが聴衆に唱和を促して盛り上げる気分を楽しめるとしている。

特開２０１１－１５４２８９号公報

ところで、プロのアーティストが聴衆に唱和を促す際に、唱和を求める歌詞を先に読み上げることがある。このような行為を「リードナレーション」という。

一方、一人カラオケを行っている歌唱者がアーティストを真似てリードナレーションを行ったとしても、聴衆が居ないため唱和がなされることは無い。

本発明の目的は、一人カラオケを行っている場合であっても、リードナレーションを楽しむことが可能なカラオケ装置を提供することにある。

上記目的を達成するための発明は、楽曲のカラオケ演奏に合わせて歌詞テロップを表示するための歌詞テロップデータを記憶するデータ記憶部と、楽曲のカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理し、当該音声に含まれる文字列を特定する音声処理部と、特定された前記文字列と前記歌詞テロップデータとの比較結果に基づいて、前記音声がリードナレーションに対応する音声かどうかを判定する判定部と、前記音声がリードナレーションに対応する音声であると判定された場合、前記特定された文字列の唱和を模擬した唱和音声を放音手段から放音させる放音処理部と、を有するカラオケ装置である。
本発明の他の特徴については、後述する明細書及び図面の記載により明らかにする。

本発明によれば、一人カラオケを行っている場合であっても、リードナレーションを楽しむことができる。

第１実施形態に係るカラオケ装置のハードウェア構成例を示す図である。第１実施形態に係るカラオケ本体のソフトウェア構成例を示す図である。第１実施形態における、ある歌唱区間における歌詞と当該歌詞に含まれる文字の時間情報との関係を示した図である。第１実施形態に係るカラオケ装置の処理を示すフローチャートである。

＜第１実施形態＞
図１～図４を参照して、本実施形態に係るカラオケ装置について説明する。

＝＝カラオケ装置＝＝
カラオケ装置１は、カラオケ演奏及び歌唱者がカラオケ歌唱を行うための装置である。図１に示すように、カラオケ装置１は、カラオケ本体１０、スピーカ２０、表示装置３０、マイク４０、及びリモコン装置５０を備える。

スピーカ２０は各種音声を放音するための構成である。本実施形態におけるスピーカ２０は、「放音手段」に相当する。表示装置３０はカラオケ本体１０からの信号に基づいて映像や画像を画面に表示するための構成である。マイク４０は歌唱者の歌唱音声をアナログの信号に変換してカラオケ本体１０に入力するための構成である。リモコン装置５０は、カラオケ本体１０に対する各種操作をおこなうための装置である。歌唱者はリモコン装置５０を用いてカラオケ歌唱を希望する楽曲の選曲（予約）等を行うことができる。リモコン装置５０の表示画面には各種操作の指示入力を行うためのアイコン等が表示される。

カラオケ本体１０は、選曲された楽曲のカラオケ演奏制御、歌詞や背景映像等の表示制御、マイク４０を通じて入力された信号の処理といった、カラオケ歌唱に関する各種の制御を行う。図１に示すように、カラオケ本体１０は、制御部１１、通信部１２、記憶部１３、音響処理部１４、表示処理部１５、及び操作部１６を備える。各構成はインターフェース（図示なし）を介してバスＢに接続されている。

制御部１１は、ＣＰＵ１１ａおよびメモリ１１ｂを備える。ＣＰＵ１１ａは、メモリ１１ｂに記憶された動作プログラムを実行することにより各種の制御機能を実現する。メモリ１１ｂは、ＣＰＵ１１ａに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶装置である。

通信部１２は、ルーター（図示なし）を介してカラオケ本体１０を通信回線に接続するためのインターフェースを提供する。

記憶部１３は、各種のデータを記憶する大容量の記憶装置であり、たとえばハードディスクドライブなどである。記憶部１３は、カラオケ装置１によりカラオケ演奏を行うための複数の楽曲データを記憶する。

楽曲データは、個々のカラオケ楽曲を特定するための楽曲ＩＤが付与されている。楽曲データは、伴奏データ、リファレンスデータ等を含む。伴奏データは、カラオケ演奏音の元となるデータである。リファレンスデータは、歌唱者によるカラオケ歌唱を採点するためのデータであり、採点時の基準として用いられるデータである。リファレンスデータは、音符毎のピッチの値を含む。

また、記憶部１３は、各カラオケ楽曲に対応する歌詞テロップをカラオケ演奏に合わせて表示装置３０等に表示させるための歌詞テロップデータ、カラオケ演奏時に表示装置３０等に表示される背景画像等の背景画像データ、及び楽曲の属性情報（歌手名、作詞・作曲者名、ジャンル等の当該楽曲に関する情報）を記憶する。

音響処理部１４は、制御部１１の制御に基づき、楽曲に対するカラオケ演奏の制御およびマイク４０を通じて入力された歌唱音声に基づく信号の処理を行う。表示処理部１５は、制御部１１の制御に基づき、表示装置３０やリモコン装置５０における各種表示に関する処理を行う。たとえば、表示処理部１５は、楽曲のカラオケ演奏時における背景映像に歌詞テロップや各種アイコンが重ねられた映像を表示装置３０に表示させる制御を行う。或いは、表示処理部１５は、リモコン装置５０の表示画面に操作入力用の各種アイコンを表示させる。操作部１６は、パネルスイッチおよびリモコン受信回路などからなり、歌唱者によるカラオケ装置１のパネルスイッチあるいはリモコン装置５０の操作に応じて選曲信号、演奏中止信号などの操作信号を制御部１１に対して出力する。制御部１１は、操作部１６からの操作信号を検出し、対応する処理を実行する。

（ソフトウェア構成）
図２はカラオケ本体１０のソフトウェア構成例を示す図である。カラオケ本体１０は、データ記憶部１００、音声処理部２００、判定部３００、及び放音処理部４００を備える。データ記憶部１００は、記憶部１３の記憶領域の一部として提供される。音声処理部２００、判定部３００、及び放音処理部４００は、ＣＰＵ１１ａがメモリ１１ｂに記憶されるプログラムを実行することにより実現される。

［データ記憶部］
データ記憶部１００は、歌詞テロップデータ（上述）を記憶する。歌詞テロップデータは、歌詞に含まれる文字を示すデータや、歌詞に含まれる文字毎に設定された時間情報を含む。時間情報は、楽曲の演奏開始時を０とした場合に当該文字が発声されるべきタイミング（たとえば、２５０ｍｓｅｃ後、１０００ｍｓｅｃ後）を示す情報である。カラオケ装置１は、この時間情報に基づいたタイミングで歌詞テロップを表示したり、表示した歌詞テロップの色替えを制御したりする。図３は、楽曲Ｘの歌唱区間Ｅ１及びＥ２における歌詞、及び歌詞に含まれる各文字の時間情報を示した図である。なお、図３における時間情報は、歌唱区間Ｅ１の演奏開始時をオフセット位置（ｏｆｆｓｅｔ）とし、そこからの経過時間として示している。

また、本実施形態において、データ記憶部１００は唱和音声データを記憶する。唱和音声データは、歌詞テロップに含まれる文字列の唱和を模擬した唱和音声を示す波形データである。唱和音声データは、楽曲毎に予め設定されている。

［音声処理部］
音声処理部２００は、楽曲のカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理し、当該音声に含まれる文字列を特定する。

ある歌唱者が予約した楽曲のカラオケ演奏が開始された後、マイク４０から音声入力を受けたとする。この場合、音声処理部２００は、入力された音声に基づく信号を処理し、音声に含まれる文字列を抽出する。音声認識処理は公知の手法を用いることができる。

たとえば、歌唱者がマイク４０を介し、楽曲Ｘの歌唱区間Ｅ１において歌詞「請求項」を発声したとする。この場合、音声処理部２００は、マイク４０からの信号を音声認識処理することにより、文字列「せ」、「い」、「きゅ」、「こ」を抽出する。音声処理部２００は、抽出した文字列の情報を判定部３００に出力する。

［判定部］
判定部３００は、特定された文字列と歌詞テロップデータとの比較結果に基づいて、入力された歌唱者の音声がリードナレーションに対応する音声かどうかを判定する。

具体的に、判定部３００は、歌詞テロップデータ中に、特定された文字列と一致する文字列が含まれており、且つ歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間以上早い場合、音声がリードナレーション（唱和を求める歌詞を先に読み上げること）に対応する音声であると判定する。

所定時間は、歌唱者の音声がリードナレーションに対応する音声であるかどうかを判定するための値である。所定時間はたとえば、５００ｍｓｅｃや７５０ｍｓｅｃである。なお、所定時間は予め一の値が設定されていてもよいし、楽曲のテンポに応じて適宜設定されることでもよい。

たとえば、歌唱者がマイク４０を介し、歌唱区間Ｅ１のカラオケ演奏に合わせて歌詞「請求項」のうち「せ」、「い」、「きゅ」まで発声した後、本来「こ」を発声すべきタイミングにおいて「こ」の代わりに次の歌唱区間Ｅ２における歌詞「一に記載の」を発声したとする。この場合、音声処理部２００は、マイク４０からの信号を音声認識処理することにより、文字列「せ」、「い」、「きゅ」、「い」、「ち」、「に」、「き」、「さ」、「い」、「の」を抽出する。音声処理部２００は、抽出した各文字列の情報を判定部３００に出力する。

判定部３００は、楽曲Ｘの歌詞テロップデータをデータ記憶部１００から読み出し、特定された文字列と一致する文字列が含まれており、且つ歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間（ここでは７５０ｍｓｅｃとする）以上早いかどうかを判定する。

ここで、文字列「せ」、「い」、「きゅ」は楽曲Ｘの歌詞「請求項」の一部であるため、歌詞テロップデータに一致する文字列が含まれている。一方、歌唱者は楽曲Ｘのカラオケ演奏に合わせて文字列「せ」、「い」、「きゅ」を発声しているため、通常、音声の入力タイミングと、文字列「せ」、「い」、「きゅ」が発声されるべきタイミングとに大きなずれは生じない。すなわち、音声の入力タイミングが文字列「せ」、「い」「きゅ」が発声されるべきタイミングよりも所定時間以上早くなることは無い。

よって、判定部３００は、文字列「せ」、「い」、「きゅ」を含む音声がリードナレーションに対応する音声ではないと判定する。

一方、文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」は楽曲Ｘの歌唱区間Ｅ２における歌詞「一に記載の」であるため、歌詞テロップデータに一致する文字列が含まれている。一方、歌唱者は本来「こ」と発声すべきタイミングにおいて文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」を発声している。ここで、文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」の最初の文字「い」が入力されたタイミング（文字「こ」を発声すべきタイミング。図３のｏｆｆｓｅｔ＋１０００）は、文字「い」が本来発声されるべきタイミング（図３のｏｆｆｓｅｔ＋２０００）よりも１０００ｍｓｅｃ早い。すなわち、歌唱者の音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間以上早くなっている。

よって、判定部３００は、文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」を含む音声がリードナレーションに対応する音声であると判定する。

［放音処理部］
放音処理部４００は、入力された歌唱者の音声がリードナレーションに対応する音声であると判定された場合、特定された文字列の唱和を模擬した唱和音声をスピーカ２０から放音させる。

本実施形態において、放音処理部４００は、特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データをデータ記憶部１００から読み出し、カラオケ演奏に合わせて唱和音声を放音させる。

たとえば、上述の通り、文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」を含む音声がリードナレーションに対応する音声であると判定されたとする。この場合、放音処理部４００は、楽曲Ｘの唱和音声データのうち、楽曲Ｘの歌詞に含まれる文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」に対応する唱和音声データをデータ記憶部１００から読み出す。そして、放音処理部４００は、カラオケ演奏に合わせてスピーカ２０から「いちにきさいの」という唱和音声を放音させる。なお、唱和音声データは楽曲Ｘの全歌詞に対応しており、リードナレーションであると判定された文字列に対応する歌詞テロップデータの時間情報に基づいて自由に読み出すことができる。より具体的には、文字「い」が本来発声されるべきタイミング（図３のｏｆｆｓｅｔ＋２０００）に基づいて、対応する唱和音声データを読み出すことができる。

＝＝カラオケ装置における処理について＝＝
次に、図４を参照して本実施形態に係るカラオケ装置１における処理の具体例について述べる。図４は、カラオケ装置１における処理例を示すフローチャートである。この例では、歌唱者が選曲した楽曲Ｘのカラオケ歌唱を行う例について述べる。データ記憶部１００は、楽曲Ｘの歌詞テロップデータ及び楽曲Ｘの唱和音声データを記憶しているとする。

カラオケ装置１は、楽曲Ｘのカラオケ演奏を開始する（カラオケ演奏の開始。ステップ１０）。歌唱者は、カラオケ演奏が開始された後、音声を入力する。

音声処理部２００は、楽曲Ｘのカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理し、当該音声に含まれる文字列を特定する（音声認識処理による文字列の特定。ステップ１１）。

判定部３００は、楽曲Ｘの歌詞テロップデータ中に、ステップ１１で特定された文字列と一致する文字列が含まれているかどうか、及び歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間以上早いかどうかにより、入力された音声がリードナレーションに対応する音声かどうかを判定する。

入力された音声がリードナレーションに対応する音声であると判定された場合（ステップ１２でＹの場合）、放音処理部４００は、ステップ１１で特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データをデータ記憶部１００から読み出し、カラオケ演奏に合わせて唱和音声を放音させる（唱和音声を放音。ステップ１３）。

カラオケ装置１は、楽曲Ｘのカラオケ演奏が終了するまで（ステップ１４でＹの場合）、ステップ１１～ステップ１３の処理を繰り返し行う。

以上から明らかなように、本実施形態に係るカラオケ装置１は、楽曲のカラオケ演奏に合わせて歌詞テロップを表示するための歌詞テロップデータを記憶するデータ記憶部１００と、楽曲のカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理し、当該音声に含まれる文字列を特定する音声処理部２００と、特定された文字列と歌詞テロップデータとの比較結果に基づいて、音声がリードナレーションに対応する音声かどうかを判定する判定部３００と、音声がリードナレーションに対応する音声であると判定された場合、特定された文字列の唱和を模擬した唱和音声をスピーカ２０から放音させる放音処理部４００と、を有する。

このようなカラオケ装置１によれば、一人カラオケを行う歌唱者がリードナレーションを行うことにより、特定された文字列の唱和を模擬した唱和音声が放音される。よって、歌唱者は、あたかも聴衆からの反応があったかのように感じるため、気分よくカラオケ歌唱を行うことができる。すなわち、本実施形態に係るカラオケ装置１によれば、一人カラオケを行っている場合であっても、リードナレーションを楽しむことができる。

また、判定部３００は、歌詞テロップデータ中に、特定された文字列と一致する文字列が含まれており、且つ歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間以上早い場合、音声がリードナレーションに対応する音声であると判定する。このような処理を行うことにより、カラオケ演奏中に歌唱者がリードナレーションを行ったかどうかを正確に判定できる。

また、データ記憶部１００は、楽曲毎に予め設定されている唱和音声に対応する唱和音声データを記憶し、放音処理部４００は、特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データを読み出し、カラオケ演奏に合わせて唱和音声を放音させる。このように予め設定されている唱和音声データを利用することにより、簡易にリードナレーションに対する唱和音声を放音することができる。

＜第２実施形態＞
次に、第２実施形態に係るカラオケ装置について説明する。本実施形態では、唱和音声データを予め記憶しておく代わりに、都度、唱和音声データを生成する例について述べる。第１実施形態と同様の構成については詳細な説明を省略する。

［データ記憶部］
本実施形態に係るデータ記憶部１００は、歌詞テロップデータ及びリファレンスデータ（いずれも上述）を記憶する。

［放音処理部］
放音処理部４００は、歌詞テロップデータ及びリファレンスデータを利用して特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データを生成し、カラオケ演奏に合わせて唱和音声を放音させる。

たとえば、第１実施形態の例で述べた通り、文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」を含む音声がリードナレーションに対応する音声であると判定されたとする。この場合、放音処理部４００は、歌詞テロップデータから文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」に対応する各文字を読み出す。また、放音処理部４００は、リファレンスデータから文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」に対応する発声タイミング及びピッチを読み出す。なお、発声タイミングは歌詞テロップデータに基づいてもよい。

放音処理部４００は、読み出した各文字と発声タイミング及びピッチとに基づいて唱和音声データを生成する。このような音声合成処理は、公知の手法を用いることができる。
放音処理部４００は、カラオケ演奏に合わせてスピーカ２０から音声合成処理により得られた「いちにきさいの」という唱和音声を放音させる。

このように、本実施形態に係るデータ記憶部１００は、カラオケ歌唱を採点するためのリファレンスデータを記憶する。放音処理部４００は、歌詞テロップデータ及びリファレンスデータを利用して特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データを生成し、カラオケ演奏に合わせて唱和音声を放音させる。このように歌詞テロップデータ及びリファレンスデータを利用して唱和音声データを生成することにより、唱和音声データが作成されていない楽曲であってもリードナレーションを楽しむことができる。また、予め多くの唱和音声データを準備しておく必要が無いため、記憶部１３の記憶領域を節約することができる。

＜第３実施形態＞
次に、第３実施形態に係るカラオケ装置について説明する。本実施形態では、歌唱者がリードナレーションとして歌詞以外の文字列を発声した場合の例について述べる。第１実施形態または第２実施形態と同様の構成については詳細な説明を省略する。

［判定部］
判定部３００は、歌詞テロップデータ中に、特定された文字列に含まれる単語数及び音節数の少なくとも一方が所定割合以上一致する文字列が含まれており、且つ歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間以上早い場合、音声がリードナレーションに対応する音声であると判定する。

単語数は、文字列に含まれる単語の数である。たとえば、文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」の場合、「いち」、「に」、「きさい」、「の」の４つの単語が含まれる。音節数は、文字列に含まれる音節の数である。たとえば、文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」の場合、７つの音節が含まれる。所定割合は、歌唱者の音声がリードナレーションに対応する音声であるかどうかを判定するための値である。所定割合はたとえば、８５％、９０％である。所定割合は予め一の値が設定されている。

たとえば、歌唱者がマイク４０を介し、歌唱区間Ｅ１のカラオケ演奏に合わせて歌詞「請求項」のうち「せ」、「い」、「きゅ」まで発声した後、本来「こ」を発声すべきタイミングにおいて「こ」の代わりに楽曲Ｘの歌詞にはない即興で作った歌詞「三も拒絶で（さんもきょぜつで）」を発声したとする。この場合、音声処理部２００は、マイク４０からの信号を音声認識処理することにより、文字列「せ」、「い」、「きゅ」、「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」を抽出する。音声処理部２００は、抽出した各文字列の情報を判定部３００に出力する。

判定部３００は、楽曲Ｘの歌詞テロップデータをデータ記憶部１００から読み出し、特定された文字列に含まれる単語数及び音節数が所定割合以上一致する文字列が含まれており、且つ歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間（ここでは７５０ｍｓｅｃとする）以上早いかどうかを判定する。なお、判定部３００は、単語数また音節数のいずれか一方のみに基づいて判定してもよい。

ここで、文字列「せ」、「い」、「きゅ」は楽曲Ｘの歌詞「請求項」の一部であるため、単語数及び音節数のいずれも１００％一致する。一方、歌唱者は楽曲Ｘのカラオケ演奏に合わせて文字列「せ」、「い」、「きゅ」を発声しているため、通常、音声の入力タイミングと、文字列「せ」、「い」、「きゅ」が発声されるべきタイミングとに大きなずれは生じない。すなわち、音声の入力タイミングが文字列「せ」、「い」、「きゅ」が発声されるべきタイミングよりも所定時間以上早くなることは無い。

また、文字列「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」についても、歌詞テロップデータに一致する文字列が含まれていないので、本来の歌唱音声でもなければ、第１実施形態や第２実施形態で判定したようなリードナレーションにも相当しない。一方、文字列「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」は、単語数が４つ（「さん」、「も」、「きょぜつ」、「で」）、音節数が７つである。ここで、歌詞テロップデータには、一小節分の歌詞で単語数が４つ（「いち」、「に」、「きさい」、「の」）であり、音節数が７つ（「い」、「ち」、「に」、「き」、「さ」、「い」、「の」）である歌詞「一に記載の」が含まれている。すなわち、文字列「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」と単語数及び音節数のいずれも１００％一致する文字例「い」、「ち」、「に」、「き」、「さ」、「い」、「の」が歌詞テロップデータに含まれている。また、歌唱者は本来「こ」と発声すべきタイミングにおいて文字列「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」を発声している。ここで、文字列「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」の最初の文字「さ」が入力されたタイミング（文字「こ」を発声すべきタイミング。図３のｏｆｆｓｅｔ＋１０００）は、単語数及び音節数のいずれも１００％一致した文字例「い」、「ち」、「に」、「き」、「さ」、「い」、「の」の最初の文字「い」が本来発声されるべきタイミング（図３のｏｆｆｓｅｔ＋２０００）よりも１０００ｍｓｅｃ早い。すなわち、歌唱者の音声の入力タイミングが、単語数及び音節数のいずれも１００％一致する文字列の発声タイミングよりも所定時間以上早くなっている。

よって、判定部３００は、文字列「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」を含む音声がリードナレーションに対応する音声であると判定する。

［放音処理部］
放音処理部４００は、特定された文字列及びリファレンスデータを利用して特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データを生成し、カラオケ演奏に合わせて唱和音声を放音させる。

たとえば、文字列「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」を含む音声がリードナレーションに対応する音声であると判定されたとする。この場合、放音処理部４００は、入力された歌唱者の音声から抽出された文字列「さ」、「ん」、「も」、「きょ」、「ぜ」、「つ」、「で」と、リファレンスデータから読み出した文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」に対応する発声タイミング及びピッチとに基づいて唱和音声データを生成する。

放音処理部４００は、カラオケ演奏に合わせてスピーカ２０から音声合成処理により得られた「さんもきょぜつで」という唱和音声を放音させる。

このように、本実施形態に係るデータ記憶部１００は、カラオケ歌唱を採点するためのリファレンスデータを記憶する。判定部３００は、歌詞テロップデータ中に、特定された文字列に含まれる単語数及び音節数の少なくとも一方が所定割合以上一致する文字列が含まれており、且つ歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間以上早い場合、音声がリードナレーションに対応する音声であると判定する。放音処理部４００は、特定された文字列及びリファレンスデータを利用して特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データを生成し、カラオケ演奏に合わせて唱和音声を放音させる。このようなカラオケ装置１によれば、楽曲の歌詞には無い文字列や楽曲の歌詞を一部変更した即興のリードナレーションを行った場合であっても、リードナレーションに対応した唱和を模擬した唱和音声を放音することができる。

＜その他＞
上記実施形態で説明した歌唱区間Ｅ１のように、文字「こ」のような短い歌詞で終わる歌唱区間については、「こ」の後に続けて文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」を発声することも可能である。このような場合、所定時間を短く設定することにより、判定部３００は、文字列「い」、「ち」、「に」、「き」、「さ」、「い」、「の」の音声をリードナレーションに対応する音声として判定することができる。

また、上記実施形態では、歌唱者の音声の入力タイミングが、文字列が発声されるべきタイミングよりも所定時間以上早いかどうかによりリードナレーションの判定を行っているがこれに限られない。たとえば、判定部３００は、文字列が本来発声されるべきタイミング（歌詞テロップデータに基づいて決定されるタイミング）より所定の範囲内（たとえば１２５０ｍｓｅｃ～７５０ｍｓｅｃ）で早いかどうかを判定してもよい。

上記実施形態は、例として提示したものであり、発明の範囲を限定するものではない。上記の構成は、適宜組み合わせて実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１カラオケ装置
１０カラオケ本体
１１制御部
１００データ記憶部
２００音声処理部
３００判定部
４００放音処理部

Claims

楽曲のカラオケ演奏に合わせて歌詞テロップを表示するための歌詞テロップデータを記憶するデータ記憶部と、
楽曲のカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理し、当該音声に含まれる文字列を特定する音声処理部と、
特定された前記文字列と前記歌詞テロップデータとの比較結果に基づいて、前記音声がリードナレーションに対応する音声かどうかを判定する判定部と、
前記音声がリードナレーションに対応する音声であると判定された場合、前記特定された文字列の唱和を模擬した唱和音声を放音手段から放音させる放音処理部と、
を有するカラオケ装置。
前記判定部は、前記歌詞テロップデータ中に、前記特定された文字列と一致する文字列が含まれており、且つ前記歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間以上早い場合、前記音声がリードナレーションに対応する音声であると判定することを特徴とする請求項１記載のカラオケ装置。
前記データ記憶部は、楽曲毎に予め設定されている唱和音声に対応する唱和音声データを記憶し、
前記放音処理部は、前記特定された文字列の唱和を模擬した唱和音声に対応する前記唱和音声データを読み出し、カラオケ演奏に合わせて唱和音声を放音させることを特徴とする請求項１または２記載のカラオケ装置。
前記データ記憶部は、カラオケ歌唱を採点するためのリファレンスデータを記憶し、
前記放音処理部は、前記歌詞テロップデータ及び前記リファレンスデータを利用して前記特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データを生成し、カラオケ演奏に合わせて唱和音声を放音させることを特徴とする請求項１または２記載のカラオケ装置。
前記データ記憶部は、カラオケ歌唱を採点するためのリファレンスデータを記憶し、
前記判定部は、前記歌詞テロップデータ中に、前記特定された文字列に含まれる単語数及び音節数の少なくとも一方が所定割合以上一致する文字列が含まれており、且つ前記歌唱者による当該特定された文字列に対応する音声の入力タイミングが、当該文字列が発声されるべきタイミングよりも所定時間以上早い場合、前記音声がリードナレーションに対応する音声であると判定し、
前記放音処理部は、前記特定された文字列及び前記リファレンスデータを利用して前記特定された文字列の唱和を模擬した唱和音声に対応する唱和音声データを生成し、カラオケ演奏に合わせて唱和音声を放音させることを特徴とする請求項１記載のカラオケ装置。