JP2022130930A

JP2022130930A - カラオケ装置

Info

Publication number: JP2022130930A
Application number: JP2021029588A
Authority: JP
Inventors: 英雄関森; Hideo Sekimori
Original assignee: Daiichikosho Co Ltd
Current assignee: Daiichikosho Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-09-07

Abstract

【課題】歌唱者自身が語ったナレーションの内容を歌唱者の歌唱評価に反映させる。【解決手段】カラオケ装置（１０）は、楽曲演奏前の所定時間内の音声入力に応じてナレーション音声が入力されたか否かを判定する判定手段（２２）と、ナレーション音声が入力された場合に、音声認識処理によってナレーション音声からワードを特定する特定手段（２３）と、特定手段に特定されたワードと所定ワードとの比較結果に基づいてナレーション音声を評価するナレーション評価手段（２４）と、ナレーション音声の終了を検知することで楽曲の演奏を開始する演奏手段（２５）と、歌唱音声の音高と楽曲のリファレンスデータに含まれるノートの音高との比較結果に基づいて歌唱音声を評価する歌唱評価手段（２６）と、ナレーション音声の評価と歌唱音声の評価に基づいて総合評価を表示する表示手段（２７）と、を備えている。【選択図】図２

Description

本発明は、カラオケ装置に関する。

カラオケ装置の利用場面では、予約楽曲の歌唱前に司会者のナレーションが入ることによって、歌唱ショーのような臨場感が醸し出されて歌唱者の歌唱意欲が高められる。このため、カラオケ装置として、予約楽曲の演奏前にナレーションを自動的に入れるものが提案されている（例えば、特許文献１参照）。特許文献１に記載のカラオケ装置には、演奏内容に応じたナレーションの音声データが記憶されている。演奏開始前に予約楽曲に付与されたジャンル等の属性情報から歌唱内容が分析され、予約楽曲に最適なナレーションが選択されて再生されている。

特開平１１－１６７３８８号公報

ところで、歌唱前に歌唱者自身が楽曲の説明等のナレーションを行うことがある。このナレーションの上手さによっては、ライブのような臨場感が得られ、曲調や歌詞情報が事前に同席者に伝わって雰囲気が盛り上がる。このため、歌唱力を評価するだけではなく、歌唱者のナレーションの技量も評価することが望ましい。

本発明の目的は、歌唱者自身が語ったナレーションの内容を歌唱者の歌唱評価に反映させることができるカラオケ装置を提供することである。

上記目的を達成するための主たる発明は、楽曲演奏前の所定時間内の音声入力に応じてナレーション音声が入力されたか否かを判定する判定手段と、ナレーション音声が入力された場合に、音声認識処理によってナレーション音声からワードを特定する特定手段と、前記特定手段に特定されたワードと所定ワードとの比較結果に基づいてナレーション音声を評価するナレーション評価手段と、ナレーション音声の終了を検知することで楽曲の演奏を開始する演奏手段と、歌唱音声の音高と楽曲のリファレンスデータに含まれるノートの音高との比較結果に基づいて歌唱音声を評価する歌唱評価手段と、ナレーション音声の評価と歌唱音声の評価に基づいて総合評価を表示する表示手段と、を備えているカラオケ装置である。

本発明によれば、楽曲演奏前に音声入力された場合に歌唱者によるナレーション音声の入力と判定され、ナレーション音声から特定されたワードと所定ワードからナレーション音声の内容が評価される。また、歌唱者の歌唱音声の音高と楽曲のノートの音高から歌唱音声が評価される。そして、ナレーション音声の評価と歌唱音声の評価から総合評価が求められる。よって、歌唱者の歌唱力だけでなく、歌唱者が語ったナレーションの内容も考慮してカラオケ歌唱を総合的に評価することができる。

第１実施形態のカラオケ装置の構成図である。第１実施形態のカラオケ装置の機能ブロック図である。第１実施形態のカラオケ装置の処理動作の一例を示すフロー図である。第３実施形態のカラオケ装置の機能ブロック図である。ナレーション履歴、適正時間テーブル、評価テーブルの一例を示す図である。第３実施形態のカラオケ装置の処理動作の一例を示すフロー図である。

＜第１実施形態＞
図１及び図２を参照して、第１実施形態のカラオケ装置について説明する。図１は、第１実施形態のカラオケ装置の構成図である。図２は、第１実施形態のカラオケ装置の機能ブロック図である。なお、図２の機能ブロック図には、説明の便宜上、特定処理を実現するための機能ブロックを図示しているが、カラオケ装置が通常備える構成については備えているものとする。

図１に示すように、カラオケ装置１０には、装置本体１１と、モニタ１２と、スピーカ１３と、マイクロフォン１４と、リモコン装置１５と、が設けられている。モニタ１２は、装置本体１１からの映像信号等に基づいて背景映像と共に歌詞テロップ等を表示する。マイクロフォン１４は、歌唱音声を歌唱音声信号に変換して装置本体１１に入力する。スピーカ１３は、装置本体１１からの演奏音信号及びマイクロフォン１４からの歌唱音声信号に基づいて演奏音と共に歌唱音声を放音する。リモコン装置１５は、装置本体１１に対する楽曲予約等の利用者による各種操作を受け付けている。

装置本体１１によってカラオケ演奏が開始されると、カラオケ演奏に合わせて歌詞テロップと背景映像がモニタ１２に表示される。装置本体１１ではカラオケ演奏の演奏音信号とマイクロフォン１４から入力された歌唱音声信号がミキサによってミキシングされて、このミキシング信号がアンプによって増幅されてスピーカ１３から放音される。このように、歌唱者がカラオケ演奏に合わせて歌唱すると、スピーカ１３から演奏音と共に歌唱音声が放音される。また、装置本体１１によって歌唱者の歌唱力等が評価されて、歌唱者の評価結果がモニタ１２に表示される。

図２に示すように、装置本体１１は、歌唱者の歌唱力を評価するだけでなく、歌唱者自身のナレーションの技量を評価するように構成されている。装置本体１１には、記憶手段２１と、判定手段２２と、特定手段２３と、ナレーション評価手段２４と、演奏手段２５と、歌唱評価手段２６と、表示手段２７と、が設けられている。記憶手段２１には、楽曲ＩＤ毎に楽曲データ等のカラオケ歌唱に関する各種データが記憶されている。楽曲データには、演奏音の元になる演奏データ、歌唱音声の評価基準となるリファレンスデータ、歌詞テロップの元になると共にナレーション音声の評価基準になる歌詞データが含まれている。

判定手段２２は、楽曲演奏前の所定時間内の音声入力に応じてナレーション音声が入力されたか否かを判定する。具体的には、演奏手段２５によって楽曲の演奏が終了してから所定時間（例えば、１０秒）が経過するまで次の予約楽曲の演奏が待機される。この待機中の所定時間内にマイクロフォン１４から判定手段２２に音声信号が入力された場合には、判定手段２２によってナレーション音声の入力有りと判定される。マイクロフォン１４から判定手段２２に音声信号が入力されずに所定時間が経過した場合には、判定手段２２によってナレーション音声の入力無しと判定される。

特定手段２３は、ナレーション音声が入力された場合に、音声認識処理によってナレーション音声からワードを特定する。具体的には、ナレーション音声の入力有りと判定された時点から、マイクロフォン１４から出力された音声信号に音声認識処理が施されることで音声信号がテキスト化される。これにより、歌唱者のナレーション音声に応じたテキストデータが生成され、自然言語解析（形態素解析）によってテキストデータが品詞分解されて「愛しい」、「悲しい」等のワードが特定される。なお、音声認識処理及び自然言語解析には公知の技術を用いることができる。

ナレーション評価手段２４は、特定手段２３に特定されたワードと楽曲の歌詞データに含まれる所定ワードとの比較結果に基づいてナレーション音声を評価する。具体的には、ナレーション評価手段２４によって記憶手段２１から楽曲データ内の歌詞データが読み出され、ナレーション音声から特定されたワードと歌詞データ内の所定ワードとが比較される。歌詞データ内に「愛しい」、「悲しい」等のワードが含まれていた場合には、歌詞データに含まれたワード数がカウントされることでナレーション音声が評価される。例えば、ワード数が１２であれば１２点がナレーション音声の評価として算出される。

演奏手段２５は、ナレーション音声の終了を検知することで、演奏待ちの次の予約楽曲の演奏を開始する。具体的には、カラオケ装置１０やリモコン装置１５からの演奏開始の指示コマンドが入力されたり、「それでは聞いて下さい」等の特定フレーズが音声入力されたりした場合に、演奏手段２５によってナレーション音声の終了が検知される。そして、演奏手段２５によって記憶手段２１から楽曲データ内の演奏データが読み出されて再生される。なお、判定手段２２にナレーション音声の入力無しと判定された場合には、自動的に演奏待ちの次の予約楽曲の演奏が開始される。

歌唱評価手段２６は、歌唱音声の音高と楽曲のリファレンスデータに含まれるノートの音高との比較結果に基づいて歌唱音声を評価する。具体的には、歌唱評価手段２６によって記憶手段２１から楽曲データ内のリファレンスデータが読み出され、マイクロフォン１４から歌唱評価手段２６に歌唱者の歌唱音声信号が入力される。リファレンスデータの各ノートのノートオン期間で歌唱音声の音高とノートの音高が比較され、歌唱音声の音高とノートの音高の一致度に応じて、当該ノートに対する歌唱音声の合格・不合格が判定されて音高正確性を示す歌唱評価が行われる。

より詳細には、特開２００５－０４９４１０の記載の通り、サンプルタイミング毎（例えば、２０ミリ秒毎）に歌唱周波数とリファレンス周波数が比較され、歌唱周波数とリファレンス周波数の差分（セント値）が算出される。ノートオン期間に差分が許容範囲内（例えば、±５０セント以内）に入った回数が所定回数以上（例えば、１回以上）のノートは合格ノートと判定される。ノートオン期間に差分が許容範囲内に入った回数が所定回数未満のノートは不合格ノートと判定される。そして、歌唱すべき全ノート数が１２８であり、合格ノート数が９６であれば７５点が歌唱音声の評価として算出される。

表示手段２７は、ナレーション音声の評価と歌唱音声の評価に基づいて総合評価を表示する。例えば、ナレーション評価手段２４によるナレーション音声の評価が１２点であり、歌唱評価手段２６による歌唱音声の評価が７５点である場合には、ナレーション音声の評価と歌唱音声の評価が加算されて８７点が総合評価としてモニタ１２に表示される。これにより、歌唱者自身が語ったナレーションの内容を歌唱者の歌唱評価に反映させることができる。なお、表示手段２７による総合評価の算出方法は、ナレーション音声の評価と歌唱音声の評価を加算して求める方法に限定されない。

ナレーション評価手段２４にカウントされたワード数から所定数が減算されてナレーション音声が評価され、このナレーション音声の評価と歌唱音声の評価が加算されて総合評価が求められてもよい。例えば、所定数として５が設定されており、ナレーション評価手段２４にカウントされたワード数が１であるときには－４点がナレーション音声の評価として算出され、歌唱音声の評価の７５点に－４点が加算されて７１点が総合評価として算出される。これにより、歌唱者が語ったナレーションの内容が歌唱予定の楽曲に合わないときには総合評価が低くなる。判定手段２２にナレーション音声の入力無しと判定された場合には、表示手段２７は歌唱評価手段２６の評価結果のみに基づいて総合評価をモニタ１２に表示させる。

なお、カラオケ装置１０の各処理は、プロセッサを用いてソフトウェアによって実現されてもよいし、集積回路等に形成された論理回路（ハードウェア）によって実現されてもよい。プロセッサを用いる場合には、プロセッサがメモリに記憶されているプログラムを読み出して実行することで各種処理が実施される。プロセッサとしては、例えば、ＣＰＵ（Central Processing Unit）が使用される。また、メモリは、用途に応じてＲＯＭ(Read Only Memory)、ＲＡＭ（Random Access Memory）等の一つ又は複数の記憶媒体によって構成されている。

図３を参照して、第１実施形態のカラオケ装置の処理動作について説明する。図３は、第１実施形態のカラオケ装置の処理動作の一例を示すフロー図である。なお、ここでは、図２の符号を適宜使用して説明する。また、以下のフローは一例に過ぎず、特にナレーション音声の評価処理及び歌唱音声の評価処理の実施タイミングは適宜変更が可能である。

図３に示すように、先行の楽曲演奏が終了すると、後続の楽曲演奏の開始前の所定時間内に判定手段２２によって歌唱者の音声入力の有無が監視される（ステップＳ０１）。音声入力がなかった場合には（ステップＳ０１でＮｏ）、判定手段２２によってナレーション音声の入力無しと判定されてステップＳ０４に処理が移行する。音声入力があった場合には（ステップＳ０１でＹｅｓ）、判定手段２２によってナレーション音声の入力有りと判定される。特定手段２３によってナレーション音声に音声認識処理等が施され、ナレーション音声に応じたテキストデータからワードが特定される（ステップＳ０２）。

次に、演奏手段２５によってナレーション音声の終了が検知されると（ステップＳ０３でＹｅｓ）、演奏手段２５によって楽曲のカラオケ演奏が開始される（ステップＳ０４）。ナレーション音声の終了は、カラオケ装置１０又はリモコン装置１５からの演奏開始の指示コマンド又は歌唱者による演奏開始の指示が音声入力されたときに検知される。カラオケ演奏が開始されると、ナレーション評価手段２４によるナレーション音声の評価処理と歌唱評価手段２６による歌唱音声の評価処理が並行して実施される。ただし、判定手段２２によってナレーション音声の入力無しと判定された場合には歌唱音声の評価処理のみが実施される。

ナレーション音声の評価処理では、ナレーション評価手段２４によって記憶手段２１から楽曲の歌詞データが読み出され、特定手段２３に特定されたワードと一致する歌詞データ内の所定ワードのワード数がカウントされてナレーション音声が評価される（ステップＳ０５）。歌唱音声の評価処理では、歌唱評価手段２６によって記憶手段２１から楽曲のリファレンスデータが読み出され、リファレンスデータのノートの音高と歌唱音声の音高との比較結果に基づいて歌唱音声が評価される（ステップＳ０６）。そして、演奏手段２５によるカラオケ演奏が終了すると（ステップＳ０７でＹｅｓ）、表示手段２７によってナレーション音声の評価と歌唱音声の評価に基づいて総合評価がモニタ１２に表示される（ステップＳ０８）。

以上、第１実施形態によれば、楽曲演奏前に歌唱者による音声入力された場合にナレーション音声の入力と判定され、ナレーション音声から特定されたワードと歌詞データ内の所定ワードが比較される。これにより、ナレーションの内容が歌詞の内容に合っているか否かによってナレーション音声が評価される。また、歌唱者の歌唱音声の音高と楽曲のノートの音高から歌唱音声が評価される。そして、ナレーション音声の評価と歌唱音声の評価から総合評価が求められる。よって、歌唱者の歌唱力だけでなく、歌唱者が語ったナレーションの内容も考慮してカラオケ歌唱を総合的に評価され、ナレーションの内容を歌唱評価に反映させることができる。

＜第２実施形態＞
次に、第２実施形態のカラオケ装置について説明する。第２実施形態のカラオケ装置は、ナレーションの内容が曲調に合っているか否かに基づいてナレーション音声を評価する点で第１実施形態のカラオケ装置と相違している。したがって、第２実施形態については第１実施形態と同様な構成については説明を省略する。また、ここでは、図２の符号を適宜使用して説明する。

第２実施形態のカラオケ装置１０の記憶手段２１には、上記したように楽曲ＩＤ毎に楽曲データが記憶されている。この楽曲データには、演奏データ、リファレンスデータ、歌詞データの他にも、ナレーション音声の評価基準になる楽曲の曲調を表現した所定ワードが含まれている。すなわち、第２実施形態では歌詞データに含まれる所定ワードの代わりに、楽曲の曲調を表現した所定ワードがナレーション音声の評価処理に使用されている。この場合、楽曲のメロディ、コード、音高、テンポ、音数等に基づいて曲調を表現した所定ワードが設定される。

例えば、メジャーキーのメロディやコード、高音を多く含んだり、親しみやすい音階を含んだりする楽曲データには「明るい」、「賑やか」、「楽しい」等の所定ワードが含まれている。マイナーキーのメロディやコード、低音を多く含んだり、怪しげな音階を含んだりする楽曲データには「暗い」、「寂しい」、「辛い」等の所定ワードが含まれている。テンポが速かったり、音の使用数が多かったりする楽曲データには「慌しい」、「激しい」等の所定ワードが含まれ、テンポが遅かったり、音の使用数が少なかったりする楽曲データには「のどか」、「穏やか」等の所定ワードが含まれている。

なお、楽曲データには、楽曲の曲調を表現した所定ワードが含まれていなくてもよい。この場合、テンポ範囲に所定ワードが対応付けられたテーブルが用意されていてもよい。例えば、テンポ１５０～１８０には「疾走」、「スピード」等の所定ワードが対応付けられていてもよい。また、楽曲のマイナーコードとメジャーコードの割合に所定ワードが対応付けられたテーブルが用意されていてもよい。例えば、マイナーコード２：メジャーコード８には、「楽しい」、「爽やか」等の所定ワードが対応付けられていてもよい。そして、楽曲データのテンポやコード構成に基づいてテーブルから所定ワードが抽出されてもよい。

ナレーション評価手段２４は、特定手段２３に特定されたワードと楽曲の曲調を表現した所定ワードとの比較結果に基づいてナレーション音声を評価する。具体的には、ナレーション音声から特定された「愛しい」、「悲しい」等のワードと楽曲の曲調を表現した所定ワードとが比較される。楽曲の曲調を表現した所定ワードに、「愛しい」、「悲しい」等のワードが含まれていた場合には、このワード数がカウントされることでナレーション音声が評価される。例えば、ワード数が１２であれば１２点がナレーション音声の評価として算出される。

以上、第２実施形態によれば、ナレーション音声から特定されたワードと楽曲の曲調を表現した所定ワードが比較される。これにより、ナレーションの内容が曲調に合っているか否かによってナレーション音声が評価される。このナレーションの評価を歌唱評価に反映させてカラオケ歌唱を総合的に評価することができる。

＜第３実施形態＞
次に、図４及び図５を参照して、第３実施形態のカラオケ装置について説明する。図４は、第３実施形態のカラオケ装置の機能ブロック図である。図５は、ナレーション履歴、適正時間テーブル、評価テーブルの一例を示す図である。第３実施形態のカラオケ装置は、歌唱音声の評価、ナレーション音声の評価に加えて、ナレーション時間を評価する点で第１実施形態のカラオケ装置と相違している。したがって、第３実施形態については第１実施形態と同様な構成については説明を省略する。

図４に示すように、第３実施形態のカラオケ装置３０には、第１実施形態のカラオケ装置１０と同様に、装置本体３１と、モニタ３２と、スピーカ３３と、マイクロフォン３４と、リモコン装置３５と、が設けられている。装置本体３１には、記憶手段４１と、判定手段４２と、特定手段４３と、ナレーション評価手段４４と、演奏手段４５と、歌唱評価手段４６と、表示手段４７と、が設けられている。さらに、装置本体３１には、生成手段４８と、設定手段４９と、計測手段５１と、ナレーション時間評価手段５２と、が設けられている。さらに装置本体３１には、後述するナレーション履歴、適正時間テーブル、評価テーブルが記憶されている。

生成手段４８は、判定手段４２の判定結果に基づいてナレーション音声の入力の有無情報を楽曲の演奏順に生成する。具体的には、生成手段４８によって判定手段４２の判定結果が演奏順序に対応付けられてナレーション履歴が生成される。楽曲の演奏前に判定手段４２によってナレーション音声の入力有りと判定されると、生成手段４８によって当該楽曲の演奏順序に有無情報として「有り」が対応付けられる。楽曲の演奏前に判定手段４２によってナレーション音声の入力無しと判定されると、生成手段４８によって当該楽曲の演奏順序に有無情報として「無し」が対応付けられる。

例えば、図５（Ａ）に示すナレーション履歴には、現在の楽曲を基準にして何曲前に演奏された楽曲であるかを示す演奏順序と、各楽曲に対するナレーション音声の入力の有無情報とが対応付けられている。現在までに既に３曲の歌唱が行われており、１曲前及び２曲前の歌唱ではナレーション音声の入力が有りと判定され、３曲前の歌唱ではナレーション音声の入力が無しと判定されている。なお、ナレーション履歴は、現在までに演奏された全ての楽曲について生成されてもよいし、現在の楽曲を基準にして所定数曲前（例えば、５曲前）までの楽曲について更新されながら生成されてもよい。

設定手段４９は、生成手段４８に生成された有無情報に基づいてナレーション音声の適正時間を設定する。具体的には、楽曲の演奏開始前に、設定手段４９によって適正時間テーブルが参照されることでナレーション音声の適正時間が設定される。適正時間テーブルには、現在の楽曲を基準にして２曲前までのナレーション音声の入力の有無の組み合わせとナレーション適正時間が対応付けられている。このため、設定手段４９によってナレーション履歴の２曲前までの有無情報と適正時間テーブルから、現在の楽曲に対するナレーション音声の適正時間が設定される。

例えば、図５（Ｂ）に示す適正時間テーブルでは、２曲前及び１曲前のナレーションの組み合わせ「無し」、「無し」には、ナレーション適正時間６０秒が対応付けられている。２曲前及び１曲前のナレーションの組み合わせ「有り」、「無し」には、ナレーション適正時間４０秒が対応付けられている。２曲前及び１曲前のナレーションの組み合わせ「無し」、「有り」には、ナレーション適正時間２０秒が対応付けられている。２曲前及び１曲前のナレーションの組み合わせ「有り」、「有り」には、ナレーション適正時間０秒が対応付けられている。

２曲連続してナレーションが無かった場合には、同席者が休憩したい状況であるからナレーション適正時間が長めに設定されてもよい。また、２曲連続してナレーションが有った場合には、同席者がナレーションを鬱陶しいと感じている状況であるからナレーション適正時間が短めに設定されてもよい。ここで、ナレーション履歴の２曲前、１曲前のナレーション音声の有無情報が「無し」、「有り」の組み合わせであった場合には、設定手段４９によって適正時間テーブルが参照されて、ナレーション適正時間として２０秒が設定される。

計測手段５１は、ナレーション音声の入力開始から楽曲の演奏開始までのナレーション実時間を計測する。具体的には、判定手段４２によってナレーション音声の入力有りと判定されてから演奏手段４５によって演奏が開始されるまでのナレーション実時間が計測される。なお、ナレーション適正時間に基づいて最長ナレーション実時間が設定され、ナレーション音声の入力の終了が検知される前に、最長ナレーション実時間が経過したときに演奏手段４５によって楽曲の演奏が開始されてもよい。この場合には、計測手段５１によって最長ナレーション実時間がナレーション実時間として計測される。

ナレーション時間評価手段５２は、ナレーション実時間とナレーション適正時間との比較結果に基づいてナレーション時間を評価する。具体的には、ナレーション時間評価手段５２によって評価テーブルが参照されることでナレーション時間が評価される。評価テーブルには、ナレーション適正時間に対するナレーション実時間の乖離率（誤差率）に評価値が対応付けられている。このため、ナレーション適正時間に対するナレーション実時間の乖離率が求められ、ナレーション実時間の乖離率と評価テーブルからナレーション時間が評価される。

例えば、図５（Ｃ）に示す評価テーブルでは、乖離率「１０％未満」には評価値「＋５」が対応付けられ、乖離率「１０％以上２０％未満」には評価値「＋２」が対応付けられている。乖離率「２０％以上３０％未満」には評価値「０」が対応付けられ、乖離率「３０％未満」には評価値「－５」が対応付けられている。ここで、ナレーション適正時間が６０秒、ナレーション実時間が５２秒である場合には、乖離率が約１３％になることからナレーション評価手段４４によって評価値が＋２と評価される。なお、乖離率は、（ナレーション適正時間－ナレーション実時間）／ナレーション適正時間×１００で求められる。

表示手段４７は、ナレーション音声の評価とナレーション時間の評価と歌唱音声の評価に基づいて総合評価を表示する。例えば、ナレーション評価手段４４によるナレーション音声の評価が８点であり、ナレーション時間評価手段５２によるナレーション時間の評価が－５点であり、歌唱評価手段４６による歌唱音声の評価が８２点である場合には、それぞれを加算した８５点が総合評価としてモニタ３２に表示される。これにより、歌唱者自身が語ったナレーションの内容、場の雰囲気を考慮したナレーションの長さを歌唱者の歌唱評価に反映させることができる。

図６を参照して、第３実施形態のカラオケ装置の処理動作について説明する。図６は、第３実施形態のカラオケ装置の処理動作の一例を示すフロー図である。なお、ここでは、図４の符号を適宜使用して説明する。また、カラオケ装置には、既に過去数回の演奏に対するナレーション履歴が生成されているものとする。さらに、以下のフローは一例に過ぎず、特にナレーション音声の評価処理、ナレーション時間の評価処理、歌唱音声の評価処理の実施タイミングは適宜変更が可能である。

図６に示すように、先行の楽曲演奏が終了すると、後続の楽曲演奏の開始前の所定時間内に判定手段４２によって歌唱者の音声入力の有無が監視される（ステップＳ１１）。音声入力がなかった場合には（ステップＳ１１でＮｏ）、判定手段４２によってナレーション音声の入力無しと判定されてステップＳ１５に処理が移行する。音声入力があった場合には（ステップＳ１１でＹｅｓ）、判定手段４２によってナレーション音声の入力有りと判定されて、計測手段５１によって判定直後からナレーション実時間の計測が開始される（ステップＳ１２）。

次に、特定手段４３によってナレーション音声に音声認識処理等が施され、ナレーション音声に応じたテキストデータからワードが特定される（ステップＳ１３）。次に、演奏手段４５によってナレーション音声の終了が検知されると（ステップＳ１４でＹｅｓ）、計測手段５１によるナレーション実時間の計測が終了されると共に、演奏手段４５によって楽曲のカラオケ演奏が開始される（ステップＳ１５）。ナレーション音声の終了は、カラオケ装置３０又はリモコン装置３５からの演奏開始の指示コマンド又は歌唱者による演奏開始の指示が音声入力されたときに検知される。

カラオケ演奏が開始されると、ナレーション評価手段４４によるナレーション音声の評価処理、歌唱評価手段４６による歌唱音声の評価処理、ナレーション時間評価手段５２によるナレーション時間の評価処理が並行して実施される。ただし、判定手段４２によってナレーション音声の入力無しと判定された場合には歌唱音声の評価処理のみが実施される。なお、この評価処理のタイミングで、さらに後続の楽曲演奏時にナレーション時間を評価するために、生成手段４８によって今回の楽曲に対するナレーション履歴（ナレーション音声の入力の有無情報）が生成されてもよい。

ナレーション音声の評価処理では、ナレーション評価手段４４によって記憶手段４１から楽曲の歌詞データが読み出され、特定手段４３に特定されたワードと一致する歌詞データ内の所定ワードのワード数がカウントされてナレーション音声が評価される（ステップＳ１６）。歌唱音声の評価処理では、歌唱評価手段４６によって記憶手段４１から楽曲のリファレンスデータが読み出され、リファレンスデータのノートの音高と歌唱音声の音高との比較結果に基づいて歌唱音声が評価される（ステップＳ１７）。

ナレーション時間の評価処理では、ナレーション時間評価手段５２によってナレーション履歴から２曲前及び１曲前のナレーション音声の有無情報が読み出され、適正時間テーブルから楽曲に対するナレーション音声の適正時間が設定される（ステップＳ１８）。次に、ナレーション時間評価手段５２によってナレーション適正時間に対するナレーション実時間の乖離率が求められ、ナレーション実時間の乖離率と評価テーブルからナレーション時間が評価される（ステップＳ１９）。そして、演奏手段４５によるカラオケ演奏が終了すると（ステップＳ２０でＹｅｓ）、表示手段４７によってナレーション音声の評価、歌唱音声の評価、ナレーション時間の評価に基づいて総合評価がモニタ３２に表示される（ステップＳ２１）。

以上、第３実施形態によれば、楽曲の演奏順にナレーション音声の有無を示したナレーション履歴に基づいて、場の雰囲気に合ったナレーション音声の適正時間が求められ、ナレーション音声の実時間と適正時間からナレーションの適正な長さが評価される。歌唱者が語ったナレーションの内容やナレーションの適正な長さ歌唱評価に反映させてカラオケ歌唱を総合的に評価することができる。

なお、ナレーション評価手段は、特定手段に特定されたワードと所定ワードとの比較結果に基づいてナレーション音声を評価する方法であれば評価方法は特に限定されない。例えば、ナレーション評価手段は、特定手段に特定されたワードと楽曲の歌詞データに含まれる所定ワードとの比較結果、特定手段に特定されたワードと楽曲の曲調を表現した所定ワードとの比較結果を組み合わせてナレーション音声を評価してもよい。これにより、歌唱者本人が語ったナレーションの内容をより詳細に評価することができる。

また、表示手段は、ナレーション音声の評価、ナレーション時間の評価、歌唱音声の評価を個別に表示してもよい。これにより、歌唱者がナレーションの内容が適切であったか、場の雰囲気を考慮したナレーションであったかを把握することができる。

また、各実施形態及び各変形例において、カラオケ装置にプログラムをインストールすることによって、カラオケ装置に対してナレーション音声及び／又はナレーション時間の評価機能がカラオケ装置に追加されてもよい。このプログラムは記憶媒体に記憶されている。記憶媒体は特に限定されないが、光ディスク、光磁気ディスク、フラッシュメモリ等の非一過性の記憶媒体であってもよい。

また、本実施形態を説明したが、他の実施形態として、上記実施形態及び変形例を全体的又は部分的に組み合わせたものでもよい。

また、本発明の技術は上記の実施形態に限定されるものではなく、技術的思想の趣旨を逸脱しない範囲において様々に変更、置換、変形されてもよい。さらには、技術の進歩又は派生する別技術によって、技術的思想を別の仕方によって実現することができれば、その方法を用いて実施されてもよい。したがって、特許請求の範囲は、技術的思想の範囲内に含まれ得る全ての実施態様をカバーしている。

１０、３０：カラオケ装置
２２、４２：判定手段
２３、４３：特定手段
２４、４４：ナレーション評価手段
２５、４５：演奏手段
２６、４６：歌唱評価手段
２７、４７：表示手段
４８：生成手段
４９：設定手段
５１：計測手段
５２：ナレーション時間評価手段

Claims

楽曲演奏前の所定時間内の音声入力に応じてナレーション音声が入力されたか否かを判定する判定手段と、
ナレーション音声が入力された場合に、音声認識処理によってナレーション音声からワードを特定する特定手段と、
前記特定手段に特定されたワードと所定ワードとの比較結果に基づいてナレーション音声を評価するナレーション評価手段と、
ナレーション音声の終了を検知することで楽曲の演奏を開始する演奏手段と、
歌唱音声の音高と楽曲のリファレンスデータに含まれるノートの音高との比較結果に基づいて歌唱音声を評価する歌唱評価手段と、
ナレーション音声の評価と歌唱音声の評価に基づいて総合評価を表示する表示手段と、を備えていることを特徴とするカラオケ装置。
前記ナレーション評価手段は、前記特定手段に特定されたワードと楽曲の歌詞データに含まれる所定ワードとの比較結果に基づいてナレーション音声を評価することを特徴とする請求項１に記載のカラオケ装置。
前記ナレーション評価手段は、前記特定手段に特定されたワードと楽曲の曲調を表現した所定ワードとの比較結果に基づいてナレーション音声を評価することを特徴とする請求項１に記載のカラオケ装置。
前記判定手段の判定結果に基づいてナレーション音声の入力の有無情報を楽曲の演奏順に生成する生成手段と、
前記生成手段に生成された有無情報に基づいてナレーション音声の適正時間を設定する設定手段と、
ナレーション音声の入力開始から楽曲の演奏開始までのナレーション実時間を計測する計測手段と、
ナレーション実時間とナレーション適正時間との比較結果に基づいてナレーション時間を評価するナレーション時間評価手段と、を備え、
前記表示手段は、ナレーション音声の評価とナレーション時間の評価と歌唱音声の評価に基づいて総合評価を表示することを特徴とする請求項１から請求項３のいずれか１項に記載のカラオケ装置。