JP6236807B2 - Singing voice evaluation device and singing voice evaluation system - Google Patents
Singing voice evaluation device and singing voice evaluation system Download PDFInfo
- Publication number
- JP6236807B2 JP6236807B2 JP2013046103A JP2013046103A JP6236807B2 JP 6236807 B2 JP6236807 B2 JP 6236807B2 JP 2013046103 A JP2013046103 A JP 2013046103A JP 2013046103 A JP2013046103 A JP 2013046103A JP 6236807 B2 JP6236807 B2 JP 6236807B2
- Authority
- JP
- Japan
- Prior art keywords
- singing voice
- scoring
- singing
- data
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は、歌唱音声を評価する歌唱音声評価装置および歌唱音声評価システムに関する。 The present invention relates to a singing voice evaluation device and a singing voice evaluation system for evaluating a singing voice.
従来、カラオケ装置は、歌唱者の歌唱を採点する機能を備えるものがあった。カラオケ装置における採点は、お手本となるガイドメロディと比較して、歌唱音声とガイドメロディとの類似度を得点に換算するものが一般的である。 Conventionally, some karaoke apparatuses have a function of scoring a singer's singing. The scoring in the karaoke device is generally performed by converting the similarity between the singing voice and the guide melody into a score, as compared to a guide melody as a model.
しかし、このような機械採点は、ガイドメロディと類似している場合に得点が高くなるものであり、歌唱自体の官能評価はできていない。例えば、アレンジを加えて歌唱した場合、当該アレンジにより人間が良いと感じる歌唱であってもガイドメロディと類似しないために得点が低くなる場合がある。 However, such a machine scoring increases the score when it resembles a guide melody, and sensory evaluation of the singing itself has not been made. For example, when a song is sung with an arrangement, the score may be low because it is not similar to a guide melody even if the song is perceived as good by humans.
そこで、例えば特許文献1には、複数人の聴取者による歌唱評価を行い、聴取者の平均点と機械採点と、のいずれか高い側の得点を採点結果とすることで、人間による主観的な歌唱評価を反映させるカラオケ装置が提案されている。
Therefore, for example, in
しかし、特許文献1の装置では、複数人の聴取者による歌唱評価を待つ必要があり、その場で結果を提示することができなかった。
However, in the apparatus of
そこで、この発明は、人間による歌唱評価をその場で提示することが可能な歌唱音声評価装置を提供することを目的とする。 Therefore, an object of the present invention is to provide a singing voice evaluation device capable of presenting singing evaluation by a human on the spot.
この発明の歌唱音声評価装置は、予め歌唱音声および当該歌唱音声に対する人的評価を対応付けて事前歌唱音声データとして記憶した記憶手段と、歌唱音声を入力する歌唱音声入力手段と、前記歌唱音声入力手段で入力した現在の歌唱音声を採点する採点手段と、を備えている。そして、採点手段は、前記現在の歌唱音声と前記事前歌唱音声データとを比較し、前記現在の歌唱音声に類似する事前歌唱音声データを抽出し、当該抽出した事前歌唱音声データにおける人的評価を、採点結果に含めて出力することを特徴とする。 The singing voice evaluation apparatus according to the present invention includes a storage unit that stores in advance a singing voice and a human evaluation of the singing voice and stores the singing voice data in advance, a singing voice input unit that inputs the singing voice, and the singing voice input. Scoring means for scoring the current singing voice input by the means. And the scoring means compares the current singing voice with the pre-singing voice data, extracts pre-singing voice data similar to the current singing voice, and human evaluation in the extracted pre-singing voice data Is included in the scoring result and output.
このように、本発明の歌唱音声評価装置は、予め人的評価が対応付けられた歌唱音声を記憶しておき、現在の歌唱音声に類似する歌唱音声を抽出することで、当該類似した歌唱音声に付与されている人的評価が採点結果に反映させることができる。例えば、アレンジを加えて音程を変更して歌唱した事前歌唱音声データにおいて、人間が良いと感じて高い人的評価が得られたものが記憶されている場合、同じようなアレンジで音程を変更して歌唱すると、対応付けられた人的評価が採点結果に反映されるため、人的評価をその場で提示することができる。 As described above, the singing voice evaluation device of the present invention stores the singing voice associated with the human evaluation in advance, and extracts the singing voice similar to the current singing voice, so that the similar singing voice is obtained. Can be reflected in the scoring results. For example, in the pre-singing voice data that was sung by changing the pitch by adding an arrangement, it is possible to change the pitch in the same arrangement when the human feeling is good and a high human evaluation is obtained. Singing, the associated human evaluation is reflected in the scoring result, so that the human evaluation can be presented on the spot.
なお、類似する事前歌唱音声データは1つだけではなく、複数を抽出し、抽出したそれぞれの事前歌唱音声データの類似度に応じて、それぞれの人的評価を重み付けし、採点結果に反映させることが好ましい。 In addition, not only one similar pre-singing voice data but also a plurality are extracted, each human evaluation is weighted according to the degree of similarity of each extracted pre-singing voice data, and reflected in the scoring result Is preferred.
また、採点結果には、人的評価だけでなく、機械採点の結果も反映されることが好ましい。また、事前歌唱音声データにも、機械採点の結果が含まれ、採点結果に事前歌唱音声データに含まれている機械採点の結果が反映されることが好ましい。 The scoring results preferably reflect not only human evaluation but also machine scoring results. Moreover, it is preferable that the result of machine scoring is also included in the pre-song voice data, and the result of machine scoring included in the pre-song voice data is reflected in the scoring result.
なお、採点結果は、1曲全体の結果だけを出力してもよいし、所定の区間毎(例えばAメロ、Bメロ、サビ)に出力してもよい。 As the scoring result, only the result of one song may be output, or may be output for each predetermined section (for example, A melody, B melody, chorus).
なお、本発明は、歌唱者の端末(カラオケ装置またはユーザの所有する情報処理装置)で歌唱を行い、当該歌唱者の端末がサーバの記憶手段から事前歌唱音声データをダウンロードして、上記採点処理(採点手段)を行う態様も可能である。 In addition, this invention performs a singing in a singer's terminal (a karaoke apparatus or the information processing apparatus which a user owns), the said singer's terminal downloads prior singing voice data from the memory | storage means of a server, and the said scoring process A mode of performing (scoring means) is also possible.
この発明によれば、人間による歌唱評価をその場で提示することができる。 According to this invention, singing evaluation by a human can be presented on the spot.
図1は、本発明の歌唱音声評価装置を備えたカラオケシステムの構成を示す図である。カラオケシステムは、インターネット等のネットワーク2を介して接続されるサーバ1と、複数のカラオケ店舗3と、複数の評価者端末4と、からなる。
FIG. 1 is a diagram showing a configuration of a karaoke system provided with a singing voice evaluation apparatus of the present invention. The karaoke system includes a
各カラオケ店舗3には、ネットワーク2に接続されるルータ等の中継機5と、中継機5を介してネットワーク2に接続される複数のカラオケ装置7が設けられている。中継機5は、カラオケ店舗3の管理室内等に設置されている。複数台のカラオケ装置7は、それぞれ個室(カラオケボックス)に1台ずつ設置されている。また、各カラオケ装置7には、それぞれリモコン9が設置されている。
Each
評価者端末4は、PCやスマートフォン等の情報処理端末である。評価者端末4のユーザは、サーバ1に蓄積されている事前歌唱音声データ(各カラオケ装置7で歌唱者が歌唱した結果)を評価する。本実施形態では、各カラオケ装置7で歌唱を行うと、当該歌唱者の歌唱音声がサーバ1に送信され、人的評価待ちの事前歌唱音声データとなる。評価者端末4のユーザは、この事前歌唱音声データの歌唱音声を聴き、得点を付与する。この人的評価が事前歌唱音声データに登録されてサーバ1に蓄積される。そして、後に同じ曲を歌唱した歌唱者の歌唱音声がサーバ1に送信されたとき、サーバ1は、受信した現在の歌唱データと事前歌唱音声データとを比較し、類似する事前歌唱音声データを抽出して、当該抽出した事前歌唱音声データにおける人的評価を現在の歌唱音声における採点結果に反映させる。
The
図2は、カラオケ装置7の構成を示すブロック図である。カラオケ装置7は、装置全体の動作を制御するCPU11、および当該CPU11に接続される各種構成部からなる。CPU11には、RAM12、HDD13、ネットワークインタフェース(I/F)14、LCD(タッチパネル)15、A/Dコンバータ17、音源18、ミキサ(エフェクタ)19、MPEG等のデコーダ22、表示処理部23、操作部25、および送受信部26が接続されている。
FIG. 2 is a block diagram showing a configuration of the karaoke apparatus 7. The karaoke apparatus 7 includes a
HDD13は、CPU11の動作用プログラムが記憶されている。ワークメモリであるRAM12には、CPU11の動作用プログラムを実行するために読み出すエリア、カラオケ曲を演奏するために楽曲データを読み出すエリア、予約リストや採点結果等のデータを一時記憶するエリア、等が設定される。また、HDD13は、カラオケ曲を演奏するための楽曲データを記憶している。さらに、HDD13は、モニタ24に背景映像を表示するための映像データも記憶している。映像データは動画、静止画の両方を記憶している。楽曲データや映像データは、定期的にサーバ1(または他の配信センタ)から配信され、更新される。
The
CPU11は、カラオケ装置7を統括的に制御する制御部であり、機能的にシーケンサを内蔵し、カラオケ演奏を行う。また、CPU11は、音声信号生成処理、映像信号生成処理、機械採点処理、および人的評価利用採点処理を行う。
The
タッチパネル15および操作部25は、カラオケ装置7の前面に設けられている。CPU11は、タッチパネル15から入力される操作情報に基づいて、操作情報に応じた画像をタッチパネル15上に表示し、GUIを実現する。また、リモコン9も同様のGUIを実現するものである。CPU11は、タッチパネル15、操作部25、または送受信部26を介してリモコン9から入力される操作情報に基づいて、各種の動作を行う。例えば、ユーザがタッチパネル15、操作部25、またはリモコン9を用いて人的評価利用採点の開始指示を行うと、CPU11は、人的評価利用採点処理を開始する。人的評価利用採点処理の詳細は後述する。
The
次に、カラオケ演奏を行うための構成について説明する。上述したように、CPU11は、機能的にシーケンサを内蔵している。CPU11は、RAM12の予約リストに登録された予約曲の曲番号に対応する楽曲データをHDD13から読み出し、シーケンサでカラオケ演奏を行う。
Next, a configuration for performing karaoke performance will be described. As described above, the
楽曲データは、例えば図3に示すように、曲番号等が書き込まれているヘッダ、演奏用MIDIデータが書き込まれている楽音トラック、ガイドメロディ用MIDIデータが書き込まれているガイドメロディトラック、歌詞用MIDIデータが書き込まれている歌詞トラック、バックコーラス再生タイミングおよび再生すべき音声データが書き込まれているコーラストラック、等からなっている。なお、楽曲データの形式としては、この例に限るものではない。 For example, as shown in FIG. 3, the music data includes a header in which a music number is written, a musical sound track in which performance MIDI data is written, a guide melody track in which MIDI data for guide melody is written, and lyrics It consists of a lyrics track in which MIDI data is written, a back chorus playback timing, a chorus track in which audio data to be played back is written, and the like. Note that the format of the music data is not limited to this example.
楽音トラックには、楽音を発生させる楽器の種類、タイミング、音程(キー)、強さ、長さ、定位(パン)、音響効果(エフェクト)等を示す情報が記録されている。シーケンサは、当該楽音トラックやガイドメロディトラックのデータに基づいて音源18を制御し、カラオケ曲の楽音を発生する。
In the musical sound track, information indicating the type, timing, pitch (key), strength, length, localization (pan), sound effect (effect), etc. of the musical instrument that generates the musical sound is recorded. The sequencer controls the
また、シーケンサは、コーラストラックの指定するタイミングでバックコーラスの音声データ(楽曲データに付随しているMP3等の圧縮音声データ)を再生する。また、シーケンサは、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを合成し、この文字パターンを映像信号に変換して表示処理部23に入力する。
The sequencer also reproduces the back chorus audio data (compressed audio data such as MP3 attached to the music data) at the timing designated by the chorus track. Further, the sequencer synthesizes the character pattern of the lyrics in synchronism with the progress of the song based on the lyrics track, converts the character pattern into a video signal, and inputs it to the
音源18は、シーケンサの処理によってCPU11から入力されたデータ(ノートイベントデータ)に応じて楽音信号(デジタル音声信号)を形成する。形成した楽音信号はミキサ19に入力される。
The
ミキサ19は、音源18が発生した楽音信号、コーラス音、およびマイク16からA/Dコンバータ17を介して入力された歌唱者の歌唱音声に対してエコー等の音響効果を付与するとともに、これらの信号をミキシングする。
The
ミキシングされた各デジタル音声信号は、サウンドシステム(SS)20に入力される。サウンドシステム20は、D/Aコンバータおよびパワーアンプを内蔵しており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ21から放音する。ミキサ19が各音声信号に付与する効果およびミキシングのバランスは、CPU11によって制御される。
Each mixed digital audio signal is input to a sound system (SS) 20. The
CPU11は、上記シーケンサによる楽音の発生、歌詞テロップの生成と同期して、HDD13に記憶されている映像データを読み出して背景映像等を再生する。動画の映像データは、MPEG形式にエンコードされている。
The
CPU11は、読み出した背景映像の映像データをデコーダ22に入力する。デコーダ22は、入力されたMPEG等のデータを映像信号に変換して表示処理部23に入力する。表示処理部23には、背景映像の映像信号以外に上記歌詞テロップの文字パターン等の映像が入力される。表示処理部23は、背景映像の映像信号の上に歌詞テロップの映像をOSDで合成してモニタ24に出力する。モニタ24は、表示処理部23から入力された映像信号を表示する。
The
以上の様にして、カラオケ演奏が行われる。次に、機械採点処理について説明する。機械採点処理は、歌唱者の歌唱音声を参照歌唱音声であるガイドメロディトラックと比較することによって行われる。機械採点処理は、ガイドメロディトラックのノートイベントデータ毎に、音程(ピッチ)、タイミング、音量等を比較することによって行われる。 Karaoke performances are performed as described above. Next, the machine scoring process will be described. The machine scoring process is performed by comparing the singing voice of the singer with the guide melody track that is the reference singing voice. The machine scoring process is performed by comparing the pitch (pitch), timing, volume, etc. for each note event data of the guide melody track.
すなわち、CPU11は、入力した歌唱音声(デジタル音声信号)をRAM12に一時記憶し、当該歌唱音声のピッチを抽出する。CPU11は、抽出したピッチの値、当該ピッチが変化するタイミング、歌唱音声のレベル、等をガイドメロディトラックと比較し、得点に換算する。
That is, the
例えば、歌唱音声のピッチが、所定時間以上、ガイドメロディトラックのピッチに合っていた(許容範囲に入っていた)場合には、高い得点を付与する。また、ピッチ変化のタイミングも得点に考慮される。さらに、ビブラート、抑揚、しゃくり(低い音程からなだらかに移行すること)等の技巧の有無に基づいて加点も行われる。 For example, when the pitch of the singing voice matches the pitch of the guide melody track for a predetermined time or longer (within an allowable range), a high score is given. Also, the timing of pitch change is taken into consideration in the score. Furthermore, points are also awarded based on the presence or absence of techniques such as vibrato, inflection, and sneezing (moving gently from a low pitch).
例えば、図4に示すように、ノートAの区間においては、歌唱音声のピッチが、所定時間以上ガイドメロディトラックのピッチに合っていた(許容範囲に入っていた)ため、当該区間の得点として70点が付与されている。一方で、ノートBの区間においては、歌唱音声のピッチとガイドメロディトラックのピッチが大きく異なるため、当該区間の得点として低い得点(20点)が付与されている。また、ノートCの区間においては、基礎得点として70点に加えてビブラートの技巧が検出されたため、合計の90点が当該区間の得点として付与されている。 For example, as shown in FIG. 4, in the section of note A, the pitch of the singing voice matched the pitch of the guide melody track for a predetermined time or longer (it was within the allowable range), so the score for that section is 70. Points are given. On the other hand, in the section of note B, since the pitch of the singing voice and the pitch of the guide melody track are greatly different, a low score (20 points) is given as the score of the section. In addition, in the section of note C, vibrato skill was detected in addition to 70 points as the basic score, so a total of 90 points are given as the score of the section.
以上のようなノート毎の得点は、Aメロ、Bメロ、サビ等の所定の区間毎(あるいは所定時間経過毎)に集計される。集計された得点は、自装置のRAM12に一時記憶される。人的評価利用採点処理では、当該集計された得点、および歌唱音声(デジタル音声信号)がネットワークI/F14を介してサーバ1に送信される。また、1曲の演奏が終了した時点でも、1曲を通した機械採点の結果、および歌唱音声(デジタル音声信号)がサーバ1に送信される。なお、機械採点は、各カラオケ装置7ではなく、サーバ1で行ってもよい。この場合、サーバ1には、歌唱音声のみが送信される。また、機械採点において、上述のような得点化する処理は、必須ではない。例えば、ガイドメロディとのピッチのずれ量、タイミングのずれ量等の情報等をサーバ1に送信し、これらの情報をサーバ1に蓄積する態様であってもよい。
The score for each note as described above is totaled for each predetermined section (or every elapse of a predetermined time) such as A melody, B melody, and chorus. The total score is temporarily stored in the
次に、人的評価利用採点処理について説明する。人的評価利用採点処理は、主にサーバ1によって行われる。図5(A)はサーバ1の構成を示すブロック図である。
Next, the human evaluation use scoring process will be described. The human evaluation use scoring process is mainly performed by the
サーバ1は、CPU51、RAM52、HDD53、およびネットワークI/F54を備えた情報処理装置である。CPU51は、HDD53に記憶されているサーバ1の動作用プログラムをRAM52に読み出し、採点結果蓄積処理および歌唱音声比較処理を行う。
The
サーバ1のHDD53には、事前歌唱音声データが蓄積されている(本発明の記憶手段に相当する)。図6(A)は、事前歌唱音声データの構造を示す図である。サーバ1には、人的評価利用採点の開始指示を行った各カラオケ装置7から、歌唱音声(デジタル音声信号)および機械採点の結果が送信される。サーバ1は、受信した歌唱音声を用いて歌唱音声比較処理および採点結果蓄積処理を行う。歌唱音声比較処理については後述し、まず採点結果蓄積処理について説明する。
Pre-singing voice data is stored in the
サーバ1のCPU51は、受信した歌唱音声と機械採点の結果を対応付けて、所定のヘッダ(データ名、曲番号等)を付与してHDD53に記憶する。なお、歌唱者名の情報等のその他の情報を受信し、歌唱者名等の情報も対応付けて記憶してもよい。事前歌唱音声データには、評価者端末4のユーザによって評価された得点が平均人間採点として記憶される。ただし、最初にHDD53に記憶された時点では、平均人間採点は存在しない。このようにして、図6(A)に示したような事前歌唱音声データがHDD53に記憶される。
The
次に、図5(B)は、評価者端末4の構成を示すブロック図である。評価者端末4は、CPU71、RAM72、ROM73、ネットワークI/F74、表示処理部75、モニタ76、操作部77、サウンドシステム(SS)78、およびスピーカ79を備えた情報処理装置である。
Next, FIG. 5B is a block diagram showing a configuration of the
CPU71は、ROM73に記憶されている動作用プログラムをRAM72に読み出し、歌唱音声再生処理および人的評価処理を行う。
The
評価者端末4のユーザは、操作部77を用いて人的評価の開始指示を行う。CPU71は、操作部77を介して当該人的評価の開始指示を受け付けると、ネットワークI/F74を介してサーバ1に当該開始指示を送信する。サーバ1は、当該開始指示を受信すると、事前歌唱音声データの一覧データを評価者端末4に送信する。
The user of the
図6(B)に示すように、一覧データには、例えば各事前歌唱音声データのデータ名、曲番号に対応する曲名、歌唱者名、平均人間採点結果、機械採点結果等が含まれている。評価者端末4のCPU71は、当該一覧データをサーバ1から受信し、一覧データに対応する映像データを生成する。CPU71は、当該映像データを表示処理部75に出力し、モニタ76に表示する。ユーザは、操作部77を介して、当該一覧から再生したい歌唱音声を選択する。
As shown in FIG. 6B, the list data includes, for example, the data name of each pre-song audio data, the song name corresponding to the song number, the singer name, the average human scoring result, the machine scoring result, and the like. . The
歌唱音声が選択されると、CPU71は、当該選択された歌唱音声の再生リクエストをサーバ1に送信する。サーバ1のCPU51は、当該再生リクエストに対応する事前歌唱音声データを読み出し、評価者端末4に送信する。
When the singing voice is selected, the
評価者端末4のCPU71は、受信した事前歌唱音声データの歌唱音声(デジタル音声信号)を再生し、サウンドシステム78に出力する。サウンドシステム78は、入力された歌唱音声(デジタル信号)をアナログ信号に変換して増幅し、スピーカ79から放音する。このようにして歌唱音声再生処理がなされる。
The
ユーザは、再生された歌唱音声を聴き、操作部77を介して採点を行う。採点は、1曲全体としての得点を付与する形式であってもよいし、Aメロ、Bメロ等の所定の区間毎に得点を付与する形式であってもよい。ユーザが採点した結果(人的評価の結果)は、サーバ1に送信される。
The user listens to the reproduced singing voice and scores through the
サーバ1のCPU51は、受信した得点を過去に蓄積した得点と平均化し、平均人間採点として事前歌唱音声データに記憶する。平均人間採点は、1曲全体としての得点として記憶されていてもよいし、Aメロ、Bメロ等の所定の区間毎の得点として記憶されていてもよい。このようにして採点結果蓄積処理がなされる。なお、採点された回数が多ければ多いほど人気の高い歌唱音声であるとみなし、平均人間採点の得点を高くしてもよい。また、採点を行うユーザ毎に異なる重み付けを付与した重み付け平均処理を行ってもよい。例えば採点回数の多いユーザが採点した得点の重み付けを大きくする。
The
次に、歌唱音声比較処理について説明する。歌唱力比較処理は、カラオケ装置7から送信された歌唱音声と事前歌唱音声データとを比較し、類似度を算出する処理である。サーバ1のCPU51は、カラオケ装置7から受信した歌唱音声(デジタル音声信号)をRAM52に一時記憶し、当該歌唱音声のピッチを抽出する。そして、CPU51は、受信した歌唱音声と同じ曲の事前歌唱音声データを読み出し、読み出した事前歌唱音声データに含まれている歌唱音声(デジタル音声信号)と比較する。なお、同じ曲の全ての事前歌唱音声データを読み出してもよいが、例えば最新の事前歌唱音声データから複数個(例えば10個)だけを読み出してもよい。
Next, the singing voice comparison process will be described. The singing ability comparison process is a process of comparing the singing voice transmitted from the karaoke apparatus 7 with the pre-singing voice data and calculating the similarity. The
類似度の算出は、機械採点と同様の手法で行われる。すなわち、受信した歌唱音声から抽出したピッチの値、当該ピッチが変化するタイミング、歌唱音声のレベル、等を、事前歌唱音声データに含まれている歌唱音声のピッチ、タイミング、レベル等と比較し、点数化する処理である。ただし、歌唱音声にはガイドメロディのようなノートイベントデータが存在しないため、受信した歌唱音声(または事前歌唱音声)のうち、ある程度同じピッチが連続する区間を1つのノートイベントデータとみなして比較を行う。 The similarity is calculated by the same method as the machine scoring. That is, the pitch value extracted from the received singing voice, the timing at which the pitch changes, the level of the singing voice, etc., are compared with the pitch, timing, level, etc. of the singing voice included in the pre-singing voice data, This is a process of scoring. However, since note event data such as a guide melody does not exist in the singing voice, a section in which the same pitch continues to some extent among received singing voices (or prior singing voices) is regarded as one note event data for comparison. Do.
図7(A)および図7(B)は、類似度算出の概念を示す図である。同図に示す現在歌唱音声(受信した歌唱音声)は、図4で示した歌唱音声と同じものを示している。図7(A)は、ガイドメロディの音程に対して忠実に歌唱を行った場合の事前歌唱音声データと比較した図である。 FIG. 7A and FIG. 7B are diagrams showing the concept of similarity calculation. The current singing voice (received singing voice) shown in the figure is the same as the singing voice shown in FIG. FIG. 7 (A) is a diagram comparing with pre-singing voice data when singing faithfully to the pitch of the guide melody.
この例における現在歌唱音声は、ノートBの区間においてアレンジを加えて音程を変更して歌唱したものである。したがって、ガイドメロディの音程に対して忠実に歌唱を行った場合の事前歌唱音声データと比較すると、ノートBの区間では低い類似度(20%)が算出されるようになっている。 The current singing voice in this example is sung by changing the pitch by adding arrangement in the section of note B. Therefore, a lower similarity (20%) is calculated in the section of note B compared to the pre-song voice data when singing faithfully to the pitch of the guide melody.
一方、図7(B)は、アレンジを加えてノートBの区間の音程を変更して歌唱した場合の事前歌唱音声データと比較した図である。この例では、現在歌唱音声も事前歌唱音声も、ともにノートBの区間においてアレンジを加えて音程を変更して歌唱しているため、高い類似度(70%)が算出されている。 On the other hand, FIG. 7 (B) is a figure compared with prior singing voice data in the case of singing by changing the pitch of the section of note B by adding an arrangement. In this example, since both the current singing voice and the pre-singing voice are sung by changing the pitch in the section of note B, the high similarity (70%) is calculated.
以上のような類似度は、Aメロ、Bメロ、サビ等の所定の区間毎(あるいは所定時間経過毎)に集計される。または、1曲を通した平均類似度(全体の類似度)が算出される。 The degree of similarity as described above is totaled for each predetermined section (or every predetermined time) such as A melody, B melody, and rust. Alternatively, the average similarity (total similarity) through one song is calculated.
サーバ1のCPU51は、区間毎または全体の類似度が高い事前歌唱音声データを抽出する。そして、抽出した事前歌唱音声データに付与されている平均人間採点を、現在の歌唱音声の採点結果に反映させる。例えば、図6(C)に示すように、最も類似度の高い事前歌唱音声データCに付与されている平均人間採点(80点)と、当該最も類似度の高い事前歌唱音声データCに付与されている機械採点(60点)とを平均化した得点(70点)を現在の歌唱音声の採点結果として出力する。
The
あるいは、最も類似度の高い事前歌唱音声データCに付与されている平均人間採点(80点)をそのまま採点結果として出力してもよいし、最も類似度の高い事前歌唱音声データCに付与されている平均人間採点(80点)と、現在の歌唱音声における機械採点(例えば65点)とを平均化した得点(72.5点)を採点結果として出力してもよい。 Alternatively, the average human score (80 points) given to the pre-song voice data C with the highest degree of similarity may be output as a scoring result as it is, or given to the pre-song voice data C with the highest degree of similarity. A score (72.5 points) obtained by averaging the average human score (80 points) and the machine score (for example, 65 points) in the current singing voice may be output as the score result.
例えば、図7(B)に示したように、アレンジを加えて音程を変更して歌唱した事前歌唱音声データの平均人間採点に高い得点が付与されていた場合、機械採点の結果が低くとも、当該アレンジによる人的評価が反映されることになり、機械採点よりも高い採点結果が得られる。また、逆にガイドメロディに忠実に歌唱した場合であっても、人間が良いと感じなかった歌唱については、機械採点の結果が高くとも、人的評価が反映されることにより機械採点よりも低い採点結果が得られる。 For example, as shown in FIG. 7B, when a high score is given to the average human scoring of the pre-song voice data sung by changing the pitch by adding an arrangement, even if the result of the machine scoring is low, The human evaluation by the arrangement will be reflected, and a scoring result higher than the machine scoring will be obtained. On the other hand, even if the singing was faithful to the guide melody, the singing that the human did not feel good was lower than the mechanical scoring because the human scoring was reflected even though the mechanical scoring result was high A scoring result is obtained.
このように、本実施形態のカラオケシステムでは、人間が上手い(または下手)と感じて高い(または低い)人的評価が得られたものが記憶されている場合、同じような歌い方で(例えばアレンジで音程を変更して)歌唱すると、対応付けられた高い(または低い)人的評価が採点結果に反映されるため、人的評価をその場で提示することができる。 As described above, in the karaoke system of this embodiment, when a person who feels good (or poor) and obtained a high (or low) human evaluation is stored in a similar manner (for example, When singing with the pitch changed in the arrangement, the associated high (or low) human evaluation is reflected in the scoring result, so that the human evaluation can be presented on the spot.
なお、図6(C)の例では、最も類似する事前歌唱音声データの人的評価を利用する例を示したが、複数の事前歌唱音声データを抽出し、抽出したそれぞれの事前歌唱音声データの類似度に応じて、それぞれの人的評価を重み付けし、採点結果に反映させることが好ましい。 In addition, in the example of FIG. 6C, although the example using the human evaluation of the most similar pre-song voice data was shown, a plurality of pre-song voice data is extracted, and each of the pre-song voice data extracted is extracted. It is preferable to weight each human evaluation according to the degree of similarity and reflect it in the scoring results.
図8は、人的評価利用採点の応用例1を示す図である。応用例1では、類似度の高い複数(4つ)の事前歌唱音声データを抽出する例を示している。 FIG. 8 is a diagram showing an application example 1 of human evaluation use scoring. The application example 1 shows an example in which a plurality (four) of pre-singing voice data with high similarity are extracted.
この例では、現在の歌唱音声と事前歌唱音声データとの類似度に応じて採点結果に重み付け加算処理を行う。すなわち、最も類似度の高い事前歌唱音声データに最も高い重み(寄与率)を設定し、当該最も類似度の高い事前歌唱音声データに付与されている採点結果を大きく反映させ、類似度が低くなるにつれて重み(寄与率)を低くし、類似度に応じて採点結果を変化させる。 In this example, a weighted addition process is performed on the scoring results according to the degree of similarity between the current singing voice and the pre-singing voice data. That is, the highest weight (contribution rate) is set to the pre-song voice data having the highest similarity, and the scoring result given to the pre-song voice data having the highest similarity is greatly reflected, and the similarity becomes low. Accordingly, the weight (contribution rate) is lowered, and the scoring result is changed according to the similarity.
また、この例では、それぞれの事前歌唱音声データにおける平均人間採点と、機械採点とを平均化した得点を複合採点として算出する。そして、複合採点と寄与率とを乗算し、寄与率修正点を算出する。例えば、事前歌唱音声データCは、平均人間採点(80点)と機械採点(60点)とを平均化した複合採点が70点として算出されているが、寄与率が40%であるため、修正点として28点が付与される。同様に、事前歌唱音声データBは、修正点として23.55点が付与され、事前歌唱音声データAは、修正点として16.2点が付与され、事前歌唱音声データDは、修正点として7.35点が付与される。そしてこれら修正点を加算した得点(75.1点)が採点結果として出力される。 Moreover, in this example, the score which averaged the average human scoring and machine scoring in each prior singing voice data is calculated as a composite scoring. Then, the composite scoring and the contribution rate are multiplied to calculate a contribution rate correction point. For example, the preliminary singing voice data C is calculated as a composite score obtained by averaging the average human score (80 points) and the machine score (60 points), but the contribution rate is 40%. 28 points are given as points. Similarly, the preliminary singing voice data B is given 23.55 points as correction points, the preliminary singing voice data A is given 16.2 points as correction points, and the preliminary singing voice data D is 7 points as correction points. .35 points will be awarded. And the score (75.1 points) which added these correction points is output as a scoring result.
なお、この例においても、抽出したそれぞれの事前歌唱音声データに付与されている平均人間採点に寄与率を乗算して加算し、機械採点を考慮しないようにしてもよい。ただし、機械採点を反映させることで、人間による主観的な評価だけでなく、音程の正確さ等の客観的な評価も反映させることができ、より高精度な採点を行うことが可能である。 In this example as well, the average human scoring given to each extracted pre-song voice data may be multiplied by the contribution rate and added, so that the mechanical scoring may not be considered. However, by reflecting machine scoring, it is possible to reflect not only subjective evaluation by humans but also objective evaluation such as accuracy of pitch, and more accurate scoring can be performed.
次に、図9は、人的評価利用採点の応用例2を示す図である。応用例2では、応用例1に対し、現在の歌唱音声の機械採点結果も反映させる場合の例を示している。 Next, FIG. 9 is a figure which shows the example 2 of application of human evaluation utilization scoring. The application example 2 shows an example in which the machine scoring result of the current singing voice is also reflected in the application example 1.
この例では、複合採点として、それぞれの事前歌唱音声データにおける平均人間採点に対し、現在の歌唱音声の機械採点結果による補正を行う。すなわち、この例では、平均人間採点×(現在歌唱機械採点/事前歌唱音声データの機械採点)=複合採点として、各事前歌唱音声データの複合採点を算出する。そして、算出した複合採点の結果に寄与率を乗算し、寄与率修正点を算出する。 In this example, as the composite scoring, the average human scoring in each pre-song speech data is corrected by the mechanical scoring result of the current singing speech. That is, in this example, a composite score of each preliminary singing voice data is calculated as average human scoring × (current singing machine scoring / pre-singing voice data mechanical scoring) = composite scoring. Then, the contribution rate correction score is calculated by multiplying the calculated composite scoring result by the contribution rate.
例えば、事前歌唱音声データCは、平均人間採点(80点)に対し、現在歌唱機械採点(65点)/事前歌唱音声データの機械採点(60点)が乗算され、80×(65/60)=86.67点が複合採点として算出されている。そして、寄与率が40%であるため、修正点として34.67点が付与される。同様に、事前歌唱音声データBは、修正点として18.3点が付与され、事前歌唱音声データAは、修正点として13.32点が付与され、事前歌唱音声データDは、修正点として5.75点が付与される。そしてこれら修正点を加算した得点(72.04点)が採点結果として出力される。 For example, the pre-singing voice data C is obtained by multiplying the average human scoring (80 points) by the current singing machine scoring (65 points) / machine scoring of the pre-singing voice data (60 points), and 80 × (65/60). = 86.67 points are calculated as a composite score. Since the contribution rate is 40%, 34.67 points are given as correction points. Similarly, the pre-singing voice data B is given 18.3 points as correction points, the pre-singing voice data A is given 13.32 points as correction points, and the pre-singing voice data D is 5 points as correction points. .75 points are awarded. And the score (72.04 points) which added these correction points is output as a scoring result.
このように、人的評価を主としながらも、機械採点の結果による微調整を行うことで、より高精度な採点を行うことが可能である。 In this way, it is possible to perform more accurate scoring by performing fine adjustment based on the result of machine scoring while mainly performing human evaluation.
次に、人的評価利用採点処理の動作について、図10のフローチャートを参照して説明する。歌唱者がタッチパネル15、操作部25、またはリモコン9を用いて人的評価利用採点処理の開始指示を行い、カラオケ演奏が開始されると、図10に示す動作を行う。
Next, the operation | movement of a human evaluation utilization scoring process is demonstrated with reference to the flowchart of FIG. When the singer gives an instruction to start the human evaluation use scoring process using the
まず、カラオケ装置7のCPU11は、カラオケ演奏を行うとともに、歌唱音声の機械採点を開始する(s11)。次に、CPU11は、所定区間(例えばAメロ)が経過したか否かを判断し(s12)、所定区間が経過した場合には、当該所定区間毎に機械採点の結果を集計し、当該所定区間における機械採点結果および歌唱音声をサーバ1に送信する(s13)。
First, the
サーバ1のCPU51は、採点結果および歌唱音声を受信すると(s14)、歌唱音声比較処理を行い、当該区間において類似度の高い事前歌唱音声データを抽出する(s15)。そして、抽出した事前歌唱音声データに付与されている平均人間採点を、現在の歌唱音声の採点結果に反映させ、採点結果として出力する(s16)。当該採点結果は、カラオケ装置7に送信される(s17)。なお、類似する事前歌唱音声データが存在しなかった、または低い(例えば50%以下の)類似度の事前歌唱音声データだけしか存在しなかった場合には、カラオケ装置7に「評価待ち」を示す情報を送信し、カラオケ装置7においてはモニタ24に「評価待ちです」等と表示して、機械採点の結果だけを表示するようにしてもよい。
When the
なお、カラオケ装置7からサーバ1に送信された歌唱音声および機械採点の結果は、事前歌唱音声データとして、サーバ1のHDD53に蓄積され、ユーザによる人的評価の対象の歌唱音声となる
カラオケ装置7のCPU11は、サーバ1から採点結果を受信し(s18)、当該採点結果をモニタ24に表示する(s19)。なお、採点結果は、区間毎の採点結果、および現在までの区間を平均化した全体の採点結果を表示することが好ましい。
The singing voice transmitted from the karaoke apparatus 7 to the
最後に、CPU11は、楽曲の演奏が終了したか否かを判断し(s20)、楽曲の演奏が終了するまではs12以下の処理を繰り返し行う。楽曲の演奏が終了した場合には、1曲全体の採点結果を表示してもよい。
Finally, the
なお、本実施形態においては、カラオケ装置7で歌唱を行い、歌唱音声をサーバ1に送信して、人的評価利用採点処理を行う例を示したが、例えばユーザが自身の所有するPCやスマートフォン等の情報処理装置を用いて歌唱を行い、サーバ1または当該情報処理装置が本発明の歌唱音声評価装置を実現することも可能である。すなわち、ユーザは、自身が所有するPCやスマートフォンを用いて歌唱を行い、当該PCやスマートフォンが歌唱音声をサーバ1に送信することで、人的評価利用採点処理を実現する。
In addition, in this embodiment, although the example which performs singing with the karaoke apparatus 7, transmits a singing voice | voice to the
この場合、ユーザは、自身の所有する情報処理装置を用いて人的評価利用採点処理の開始指示を行う。ユーザが人的評価利用採点処理の開始指示を行うと、当該ユーザの所有する情報処理装置がカラオケ演奏を行う。ユーザの歌唱音声は、サーバ1に送信される(これにより、サーバ1のCPU51は、本発明の歌唱音声入力手段を実現する)。そして、サーバ1のCPU51が人的評価利用採点処理(図5に示したフローチャートにおけるs15以下の処理)を行い、本発明の採点手段を実現する。このようにして、ユーザ自身の所有する情報処理装置(またはカラオケ装置7)からサーバ1に歌唱音声を送信し、サーバ1により本発明の歌唱音声評価装置を実現することも可能である。また、ユーザの所有する情報処理装置(またはカラオケ装置7)がサーバ1から事前歌唱音声データをダウンロードし、当該情報処理装置が歌唱音声比較処理を行うことも可能である。
In this case, the user instructs the start of the human evaluation use scoring process using the information processing apparatus owned by the user. When the user gives an instruction to start the human evaluation use scoring process, the information processing apparatus owned by the user performs a karaoke performance. The user's singing voice is transmitted to the server 1 (thereby, the
なお、本実施形態においては、歌唱音声(デジタル音声信号)をサーバ1に送信し、事前歌唱音声データとして蓄積する例を示したが、歌唱音声を含む映像データ(例えば歌唱者が歌いながら踊る姿を撮影したもの等)をサーバ1に送信し、事前歌唱音声データとして蓄積するようにしてもよい。
In addition, in this embodiment, although the example which transmits song audio | voice (digital audio | voice signal) to the
1…サーバ
2…ネットワーク
3…カラオケ店舗
4…評価者端末
5…中継機
7…カラオケ装置
9…リモコン
11…CPU
12…RAM
13…HDD
14…ネットワークI/F
15…タッチパネル
16…マイク
17…A/Dコンバータ
18…音源
19…ミキサ
20…サウンドシステム
21…スピーカ
22…デコーダ
23…表示処理部
24…モニタ
25…操作部
26…送受信部
DESCRIPTION OF
12 ... RAM
13 ... HDD
14 ... Network I / F
DESCRIPTION OF
Claims (4)
歌唱音声を入力する歌唱音声入力手段と、
前記歌唱音声入力手段で入力した現在の歌唱音声を採点する採点手段と、
を備え、
前記採点手段は、前記現在の歌唱音声と前記事前歌唱音声データとを比較し、前記現在の歌唱音声に類似する事前歌唱音声データを抽出し、当該抽出した事前歌唱音声データにおける人的評価を、採点結果に含めて出力し、
前記事前歌唱音声データは、機械採点の結果が含まれ、
前記採点手段は、歌唱音声と参考歌唱音声とを比較する現在歌唱機械採点を行い、当該現在歌唱機械採点の結果、および前記事前歌唱音声データに含まれている機械採点の結果、の両方を前記採点結果に含めて出力する歌唱音声評価装置。 Storage means for storing the singing voice and the human evaluation for the singing voice in advance and storing them as the pre-singing voice data;
Singing voice input means for inputting singing voice;
Scoring means for scoring the current singing voice input by the singing voice input means;
With
The scoring means compares the current singing voice and the pre-singing voice data, extracts pre-singing voice data similar to the current singing voice, and performs a human evaluation on the extracted pre-singing voice data. , Output in scoring results ,
The preliminary singing voice data includes a machine scoring result,
The scoring means performs a current singing machine scoring to compare the singing voice and the reference singing voice, and both the result of the current singing machine scoring and the result of the mechanical scoring included in the preliminary singing voice data. A singing voice evaluation device for outputting in the scoring results .
抽出したそれぞれの事前歌唱音声データの類似度に応じて、それぞれの人的評価を重み付けし、前記採点結果に含めて出力する請求項1に記載の歌唱音声評価装置。 The scoring means extracts a plurality of preliminary singing voice data similar to the current singing voice,
The singing voice evaluation apparatus according to claim 1, wherein each human evaluation is weighted according to the degree of similarity of each extracted prior singing voice data, and is included in the scoring result and output.
請求項1乃至請求項3のいずれかに記載の記憶手段を前記歌唱者の端末または前記サーバのいずれかに設け、請求項1乃至請求項3のいずれかに記載の採点手段を前記歌唱者の端末または前記サーバのいずれかに設け、請求項1乃至請求項3のいずれかに記載の歌唱音声入力手段を前記歌唱者の端末に設けたことを特徴とする歌唱音声評価システム。 A singing voice evaluation system comprising a server and a singer's terminal,
Storage means according to any one of claims 1 to 3 provided on one of the terminals or the server of the singer, the singer scoring means according to any one of claims 1 to 3 A singing voice evaluation system provided in either the terminal or the server, and the singing voice input means according to any one of claims 1 to 3 provided in the terminal of the singer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013046103A JP6236807B2 (en) | 2013-03-08 | 2013-03-08 | Singing voice evaluation device and singing voice evaluation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013046103A JP6236807B2 (en) | 2013-03-08 | 2013-03-08 | Singing voice evaluation device and singing voice evaluation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014174293A JP2014174293A (en) | 2014-09-22 |
JP6236807B2 true JP6236807B2 (en) | 2017-11-29 |
Family
ID=51695570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013046103A Expired - Fee Related JP6236807B2 (en) | 2013-03-08 | 2013-03-08 | Singing voice evaluation device and singing voice evaluation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6236807B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6944357B2 (en) * | 2017-11-30 | 2021-10-06 | 株式会社第一興商 | Communication karaoke system |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08115091A (en) * | 1994-10-14 | 1996-05-07 | Sharp Corp | Acoustic device with singing evaluation function |
JP3696927B2 (en) * | 1995-06-16 | 2005-09-21 | 株式会社エクシング | Karaoke equipment |
JP4163584B2 (en) * | 2003-09-30 | 2008-10-08 | ヤマハ株式会社 | Karaoke equipment |
JP2007241015A (en) * | 2006-03-10 | 2007-09-20 | Yamaha Corp | Voice evaluation system |
JP2007256619A (en) * | 2006-03-23 | 2007-10-04 | Yamaha Corp | Evaluation device, control method and program |
JP2007271977A (en) * | 2006-03-31 | 2007-10-18 | Yamaha Corp | Evaluation standard decision device, control method, and program |
JP5123012B2 (en) * | 2008-03-10 | 2013-01-16 | 株式会社エクシング | Karaoke system |
JP4900300B2 (en) * | 2008-03-28 | 2012-03-21 | ブラザー工業株式会社 | Karaoke scoring method and karaoke scoring system |
JP5428459B2 (en) * | 2009-03-30 | 2014-02-26 | ヤマハ株式会社 | Singing evaluation device |
-
2013
- 2013-03-08 JP JP2013046103A patent/JP6236807B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014174293A (en) | 2014-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4382786B2 (en) | Audio mixdown device, audio mixdown program | |
CN102576524A (en) | System and method of receiving, analyzing, and editing audio to create musical compositions | |
JP6288197B2 (en) | Evaluation apparatus and program | |
JP6102076B2 (en) | Evaluation device | |
JP5459331B2 (en) | Post reproduction apparatus and program | |
JP6070652B2 (en) | Reference display device and program | |
JP2006251697A (en) | Karaoke device | |
JP6236807B2 (en) | Singing voice evaluation device and singing voice evaluation system | |
JP6944357B2 (en) | Communication karaoke system | |
JP6196839B2 (en) | A communication karaoke system characterized by voice switching processing during communication duets | |
JP6920135B2 (en) | Karaoke equipment | |
JP6219750B2 (en) | Singing battle karaoke system | |
JP4182782B2 (en) | Karaoke equipment | |
TWI496136B (en) | A sound processing device, a communication sound processing system, a sound processing method and a computer program | |
JP2011215292A (en) | Singing determination device and karaoke device | |
JP6894766B2 (en) | Karaoke equipment | |
KR20020076078A (en) | Method for Idol Star Management Service using Network based music playing/song accompanying service system | |
JP2015225302A (en) | Karaoke device | |
JP6144593B2 (en) | Singing scoring system | |
JP6163755B2 (en) | Information processing apparatus, information processing method, and program | |
JP4033146B2 (en) | Karaoke equipment | |
WO2016017623A1 (en) | Reference display device, reference display method, and program | |
JP7117229B2 (en) | karaoke equipment | |
JP6944364B2 (en) | Karaoke equipment | |
JP2008146092A (en) | Karaoke device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171016 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6236807 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |