JP2015069083A - Information processing device, data generation method and program - Google Patents
Information processing device, data generation method and program Download PDFInfo
- Publication number
- JP2015069083A JP2015069083A JP2013204485A JP2013204485A JP2015069083A JP 2015069083 A JP2015069083 A JP 2015069083A JP 2013204485 A JP2013204485 A JP 2013204485A JP 2013204485 A JP2013204485 A JP 2013204485A JP 2015069083 A JP2015069083 A JP 2015069083A
- Authority
- JP
- Japan
- Prior art keywords
- data
- music
- singing
- feature amount
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
本発明は、評価データを生成する情報処理装置、データ生成方法、及びプログラムに関する。 The present invention relates to an information processing apparatus that generates evaluation data, a data generation method, and a program.
従来、カラオケ装置においては、歌唱音声における音高推移に基づいて採点した基準点数に、歌唱中に用いた歌唱技巧を評価した付加点数を加えた点数を評価点数として算出することがなされている(特許文献1参照)。 Conventionally, in a karaoke apparatus, a score obtained by adding an additional score obtained by evaluating a singing technique used during singing to a reference score scored based on a pitch transition in a singing voice has been calculated as an evaluation score ( Patent Document 1).
このようなカラオケ装置においては、歌唱すべき旋律を表し楽曲ごとに予め用意されたリファレンスデータと、楽曲を歌唱した際の音声における音高推移とのズレが小さいほど、高い点数となるように基準点数を算出する。さらに、特許文献1に記載のカラオケ装置では、歌唱音声を解析して歌唱中に用いられた各種の歌唱技巧を検出し、歌唱技巧が用いられた回数が多いほど、大きな値の付加点数を算出している。 In such a karaoke device, the reference data that represents the melody to be sung and prepared in advance for each song and the difference between the pitch transitions in the voice when singing the song is smaller, the higher the score Calculate the score. Furthermore, in the karaoke apparatus described in Patent Document 1, the singing voice is analyzed to detect various singing techniques used during the singing, and the larger the number of times the singing technique is used, the larger the added value is calculated. doing.
一般的な歌謡曲では、楽曲のジャンルや歌手などによって、楽曲を歌唱する際に中心として用いられる歌唱技巧(以下、「特徴技巧」と称す)の種類が異なる。
このため、特許文献1に記載されたカラオケ装置において、歌唱音声から検出した歌唱技巧を、予め生成した評価データに照合した結果、一致している場合に、付加点数を付与することが考えられる。ここで言う評価データとして、例えば、楽曲を歌唱する際に用いるべき歌唱技巧の内容を、その歌唱技巧を用いるべきタイミングと対応付けたものとすることが考えられる。このような評価データは、通常、人の手によって楽曲ごとに予め生成する必要があり、従来の技術では、楽曲データに基づいて評価データを自動的に生成することが困難であるという課題があった。
In general pop music, the type of singing technique (hereinafter referred to as “feature technique”) used as a center when singing a music differs depending on the genre of the music or the singer.
For this reason, in the karaoke apparatus described in Patent Document 1, it is conceivable that an additional score is given when the singing technique detected from the singing voice matches the evaluation data generated in advance. As the evaluation data referred to here, for example, it is conceivable that the content of the singing technique to be used when singing a song is associated with the timing at which the singing technique is to be used. Such evaluation data usually needs to be generated in advance for each piece of music by a human hand, and the conventional technology has a problem that it is difficult to automatically generate evaluation data based on music data. It was.
そこで、本発明は、評価データを生成する技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a technique for generating evaluation data.
上記目的を達成するためになされた本発明は、楽曲データ取得手段と、抽出手段と、決定手段と、生成手段とを備えた情報処理装置である。
本発明における楽曲データ取得手段は、歌唱した歌唱音を含む楽曲データが記憶された第一記憶部から、楽曲データを取得する。抽出手段は、楽曲データ取得手段により取得された楽曲データから、歌唱した歌唱音を表すボーカルデータを抽出する。
In order to achieve the above object, the present invention is an information processing apparatus including music data acquisition means, extraction means, determination means, and generation means.
The music data acquisition means in this invention acquires music data from the 1st memory | storage part in which the music data containing the sung singing sound were memorize | stored. The extraction means extracts vocal data representing the sung singing sound from the music data acquired by the music data acquisition means.
さらに、決定手段は、抽出手段により抽出されたボーカルデータについて、楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての評価を表す技巧特徴量を決定する。そして、生成手段は、決定手段により決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する。 Further, the determining means determines a technique feature amount representing an evaluation of a plurality of singing techniques for each musical note section which is a predetermined musical note section constituting the music data for the vocal data extracted by the extracting means. Then, the generating means determines the skill feature amount satisfying a predetermined condition among the skill feature quantities of the note interval determined by the determination means, and the note interval corresponding to the determined skill feature amount is determined. Data in which the technical feature quantity is associated is generated as evaluation data used for singing evaluation.
このような情報処理装置によれば、楽曲データに対応する評価データを自動で生成することができる。
したがって、本発明において、一般の人間が作詞作曲した楽曲の楽曲データであっても、その楽曲についての評価データを自動生成できる。
According to such an information processing apparatus, evaluation data corresponding to music data can be automatically generated.
Therefore, in the present invention, evaluation data for music can be automatically generated even for music data of music composed by a general human.
本発明の情報処理装置は、さらに、歌唱取得手段と、評価手段とを備えていても良い。
本発明における歌唱取得手段は、楽曲の演奏中に入力された音声を表す歌唱データを取得する。評価手段は、歌唱取得手段により取得された歌唱データについて、生成手段で生成された評価データを用いて、入力された音声における歌唱技巧を評価する。
The information processing apparatus of the present invention may further include a song acquisition unit and an evaluation unit.
The singing acquisition means in the present invention acquires singing data representing the voice input during the performance of the music. An evaluation means evaluates the singing skill in the input audio | voice using the evaluation data produced | generated by the production | generation means about the song data acquired by the song acquisition means.
このような情報処理装置によれば、楽曲を歌唱した歌唱音声における歌唱技巧を評価できる。
さらに、本発明における抽出手段は、楽曲データから、ボーカルデータと、楽曲における伴奏音を表す伴奏データとを抽出しても良い。
According to such an information processing apparatus, the singing skill in the singing voice singing the music can be evaluated.
Furthermore, the extracting means in the present invention may extract vocal data and accompaniment data representing accompaniment sounds in the music from the music data.
この場合、本発明の情報処理装置は、さらに、抽出手段にて抽出した伴奏データに基づいて、楽曲を演奏する演奏手段を備えていても良い。そして、歌唱取得手段は、演奏手段にて楽曲の演奏中に入力された音声を歌唱データとして取得しても良い。 In this case, the information processing apparatus of the present invention may further include performance means for playing music based on the accompaniment data extracted by the extraction means. And a song acquisition means may acquire the audio | voice input during the performance of the music by the performance means as song data.
このような情報処理装置によれば、第一記憶部に記憶された楽曲データに基づいて楽曲を演奏でき、その演奏中に入力された音声(歌声)における歌唱技巧を評価できる。
また、本発明における生成手段は、決定手段により決定された音符区間での技巧特徴量の中で、楽曲において特徴的に用いられる歌唱技巧に対応する技巧特徴量を、所定の条件を満たす技巧特徴量として決定しても良い。
According to such an information processing apparatus, music can be played based on the music data stored in the first storage unit, and the singing skill in the voice (singing voice) input during the performance can be evaluated.
Further, the generation means in the present invention, the technical features corresponding to the singing technique used characteristically in the music among the technical features in the note interval determined by the determining means, the technical features that satisfy a predetermined condition It may be determined as an amount.
このような情報処理装置によれば、楽曲において特徴的に用いられる歌唱技巧に対応する技巧特徴量を、所定の条件を満たす技巧特徴量として決定できる。
この結果、このような情報処理装置にて作成された情報処理装置を用いて歌唱を評価すれば、楽曲に対して多くの人間が有している印象に合致するように評価できる。
According to such an information processing apparatus, the technique feature quantity corresponding to the singing technique used characteristically in the music can be determined as the technique feature quantity satisfying a predetermined condition.
As a result, if singing is evaluated using an information processing device created by such an information processing device, it can be evaluated so as to match the impression that many people have with respect to the music.
本発明の情報処理装置は、複数の楽曲にて用いられる歌唱技巧の標準的な評価を表す標準特徴量が格納された第二記憶部から、標準特徴量を取得する標準取得手段を備えていても良い。 The information processing apparatus according to the present invention includes a standard acquisition unit that acquires a standard feature amount from a second storage unit that stores a standard feature amount representing a standard evaluation of a singing technique used in a plurality of songs. Also good.
この場合、本発明における生成手段は、決定手段により決定された音符区間での技巧特徴量と標準取得手段で取得した標準特徴量との差分が基準範囲外である場合、基準範囲外となる技巧特徴量を、所定の条件を満たす技巧特徴量として決定しても良い。 In this case, the generation means according to the present invention, if the difference between the technical feature amount in the note interval determined by the determination means and the standard feature amount acquired by the standard acquisition means is outside the reference range, the technical skill that falls outside the reference range. The feature amount may be determined as a skill feature amount that satisfies a predetermined condition.
このような情報処理装置によれば、標準特徴量と技巧特徴量との差分に基づいて、評価データを生成できる。
また、本発明における生成手段は、決定手段により決定された音符区間での技巧特徴量を、音符区間における音高かつ音価ごとに集計した特徴量分布を算出する分布算出手段を備えていても良い。
According to such an information processing apparatus, evaluation data can be generated based on the difference between the standard feature value and the skill feature value.
Further, the generation means in the present invention may include distribution calculation means for calculating a feature quantity distribution obtained by tabulating the technical feature quantities in the note section determined by the determination means for each pitch and note value in the note section. good.
この場合、生成手段は、分布算出手段により算出された特徴量分布において、楽曲における特徴として有意な範囲に含まれる場合、有意な範囲に含まれる技巧特徴量を所定の条件を満たす技巧特徴量として決定しても良い。 In this case, in the feature amount distribution calculated by the distribution calculating unit, the generation unit, when included in a significant range as a feature in the music, sets the technical feature amount included in the significant range as a technical feature amount satisfying a predetermined condition. You may decide.
このような情報処理装置によれば、評価データの生成に必要なデータを楽曲におけるボ
ーカルデータだけとすることができる。
ところで、本発明は、評価データを生成するデータ生成方法としてなされていても良い。
According to such an information processing apparatus, data necessary for generating evaluation data can be only vocal data in music.
By the way, this invention may be made | formed as a data generation method which produces | generates evaluation data.
この場合のデータ生成方法は、第一記憶部から楽曲データを取得する楽曲データ取得過程と、その取得された楽曲データからボーカルデータを抽出する抽出過程と、その抽出されたボーカルデータについて、楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての技巧特徴量を決定する決定過程と、その決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する生成過程とを備えていても良い。 The data generation method in this case includes a music data acquisition process for acquiring music data from the first storage unit, an extraction process for extracting vocal data from the acquired music data, and music data for the extracted vocal data A predetermined condition is satisfied in the determination process for determining the technique feature quantity for a plurality of singing techniques for each note section, which is a predetermined note section that constitutes, and the technique feature quantity of the determined note section And a generation process for determining a skill feature amount and generating data associating the note interval corresponding to the determined skill feature amount and the determined skill feature amount as evaluation data used for singing evaluation. May be.
このようなデータ生成方法によれば、請求項1に記載の情報処理装置と同様の効果を得ることができる。
また、本発明は、コンピュータが実行するプログラムとしてなされていても良い。
According to such a data generation method, an effect similar to that of the information processing apparatus according to claim 1 can be obtained.
Further, the present invention may be made as a program executed by a computer.
この場合のプログラムは、第一記憶部から楽曲データを取得する楽曲データ取得手順と、その取得された楽曲データからボーカルデータを抽出する抽出手順と、その抽出されたボーカルデータについて、楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての技巧特徴量を決定する決定手順と、その決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する生成手順とをコンピュータに実行させる。 The program in this case constitutes music data for the music data acquisition procedure for acquiring music data from the first storage unit, the extraction procedure for extracting vocal data from the acquired music data, and the extracted vocal data A determination procedure for determining a technique feature amount for a plurality of singing techniques for each note section, which is a predetermined note section, and a technique feature that satisfies a predetermined condition among the determined technique feature quantities of the note section The amount is determined, and the computer is caused to execute a generation procedure for generating data associating the note interval corresponding to the determined skill feature amount and the determined skill feature amount as evaluation data used for singing evaluation .
本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された情報処理装置として機能させることができる。 If the present invention is implemented as a program, it can be used by loading it into a computer from a recording medium as necessary and starting it, or by acquiring it and starting it through a communication line as necessary. And by making a computer perform each procedure, the computer can be functioned as an information processing apparatus described in claim 1.
なお、ここで言う記録媒体には、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。 The recording medium referred to here includes, for example, a computer-readable electronic medium such as a DVD-ROM, a CD-ROM, and a hard disk.
以下に本発明の実施形態を図面と共に説明する。
[第一実施形態]
〈カラオケシステムの構成〉
図1に示すカラオケシステム1は、ユーザ(利用者)が指定した楽曲を演奏し、その演奏に合わせてユーザが歌唱するシステムである。
Embodiments of the present invention will be described below with reference to the drawings.
[First embodiment]
<Configuration of karaoke system>
The karaoke system 1 shown in FIG. 1 is a system in which a music specified by a user (user) is played and the user sings along with the performance.
これを実現するために、カラオケシステム1は、情報処理サーバ10と、少なくとも一台のカラオケ装置30とを備えている。情報処理サーバ10とカラオケ装置30とは、通信網を介して接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。
In order to realize this, the karaoke system 1 includes an
情報処理サーバ10は、楽曲ごとに用意された楽曲データMD−1〜MD−Nを格納する。カラオケ装置30は、ユーザ(利用者)が指定した楽曲に対応する楽曲データMDを情報処理サーバ10から取得し、その楽曲データMDに基づいて楽曲を演奏すると共に、その楽曲の演奏中に音声の入力を受け付ける。
The
なお、符号「N」は、楽曲データMDを識別する識別子であり、「N」は、2以上の自然数である。
〈情報処理サーバ〉
情報処理サーバ10は、通信部12と、記憶部14と、制御部16とを備えている。
The code “N” is an identifier for identifying the music data MD, and “N” is a natural number of 2 or more.
<Information processing server>
The
このうち、通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。
制御部16は、ROM18,RAM20,CPU22を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM18は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納する。RAM20は、処理プログラムやデータを一時的に格納する。CPU22は、ROM18やRAM20に記憶された処理プログラムに従って各処理(各種演算)を実行する。
Among these, the
The
すなわち、制御部16は、情報処理サーバ10を構成する各部を制御すると共に、カラオケ装置30との間のデータ通信を実行する。
記憶部14は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部14には、少なくとも、複数の楽曲データMDが格納される。
That is, the
The
楽曲データMDは、楽曲に関する情報が記述された楽曲管理情報と、楽曲の演奏音を表す原盤波形データと、楽曲の歌詞を表す歌詞データとを備えている。楽曲管理情報には、少なくとも、楽曲を識別する楽曲識別情報(例えば、曲番号)が含まれる。 The music data MD includes music management information in which information related to music is described, master waveform data representing the performance sound of the music, and lyric data representing the lyrics of the music. The music management information includes at least music identification information (for example, music number) for identifying music.
本実施形態の原盤波形データは、複数の楽器の演奏音と、主旋律を歌唱した歌唱音を含む音声データである。この音声データは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。 The master waveform data of the present embodiment is sound data including performance sounds of a plurality of musical instruments and singing sounds singing the main melody. The audio data may be data constituted by an audio file in an uncompressed audio file format, or data constituted by an audio file in an audio compression format.
なお、以下では、原盤波形データに含まれる演奏音を表す音声データを伴奏データと称し、原盤波形データに含まれる歌唱音を表す音声データをボーカルデータと称す。
本実施形態の伴奏データに含まれる楽器の演奏音としては、打楽器(例えば、ドラム,太鼓,シンバルなど)の演奏音,弦楽器(例えば、ギター,ベースなど)の演奏音,打弦楽器(例えば、ピアノ)の演奏音,及び管楽器(例えば、トランペットやクラリネットなど)の演奏音がある。一般的な楽曲においては、通常、打楽器やベースがリズム楽器となる。
In the following description, the sound data representing the performance sound included in the master waveform data is referred to as accompaniment data, and the sound data indicating the singing sound included in the master waveform data is referred to as vocal data.
Musical instrument performance sounds included in the accompaniment data of the present embodiment include percussion instrument (eg, drum, drum, cymbal, etc.) performance sounds, stringed instrument (eg, guitar, bass, etc.) performance sounds, percussion instrument (eg, piano) ) And wind instruments (eg, trumpet, clarinet, etc.). In general music, a percussion instrument and a bass are usually rhythm instruments.
なお、記憶部14に格納される楽曲データMDには、プロが作曲した楽曲の楽曲データMDに加えて、カラオケシステム1の一般ユーザが作詞・作曲した楽曲の楽曲データMDも含まれる。この一般ユーザが作詞・作曲した楽曲の楽曲データMDは、周知の情報処理端末(例えば、パーソナルコンピュータや携帯端末)にて作成され、情報処理サーバ10にアップロードされる。
〈カラオケ装置〉
カラオケ装置30は、通信部32と、入力受付部34と、楽曲再生部36と、記憶部38と、音声制御部40と、映像制御部46と、制御部50とを備えている。
The music data MD stored in the
<Karaoke equipment>
The
通信部32は、通信網を介して、カラオケ装置30が外部との間で通信を行う。入力受付部34は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。本実施形態における入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。
In the
楽曲再生部36は、記憶部38に記憶されている楽曲データMDや、情報処理サーバ10からダウンロードした楽曲データMDに基づいて楽曲の再生を行う。音声制御部40は、音声の入出力を制御するデバイスであり、出力部42と、マイク入力部44とを備えている。
The
マイク入力部44には、マイク62が接続される。これにより、マイク入力部44は、ユーザの歌唱音を取得する。出力部42にはスピーカ60が接続されている。出力部42は、楽曲再生部36によって再生される楽曲の音源信号、マイク入力部44からの歌唱音の音源信号をスピーカ60に出力する。スピーカ60は、出力部42から出力される音源信号を音に換えて出力する。
A
映像制御部46は、制御部50から送られてくる映像データに基づく映像の出力を行う。映像制御部46には、映像の表示を行う表示部64が接続されている。
制御部50は、ROM52,RAM54,CPU56を少なくとも有した周知のコンピュータを中心に構成されている。ROM52は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納する。RAM54は、処理プログラムやデータを一時的に格納する。CPU56は、ROM52やRAM54に記憶された処理プログラムに従って各処理(各種演算)を実行する。
The
The
そして、ROM52には、制御部50が、カラオケ採点処理を実行するための処理プログラムと、評価データ生成処理を実行するための処理プログラムと、標準特徴量算出処理を実行するための処理プログラムとが格納されている。
The
なお、カラオケ採点処理は、ユーザによって指定された楽曲を演奏し、その演奏期間中にマイク62を介して入力された音声を評価する処理である。評価データ生成処理は、カラオケ採点処理に必要な評価データを楽曲データMDごとに生成する処理である。標準特徴量算出処理は、評価データの生成に用いる標準特徴量を算出する処理である。
The karaoke scoring process is a process of playing music designated by the user and evaluating the voice input through the
つまり、カラオケ装置30は、標準特徴量算出処理に従って、評価情報としての標準特徴量を算出すると共に、評価データ生成処理に従って、楽曲データMDごとに評価データを生成する。そして、カラオケ装置30は、カラオケ採点処理に従って、対象楽曲に対応する楽曲データMDに基づいて楽曲を演奏し、その演奏中に、マイク62を介して入力された音声を歌唱データとして取得する。さらに、カラオケ装置30は、カラオケ採点処理に従って、その取得した歌唱データを採点して評価する。
That is, the
すなわち、カラオケ装置30は、標準特徴量算出処理、評価データ生成処理、及びカラオケ採点処理を実行する情報処理装置として機能する。
〈標準特徴量算出処理〉
次に、カラオケ装置30の制御部50が実行する標準特徴量算出処理について説明する。
That is, the
<Standard feature calculation processing>
Next, a standard feature amount calculation process executed by the
この標準特徴量算出処理は、予め規定された時間間隔で起動される。なお、標準特徴量算出処理の起動タイミングは、予め規定された時間間隔ごとに限らず、標準特徴量算出処理を実行するための処理プログラム(アプリケーション)を起動するための起動指令が、入力受付部34を介して入力されたタイミングでも良い。 This standard feature amount calculation process is started at a predetermined time interval. Note that the start timing of the standard feature value calculation process is not limited to a predetermined time interval, and an input command for starting a processing program (application) for executing the standard feature value calculation process is input The timing input via 34 may be used.
そして、標準特徴量算出処理では、図2に示すように、起動されると、まず、制御部50は、情報処理サーバ10に格納されている全ての楽曲データMDの中から、一つの楽曲データMDを取得する(S110)。続いて、制御部50は、S110にて取得した楽曲データMDに含まれる原盤波形データを取得する(S120)。
In the standard feature amount calculation process, as shown in FIG. 2, when activated, the
さらに、標準特徴量算出処理では、制御部50は、S120にて取得した原盤波形データから、伴奏データとボーカルデータとを分離して、伴奏データ及びボーカルデータを抽出する(S130)。このS130において、制御部50が、伴奏データとボーカルデータとを分離する手法として、周知の手法(例えば、特開2008−134606に記載された“PreFEst”)が考えられる。なお、PreFEstとは、原盤波形データにおいて最も優勢な音声波形をボーカルデータとして原盤波形データから分離し、残りの音声波形を伴奏データとして分離する手法である。
Further, in the standard feature amount calculation process, the
続いて、標準特徴量算出処理では、制御部50は、S130にて抽出したボーカルデータを採譜処理する(S140)。このS140における採譜処理は、ボーカルデータにおける音圧の時間変化と、ボーカルデータにおける音高の時間変化とに基づいて採譜する周知の手法である。
Subsequently, in the standard feature value calculation process, the
すなわち、採譜処理では、制御部50は、ボーカルデータにおける音圧の時間変化が規定閾値以上となったタイミングを、楽曲における歌唱旋律を構成する各音符の開始タイミングnnt(a,i)として特定する。さらに、採譜処理では、制御部50は、ボーカルデータにおける音圧の時間変化が規定閾値以下となったタイミングを、楽曲における歌唱旋律を構成する各音符の終了タイミングnft(a,i)として特定する。
That is, in the music recording process, the
採譜処理では、制御部50は、互いに対応する開始タイミングnnt(a,i)及び終了タイミングnft(a,i)によって特定される区間を各音符の音符区間として特定する。これと共に、採譜処理では、制御部50は、ボーカルデータにおける音高の時間変化に基づいて、各音符区間における音高を特定し、各音符区間とその音符区間における音高nn(a,i)とを対応付ける。
In the music recording process, the
なお、符号aは、楽曲を識別する符号であり、符号iは、楽曲における歌唱旋律の音符区間を識別する符号である。
標準特徴量算出処理では、制御部50は、さらに、複数の歌唱技巧についての評価を表す技巧特徴量を、楽曲における音符区間ごとに決定する(S150)。ここで言う複数の歌唱技巧には、“ビブラート”,“ため”,“しゃくり”,“フォール”,“こぶし”を含む。
In addition, the code | symbol a is a code | symbol which identifies a music, and the code | symbol i is a code | symbol which identifies the musical note area of the song melody in a music.
In the standard feature value calculation process, the
このうち、“ビブラート”についての技巧特徴量(以下、「ビブラート特徴量」と称す)vib(a,i)の算出では、制御部50は、まず、ボーカルデータから各音符区間に対応する音声波形を抽出し、各音符区間の音声波形について周波数解析(DFT)を実施する。そして、制御部50は、下記(1)式に従って、ビブラート特徴量vib(a,i)を算出する。
Among these, in calculating the technical feature amount (hereinafter referred to as “vibrato feature amount”) vib (a, i) for “vibrato”, the
“ため”についての技巧特徴量(以下、「ため特徴量」と称す)tt(a,i)の算出では、制御部50は、まず、伴奏データにおける非調波成分の音声波形をリズム楽器の演奏音波形として抽出する。この非調波成分の抽出手法として、非調波成分の音声波形を表すフィルタとして予め用意されたフィルタに伴奏音データを通過させることや、“スペクトログラムの滑らかさの異方性に基づいた調波音・打楽器音の分離”(日本音響学会春季研究発表会講演論文集,2−5−8,p.903−904(2008.03))に記載された手法などを用いることが考えられる。
In calculating the technical feature amount (hereinafter referred to as “for feature amount”) tt (a, i) for “for”, the
さらに、ため特徴量tt(a,i)の算出では、制御部50は、リズム楽器の演奏音波形において、音圧が規定値以上となるタイミングを拍の位置として推定する。続いて、制御部50は、楽曲の歌唱旋律を構成する音符の中で、音価が最も短い音符(以下、「最短音符」と称す)を抽出する。そして、制御部50は、抽出した最短音符の音価にて拍の位置の間隔を除すことで、発声タイミングを特定する。ここで言う発声タイミングとは、各音符iに対して歌唱を開始する可能性のあるタイミングである。
Further, in calculating the feature quantity tt (a, i), the
ため特徴量tt(a,i)の算出では、さらに、制御部50は、規定条件を満たす発声タイミングを特定する。ここで言う規定条件を満たすとは、開始タイミングnnt(a,i)よりも遅い発声タイミングであって、かつ、開始タイミングnnt(a,i)から減算した値の絶対値が最小となる発声タイミングである。そして、特定した発声タイミングを開始タイミングnnt(a,i)から減算した時間長を、ため特徴量tt(a,i)として算出する。
Therefore, in the calculation of the feature quantity tt (a, i), the
“しゃくり”についての技巧特徴量(以下、「しゃくり特徴量」と称す)rise(a,i)の算出では、制御部50は、まず、ボーカルデータの音高時間変化を微分した微分変化を導出する。続いて、制御部50は、各音符区間の開始タイミングnnt(a,i)以前で、微分変化が時間軸に沿って正の値となったタイミングを特定する。さらに、制御部50は、その特定した各タイミングから開始タイミングnnt(a,i)までの区間におけるボーカルデータの音高時間変化と予め規定された模範曲線との相互相関値を、しゃくり特徴量rise(a,i)として導出する。
In calculating the skill feature amount (hereinafter referred to as “shackle feature amount”) rise (a, i) for “shrimp”, the
“フォール”についての技巧特徴量(以下、「フォール特徴量」と称す)fall(a,i)の算出では、制御部50は、各音符区間の終了タイミングnft(a,i)以降で、微分変化が時間軸に沿って正の値となった最初のタイミングを特定する。さらに、制御部50は、歌唱旋律を構成する各音符区間の終了タイミングnft(a,i)から、その特定したタイミングまでの区間におけるボーカルデータの音高時間変化と、予め規定された模範曲線との相互相関値を、フォール特徴量fall(a,i)として導出する。
In calculating the technical feature amount (hereinafter referred to as “fall feature amount”) fall (a, i) for “fall”, the
“こぶし”についての技巧特徴量(以下、「こぶし特徴量」と称す)kob(a,i)の算出では、制御部50は、まず、こぶし区間を特定する。ここで言うこぶし区間とは、複数の音高に渡る各音符区間を同一母音で音高を変化させながら歌っている区間である。
In calculating the technical feature amount (hereinafter referred to as “fist feature amount”) kob (a, i) for “fist”, the
このため、こぶし特徴量kob(a,i)の算出では、制御部50は、同一母音で発声された区間(以下、「同一母音区間」と称す)を特定する。この同一母音区間の特定方法として、各音符区間のメル周波数ケプストラム(MFCC)の平均値の相互相関を導出し、相互相関値が閾値以上である音符区間を同一母音区間として特定する方法を用いる。
For this reason, in calculating the fist feature value kob (a, i), the
また、制御部50は、同一母音区間において、設定条件を満たす同一母音区間だけをこぶし区間として特定する。ここで言う設定条件を満たすとは、時間軸に沿って隣接する音符区間の終了タイミングnft(a−1,i)と開始タイミングnnt(a,i)との時間間隔が閾値以下であり、かつ、隣接する音符区間の音高が全て異なることである。
In addition, the
そして、こぶし特徴量kob(a,i)の算出では、制御部50は、こぶし区間におけるボーカル波形からクロマベクトルを算出する。さらに、制御部50は、同こぶし区間における伴奏データのクロマベクトルを算出し、ボーカル波形のクロマベクトルとの相互相関値をこぶし特徴量kob(a,i)として算出する。
In calculating the fist feature value kob (a, i), the
標準特徴量算出処理では、続いて、制御部50が、複数の歌唱技巧について評価した評価情報としての楽曲特徴量を算出する(S160)。この楽曲特徴量とは、ビブラート特徴量vib,ため特徴量tt,しゃくり特徴量rise,フォール特徴量fall,こぶし特徴量kobそれぞれについての楽曲内での平均値である。ただし、S160では、制御部50は、歌唱旋律を構成する音符区間の音価、かつ、音高の組み合わせごとに、各歌唱技巧の楽曲特徴量を算出する。
In the standard feature value calculation process, the
標準特徴量算出処理では、続いて、制御部50は、楽曲特徴量を算出するまでの処理(即ち、S110〜S160)を、全ての楽曲データMDに対して実行したか否かを判定する(S170)。このS170での判定の結果、楽曲特徴量を算出するまでの処理を、全ての楽曲データMDに対して実行していなければ(S170:NO)、制御部50は、標準特徴量算出処理をS110へと戻す。そして、制御部50は、処理を未実行の楽曲データMDを情報処理サーバ10から取得して、S120へと移行する。
In the standard feature value calculation process, the
一方、S170での判定の結果、楽曲特徴量を算出するまでの処理を、全ての楽曲データMDに対して実行していれば(S170:YES)、制御部50は、標準特徴量算出処理をS180へと進める。
On the other hand, as a result of the determination in S170, if the process until calculating the music feature amount is executed for all the music data MD (S170: YES), the
そのS180では、制御部50は、音符区間の音価、かつ、音高の組み合わせごとに算出された楽曲特徴量それぞれの、全ての楽曲データに渡った平均値及び標準偏差を標準特徴量として算出する。なお、S180では、制御部50は、標準特徴量を、音符区間の音価かつ音高の組み合わせごとに算出する。
In S180, the
標準特徴量算出処理では、制御部50は、S180にて算出した音符区間の音価かつ音高の組み合わせごとに算出された標準特徴量を、情報処理サーバ10の記憶部14にアップロードする(S190)。
In the standard feature amount calculation process, the
その後、本標準特徴量算出処理を終了する。
つまり、本実施形態の標準特徴量算出処理では、制御部50は、複数の楽曲のボーカルデータについての各歌唱技巧の評価を表す技巧特徴量を算出する。さらに、標準特徴量算出処理では、制御部50は、その算出された技巧特徴量を、歌唱旋律を構成する音符区間の音価、かつ、音高の組み合わせごとに平均した平均値及び標準偏差を求める。そして、標準特徴量算出処理では、制御部50は、音符区間の音価かつ音高ごとに求められた標準特徴量を、情報処理サーバ10の記憶部14に格納する。
〈評価データ生成処理〉
次に、カラオケ装置30の制御部50が実行する評価データ生成処理について説明する。
Thereafter, the standard feature amount calculation process is terminated.
That is, in the standard feature value calculation process of the present embodiment, the
<Evaluation data generation process>
Next, an evaluation data generation process executed by the
この評価データ生成処理は、評価データ生成処理を実行するための起動指令が入力されると起動される。
そして、評価データ生成処理では、図3に示すように、起動されると、まず、制御部50は、情報処理サーバ10に格納されている全ての楽曲データMDの中から、一つの楽曲データMDを取得する(S210)。続いて、制御部50は、S210にて取得した楽曲データMDに含まれる原盤波形データを取得する(S220)。
The evaluation data generation process is started when a start command for executing the evaluation data generation process is input.
Then, in the evaluation data generation process, as shown in FIG. 3, when activated, the
さらに、評価データ生成処理では、制御部50は、S220にて取得した原盤波形データから、伴奏データとボーカルデータとを分離して抽出する(S230)。このS230における伴奏データとボーカルデータとを分離する手法は、標準特徴量算出処理におけるS130と同様の手法を用いれば良い。
Further, in the evaluation data generation process, the
続いて、評価データ生成処理では、制御部50は、S230にて抽出したボーカルデータを採譜処理する(S240)。このS240における採譜処理は、標準特徴量算出処理のS140における採譜処理と同様の方法を用いれば良い。
Subsequently, in the evaluation data generation process, the
評価データ生成処理では、制御部50は、さらに、S230にて抽出したボーカルデータについての技巧特徴量それぞれを、楽曲における音符区間ごとに決定する(S250)。このS250における技巧特徴量を決定する手法は、標準特徴量算出処理におけるS150と同様の方法を用いれば良い。
In the evaluation data generation process, the
評価データ生成処理では、制御部50は、情報処理サーバ10の記憶部14に格納されている標準特徴量を取得する(S260)。続いて、制御部50は、特徴量距離を歌唱技巧ごとに算出する(S270)。
In the evaluation data generation process, the
このS270では、具体的に、制御部50は、S250にて決定した技巧特徴量と標準特徴量における平均値との差分の絶対値を、標準特徴量における標準偏差で除した値を、特徴量距離として算出する。ただし、S270では、制御部50は、音符区間の音価かつ音高の組み合わせごと、かつ歌唱技巧ごとに特徴量距離を算出する。
In S270, specifically, the
さらに、評価データ生成処理では、制御部50は、評価データを生成する(S280)。このS280では、制御部50は、まず、音符区間ごとに、特定条件を満たす特徴距離に対応する歌唱技巧を特定する。ここで言う特定条件を満たすとは、S270で算出した各歌唱技巧の特徴量距離の中で、予め規定された基準値以上であり、かつ最大となる特徴量距離となることである。
Further, in the evaluation data generation process, the
そして、制御部50は、その特定条件を満たす各技巧特徴量(以下、「特定特徴量」と称す)を、その特定特徴量に対応する音符区間それぞれと対応付けた情報を評価データとして生成する。
Then, the
すなわち、S270では、制御部50は、歌唱旋律を構成する各音符区間での技巧特徴量と標準特徴量との差分が基準範囲外である場合に、その基準範囲外となる技巧特徴量を、所定の条件を満たす技巧特徴量(即ち、特定特徴量)として決定する。そして、制御部50は、音符区間の中で特徴的な歌唱技巧が用いられている音符区間と、その特徴的な歌唱技巧の技巧特徴量とを対応付けた情報を評価データとして生成する。
That is, in S270, when the difference between the technical feature amount and the standard feature amount in each note section constituting the singing melody is outside the reference range, the
続いて、評価データ生成処理では、制御部50は、S240における採譜処理の結果をリファレンスデータとして生成する(S290)。ここで言うリファレンスデータとは、歌唱すべき旋律を構成する音符区間(即ち、音高と音価と)を表したデータである。
Subsequently, in the evaluation data generation process, the
そして、評価データ生成処理では、制御部50は、楽曲識別情報と、評価データと、リファレンスデータとを対応付けて情報処理サーバ10の記憶部14にアップロードする(S300)。
In the evaluation data generation process, the
その後、評価データ生成処理を終了する。
つまり、評価データ生成処理では、制御部50が、楽曲において特徴的な歌唱技巧が用いられている音符区間ごとに、その歌唱技巧を評価した評価データを生成する。さらに、評価データ生成処理では、制御部50は、リファレンスデータを生成し、評価データと共に情報処理サーバ10の記憶部14に格納する。
〈カラオケ採点処理〉
次に、カラオケ装置30の制御部50が実行するカラオケ採点処理について説明する。
Thereafter, the evaluation data generation process ends.
That is, in the evaluation data generation process, the
<Karaoke scoring>
Next, the karaoke scoring process which the
このカラオケ採点処理は、カラオケ採点処理を実行するための処理プログラムを起動する指令が入力受付部34を介して入力されると起動される。
そして、カラオケ採点処理では、起動されると、図4に示すように、制御部50は、まず、入力受付部34を介して指定された楽曲に対応する楽曲データMDを、情報処理サーバ10の記憶部14から取得する(S510)。続いて、制御部50は、S510にて取得した楽曲データMDに含まれている伴奏データを抽出する(S520)。
This karaoke scoring process is started when a command for starting a processing program for executing the karaoke scoring process is input via the
In the karaoke scoring process, when activated, as shown in FIG. 4, the
そして、カラオケ採点処理では、制御部50は、伴奏データを再生して楽曲を演奏する(S530)。具体的にS530では、制御部50は、楽曲再生部36に伴奏データを出力し、その伴奏データを取得した楽曲再生部36は、楽曲の再生を行う。そして、楽曲再生部36によって再生される楽曲の音源信号が、出力部42を介してスピーカ60へと出力される。すると、スピーカ60は、音源信号を音に換えて出力する。
In the karaoke scoring process, the
さらに、カラオケ採点処理では、制御部50は、マイク62及びマイク入力部44を介して入力された音声を歌唱データとして取得する(S540)。そして、制御部50は、S540にて取得した歌唱データを記憶部38に格納する(S550)。
Further, in the karaoke scoring process, the
続いて、カラオケ採点処理では、制御部50は、楽曲の演奏を終了したか否かを判定する(S560)。この判定の結果、楽曲の演奏を終了していなければ(S560:NO)、制御部50は、カラオケ採点処理をS540へと戻す。一方、S560での判定の結果、楽曲の演奏が終了していれば(S560:YES)、制御部50は、カラオケ採点処理をS570へと移行させる。
Subsequently, in the karaoke scoring process, the
そのS570では、制御部50は、記憶部38に格納されている全ての歌唱データを取得する。そして、制御部50は、楽曲における時間軸に沿った歌唱データから、歌唱旋律を構成する各音符を歌唱した区間(以下、「音符歌唱区間」と称す)の歌唱波形それぞれを抽出する(S580)。この音符歌唱区間の特定は、「ボーカルデータ」を「歌唱データ」へと読み替えることを除けば、標準特徴量算出処理におけるS140と同様の方法で実施すれば良い。
In S <b> 570, the
続いて、カラオケ採点処理では、制御部50は、歌唱データについての歌唱技巧を評価した技巧特徴量(以下、「歌唱特徴量」と称す)を算出する(S590)。この歌唱特徴量の算出方法は、「ボーカルデータ」を「歌唱データ」へと読み替えることを除けば、標準特徴量算出処理におけるS150及びS160と同様であるため、ここでの詳しい説明
は省略する。
Subsequently, in the karaoke scoring process, the
さらに、カラオケ採点処理では、制御部50は、基準評価点を算出する(S600)。このS600での基準評価点の算出では、制御部50は、各音符歌唱区間における歌唱波形の音高推移を、リファレンスデータにおける音高推移に照合する。そして、制御部50は、照合の結果、一致度が高いほど高い点数とした基準評価点を算出する。
Further, in the karaoke scoring process, the
続いて、カラオケ採点処理では、制御部50は、技巧評価点を算出する(S610)。このS610での技巧評価点の算出では、制御部50は、まず、標準特徴量、及びS510にて取得した楽曲データMDの評価データを取得する。そして、S590にて算出した歌唱特徴量と、取得した評価データと、標準特徴量とに基づいて、制御部50は、音符区間ごとに、下記式に従って音符毎評価点を算出する。
Subsequently, in the karaoke scoring process, the
音符毎評価点=α×向き×(歌唱特徴量−標準特徴量における平均値)/標準特徴量における標準偏差
ただし、上記の音符毎評価点を求める式おいて、向きは、評価データに含まれる特定特徴量と歌唱特徴量との差分における正負であり、「1」または「−1」である。
Evaluation score for each note = α × direction × (average value in singing feature value−standard feature value) / standard deviation in standard feature value However, in the above formula for calculating the evaluation score for each note, the direction is included in the evaluation data. It is positive or negative in the difference between the specific feature value and the singing feature value, and is “1” or “−1”.
また、上記の音符毎評価点を求める式おける符号αは、歌唱技巧に対する点数の重みであり、予め規定された定数である。
さらに、技巧評価点の算出では、制御部50は、楽曲全体に渡る音符毎評価点の平均値を技巧評価点として算出する。
Further, the symbol α in the equation for obtaining the evaluation score for each note is a weight of the score for the singing skill, and is a predetermined constant.
Furthermore, in the calculation of the skill evaluation score, the
さらに、カラオケ採点処理では、制御部50は、S600にて算出した基準評価点に、S610にて算出した技巧評価点を加算することで、総合評価点を算出する(S620)。そして、制御部50は、S620にて算出した総合評価点を表示部64に表示させる(S630)。S630での表示は、制御部50が、映像制御部46を介して表示部64に対して制御信号を出力することで実現する。なお、表示部64に表示される評価点は、総合評価点だけに限らず、基準評価点、技巧評価点の少なくとも一方を含んでも良い。
Further, in the karaoke scoring process, the
その後、本カラオケ採点処理を終了し、次の起動タイミングまで待機する。
つまり、カラオケ採点処理では、制御部50は、楽曲の演奏中に入力された音声を歌唱データとして記憶する。そして、カラオケ採点処理では、制御部50は、記憶した歌唱データを解析して歌唱特徴量を算出する。さらに、カラオケ採点処理では、制御部50は、楽曲における特徴的な技巧が強く表れているほど、大きな点数となるように技巧評価点を算出する。
Thereafter, the karaoke scoring process is terminated, and the system waits until the next activation timing.
That is, in the karaoke scoring process, the
また、カラオケ採点処理では、制御部50は、各音符歌唱区間における歌唱波形の音高推移をリファレンスデータにおける音高推移に照合し、一致度が高いほど、高い点数とした基準評価点を算出する。そして、制御部50は、技巧評価点と基準評価点との合計を、総合評価点として算出する。
[第一実施形態の効果]
以上説明したように、カラオケシステム1によれば、楽曲データMDに対応する評価データを自動で生成することができる。
Further, in the karaoke scoring process, the
[Effect of the first embodiment]
As described above, according to the karaoke system 1, the evaluation data corresponding to the music data MD can be automatically generated.
したがって、カラオケシステム1において、一般の人間が作詞作曲した楽曲の楽曲データMDであっても、その楽曲についての評価データを自動生成できる。
さらに、カラオケシステム1においては、歌唱旋律を構成する音符区間において特徴的に用いられる歌唱技巧を特徴技巧として特定している。そして、カラオケ採点処理では、その音符区間が歌唱された音声において特徴技巧が強く表れていれば、大きな点数の技巧
評価点を基準評価点に付加している。
Therefore, in the karaoke system 1, even if it is the music data MD of the music composed by a general human, evaluation data for the music can be automatically generated.
Furthermore, in the karaoke system 1, the singing technique used characteristically in the note interval which comprises a singing melody is specified as a characteristic technique. Then, in the karaoke scoring process, if the characteristic skill is strongly expressed in the voice in which the note interval is sung, a large skill evaluation score is added to the reference evaluation score.
この結果、カラオケシステム1を用いて歌唱を評価すれば、楽曲に対して多くの人間が有している印象に合致するように評価できる。
[第二実施形態]
第二実施形態のカラオケシステムは、第一実施形態のカラオケシステム1とは、主として、評価データ生成処理の内容が異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なる評価データ処理を中心に説明する。
〈評価データ生成処理〉
本実施形態における評価データ生成処理は、評価データ生成処理を実行するための起動指令が入力されると起動される。
As a result, if singing is evaluated using the karaoke system 1, it can be evaluated so as to match the impression many people have with respect to the music.
[Second Embodiment]
The karaoke system of the second embodiment is mainly different from the karaoke system 1 of the first embodiment in the content of the evaluation data generation process. For this reason, in the present embodiment, the same configurations and processes as those in the first embodiment are denoted by the same reference numerals, description thereof will be omitted, and evaluation data processing different from that in the first embodiment will be mainly described.
<Evaluation data generation process>
The evaluation data generation process in the present embodiment is started when a start command for executing the evaluation data generation process is input.
そして、評価データ生成処理では、図5に示すように、起動されると、まず、制御部50は、情報処理サーバ10に格納されている全ての楽曲データMDの中から、一つの楽曲データMDを取得する(S710)。続いて、制御部50は、S710にて取得した楽曲データMDに含まれる原盤波形データを取得する(S720)。
In the evaluation data generation process, as shown in FIG. 5, when activated, the
さらに、評価データ生成処理では、制御部50は、S720にて取得した原盤波形データから、伴奏データとボーカルデータとを分離して、伴奏データ及びボーカルデータを抽出する(S730)。このS730における伴奏データとボーカルデータとを分離する手法は、標準特徴量算出処理におけるS130と同様の手法を用いれば良い。
Further, in the evaluation data generation process, the
続いて、評価データ生成処理では、制御部50は、S730にて抽出したボーカルデータを採譜処理する(S740)。このS740における採譜処理は、標準特徴量算出処理のS140における採譜処理と同様の方法を用いれば良い。
Subsequently, in the evaluation data generation process, the
評価データ生成処理では、制御部50は、さらに、S730にて抽出したボーカルデータについての技巧特徴量それぞれを、楽曲における音符区間ごとに決定する(S750)。このS750における技巧特徴量を決定する手法は、標準特徴量算出処理におけるS150と同様の方法を用いれば良い。
In the evaluation data generation process, the
評価データ生成処理では、続いて、制御部50は、特徴量分布を算出する(S760)。このS760にて算出する特徴量分布とは、歌唱旋律を構成する音符区間の音高かつ音価ごとに、S750にて算出した技巧特徴量を集計した分布である。なお、S760では、制御部50は、歌唱技巧ごとに特徴量分布を算出する。
In the evaluation data generation process, subsequently, the
さらに、評価データ生成処理では、制御部50は、評価データを生成する(S770)。このS770では、制御部50は、S760にて算出した特徴量分布において、楽曲における特徴として有意な範囲に含まれる技巧特徴量であって、各音符区間における歌唱技巧ごとの技巧特徴量の中で最大である技巧特徴量を特定特徴量として特定する。そして、制御部50は、その特定された特定特徴量と、その特定特徴量に対応する音符区間とを対応付けた情報を評価データとして生成する。
Further, in the evaluation data generation process, the
続いて、評価データ生成処理では、制御部50は、S740における採譜処理の結果をリファレンスデータとして生成する(S780)。
そして、評価データ生成処理では、制御部50は、楽曲識別情報と、評価データと、リファレンスデータとを対応付けて情報処理サーバ10の記憶部14にアップロードする(S790)。
Subsequently, in the evaluation data generation process, the
In the evaluation data generation process, the
その後、評価データ生成処理を終了する。
[第二実施形態の効果]
第二実施形態のカラオケシステム1によれば、評価データの生成に必要なデータを楽曲におけるボーカルデータだけとすることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
Thereafter, the evaluation data generation process ends.
[Effects of Second Embodiment]
According to the karaoke system 1 of the second embodiment, the data necessary for generating the evaluation data can be only vocal data in the music.
[Other Embodiments]
As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment, In the range which does not deviate from the summary of this invention, it is possible to implement in various aspects.
上記実施形態では、標準特徴量算出処理,評価データ生成処理,カラオケ採点処理を、カラオケ装置30が実行していたが、これらの標準特徴量算出処理,評価データ生成処理,カラオケ採点処理を実行する装置は、カラオケ装置30に限るものではない。例えば、標準特徴量算出処理,評価データ生成処理,カラオケ採点処理を実行する装置は、情報処理サーバ10であっても良いし、その他の情報処理装置であっても良い。
In the above embodiment, the
また、上記実施形態の評価データ生成処理では、各特定特徴量と、その特定特徴量に対応する音符区間それぞれと対応付けた情報を評価データとして生成していたが、評価データは、これに限るものではない。 In the evaluation data generation process of the above embodiment, each specific feature amount and information associated with each note interval corresponding to the specific feature amount are generated as evaluation data. However, the evaluation data is limited to this. It is not a thing.
例えば、技巧特徴量が予め規定された基準閾値よりも小さい音符区間の情報、即ち、所定の歌唱技巧を用いることが不適切な音符区間表す情報を、評価データに含めても良い。これにより、歌唱技巧を用いることを禁止する音符区間を表す情報を、評価データに含めることができる。 For example, the evaluation data may include information on a note interval in which the skill feature amount is smaller than a predetermined reference threshold value, that is, information indicating a note interval in which it is inappropriate to use a predetermined singing skill. Thereby, the information showing the note area which prohibits using a singing technique can be included in evaluation data.
また、評価データ生成処理にて生成される評価データは、特徴技巧を用いるべき音符区間と、その特徴技巧の内容及び技巧特徴量とを表したデータであったが、評価データ生成処理にて生成される評価データはこれに限るものではない。評価データは、例えば、音符区間ごとの各歌唱技巧に付与すべき重みを表したデータであっても良い。 The evaluation data generated by the evaluation data generation process is data representing the note interval in which the feature technique should be used, the contents of the feature technique, and the technique feature amount, but is generated by the evaluation data generation process. The evaluation data to be performed is not limited to this. The evaluation data may be, for example, data representing a weight to be given to each singing technique for each note interval.
この場合、カラオケ採点処理において、制御部50は、次の手順にて技巧評価点を算出すれば良い。
まず、制御部50は、以下の式に従って、音符毎評価点を算出する。
In this case, in the karaoke scoring process, the
First, the
音符毎評価点=α×Σ×(重み×向き×(歌唱特徴量−標準特徴量における平均値)/標準特徴量における標準偏差)
ただし、上記の音符毎評価点を求める式おいて、和を求める対象(即ち、シグマの対象)は、歌唱技巧である。また、向きは、評価データに含まれる特定特徴量と歌唱特徴量との差分における正負であり、「1」または「−1」である。
Evaluation score for each note = α × Σ × (weight × direction × (singing feature value−average value in standard feature value) / standard deviation in standard feature value)
However, in the above formula for obtaining the evaluation score for each note, the object for obtaining the sum (that is, the object of sigma) is a singing technique. The direction is positive or negative in the difference between the specific feature amount and the singing feature amount included in the evaluation data, and is “1” or “−1”.
また、上記の音符毎評価点を求める式おける符号αは、歌唱技巧に対する点数の重みであり、予め規定された定数である。
さらに、技巧評価点の算出では、制御部50は、楽曲全体に渡る音符毎評価点の平均値を技巧評価点として算出する。
Further, the symbol α in the equation for obtaining the evaluation score for each note is a weight of the score for the singing skill, and is a predetermined constant.
Furthermore, in the calculation of the skill evaluation score, the
なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
In addition, the aspect which abbreviate | omitted a part of structure of the said embodiment as long as the subject could be solved is also embodiment of this invention. Further, an aspect configured by appropriately combining the above embodiment and the modification is also an embodiment of the present invention. Moreover, all the aspects which can be considered in the limit which does not deviate from the essence of the invention specified by the wording described in the claims are the embodiments of the present invention. [Correspondence between Embodiment and Claims]
Finally, the relationship between the description of the above embodiment and the description of the scope of claims will be described.
上記実施形態の評価データ生成処理におけるS210,S710を実行することで得られる機能が、特許請求の範囲の記載における楽曲データ取得手段に相当し、S220,S230,S720,S730を実行することで得られる機能が、抽出手段に相当する。また、S250,S750を実行することで得られる機能が、決定手段に相当し、S270,S280,S770,S780を実行することで得られる機能が、生成手段に相当する。 The function obtained by executing S210 and S710 in the evaluation data generation process of the above embodiment corresponds to the music data acquisition means described in the claims, and obtained by executing S220, S230, S720, and S730. The function to be performed corresponds to the extraction means. Further, the function obtained by executing S250 and S750 corresponds to the determining means, and the function obtained by executing S270, S280, S770, and S780 corresponds to the generating means.
さらに、上記実施形態のカラオケ採点処理におけるS540,S550,S570を実行することで得られる機能が、特許請求の範囲の記載における歌唱取得手段に相当し、S610を実行することで得られる機能が、評価手段に相当する。また、S530を実行することで得られる機能が、演奏手段に相当する。 Furthermore, the function obtained by executing S540, S550, S570 in the karaoke scoring process of the above embodiment corresponds to the singing acquisition means in the description of the claims, and the function obtained by executing S610, Corresponds to evaluation means. The function obtained by executing S530 corresponds to a performance means.
なお、第1実施形態の評価データ生成処理におけるS260を実行することで得られる機能が、特許請求の範囲の記載における標準取得手段に相当し、第2実施形態の評価データ生成処理におけるS760を実行することで得られる機能が、分布算出手段に相当する。 Note that the function obtained by executing S260 in the evaluation data generation process of the first embodiment corresponds to the standard acquisition means in the description of the claims, and executes S760 in the evaluation data generation process of the second embodiment. The function obtained by doing this corresponds to the distribution calculating means.
1…カラオケシステム 10…情報処理サーバ 12…通信部 14…記憶部 16…制御部 18…ROM 20…RAM 22…CPU 30…カラオケ装置 32…通信部 34…入力受付部 36…楽曲再生部 38…記憶部 40…音声制御部 42…出力部 44…マイク入力部 46…映像制御部 50…制御部 52…ROM 54…RAM 56…CPU 60…スピーカ 62…マイク 64…表示部
DESCRIPTION OF SYMBOLS 1 ...
Claims (8)
前記楽曲データ取得手段により取得された楽曲データから、歌唱した歌唱音を表すボーカルデータを抽出する抽出手段と、
前記抽出手段により抽出されたボーカルデータについて、前記楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての評価を表す技巧特徴量を決定する決定手段と、
前記決定手段により決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する生成手段と
を備えることを特徴とする情報処理装置。 Music data acquisition means for acquiring the music data from the first storage unit storing music data including the sung singing sound;
Extraction means for extracting vocal data representing the sung sound from the music data acquired by the music data acquisition means;
For vocal data extracted by the extraction means, a determination means for determining a skill feature amount representing an evaluation of a plurality of singing techniques for each note section that is a predetermined note section constituting the music data;
Among the technical features of the note interval determined by the determining means, determine a technical feature amount satisfying a predetermined condition, and a note interval corresponding to the determined technical feature amount, and the determined technical feature amount An information processing apparatus comprising: generating means for generating the associated data as evaluation data used for singing evaluation.
前記歌唱取得手段により取得された前記歌唱データについて、前記生成手段で生成された評価データを用いて、前記入力された音声における歌唱技巧を評価する評価手段と
を備えることを特徴とする請求項1に記載の情報処理装置。 Singing acquisition means for acquiring singing data representing voice input during the performance of the music;
An evaluation means for evaluating the singing skill in the input voice using the evaluation data generated by the generation means for the singing data acquired by the singing acquisition means. The information processing apparatus described in 1.
前記情報処理装置は、さらに、
前記抽出手段にて抽出した伴奏データに基づいて、前記楽曲を演奏する演奏手段を備え、
前記歌唱取得手段は、前記演奏手段にて楽曲の演奏中に入力された音声を前記歌唱データとして取得する
ことを特徴とする請求項2に記載の情報処理装置。 The extraction means extracts the vocal data and accompaniment data representing an accompaniment sound in the music from the music data,
The information processing apparatus further includes:
Based on the accompaniment data extracted by the extraction means, comprising performance means for playing the music,
The information processing apparatus according to claim 2, wherein the singing acquisition unit acquires, as the singing data, a voice input during the performance of a music piece by the performance unit.
前記決定手段により決定された前記音符区間での技巧特徴量の中で、前記楽曲において特徴的に用いられる歌唱技巧に対応する技巧特徴量を、前記所定の条件を満たす技巧特徴量として決定する
ことを特徴とする請求項1から請求項3までのいずれか一項に記載の情報処理装置。 The generating means includes
Of the skill features in the note interval determined by the determination means, a skill feature amount corresponding to a singing skill that is characteristically used in the music is determined as a skill feature amount satisfying the predetermined condition. The information processing apparatus according to any one of claims 1 to 3, wherein:
前記生成手段は、
前記決定手段により決定された前記音符区間での技巧特徴量と前記標準取得手段で取得した標準特徴量との差分が基準範囲外である場合、前記基準範囲外となる技巧特徴量を、前記所定の条件を満たす技巧特徴量として決定する
ことを特徴とする請求項4に記載の情報処理装置。 Standard acquisition means for acquiring the standard feature value from a second storage unit storing a standard feature value representing a standard evaluation of the singing technique used in a plurality of songs,
The generating means includes
If the difference between the technical feature amount in the note interval determined by the determination unit and the standard feature amount acquired by the standard acquisition unit is outside the reference range, the technical feature amount outside the reference range is determined as the predetermined feature amount. The information processing device according to claim 4, wherein the information processing device is determined as a technique feature amount that satisfies the following condition.
前記決定手段により決定された音符区間での技巧特徴量を、前記音符区間における音高かつ音価ごとに集計した特徴量分布を算出する分布算出手段を備え、
前記分布算出手段により算出された特徴量分布において、楽曲における特徴として有意な範囲に含まれる場合、前記有意な範囲に含まれる技巧特徴量を前記所定の条件を満たす技巧特徴量として決定する
ことを特徴とする請求項4に記載の情報処理装置。 The generating means includes
Distribution calculating means for calculating a feature quantity distribution in which the technical feature quantities determined in the note section determined by the determining means are tabulated for each pitch and note value in the note section;
When the feature amount distribution calculated by the distribution calculating means is included in a significant range as a feature in music, the skill feature amount included in the significant range is determined as a skill feature amount satisfying the predetermined condition. The information processing apparatus according to claim 4.
前記楽曲データ取得過程により取得された楽曲データから、歌唱した歌唱音を表すボーカルデータを抽出する抽出過程と、
前記抽出過程により抽出されたボーカルデータについて、前記楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての評価を表す技巧特徴量を決定する決定過程と、
前記決定過程により決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する生成過程と
を備えることを特徴とするデータ生成方法。 A music data acquisition process for acquiring the music data from the first storage unit storing the music data including the sung singing sound;
An extraction process for extracting vocal data representing the sung sound from the music data acquired by the music data acquisition process;
For the vocal data extracted by the extraction process, for each note interval that is a predetermined note interval constituting the music data, a determination step for determining a technique feature amount representing evaluation of a plurality of singing techniques;
Among the technical features of the note section determined by the determination process, a technical feature amount satisfying a predetermined condition is determined, and a note section corresponding to the determined technical feature amount, and the determined technical feature amount A data generation method comprising: generating the associated data as evaluation data used for singing evaluation.
前記楽曲データ取得手順により取得された楽曲データから、歌唱した歌唱音を表すボーカルデータを抽出する抽出手順と、
前記抽出手順により抽出されたボーカルデータについて、前記楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての評価を表す技巧特徴量を決定する決定手順と、
前記決定手順により決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する生成手順と
をコンピュータに実行させることを特徴とするプログラム。 A music data acquisition procedure for acquiring the music data from the first storage unit storing the music data including the sung singing sound;
Extraction procedure for extracting vocal data representing the singing sound from the song data acquired by the song data acquisition procedure;
For the vocal data extracted by the extraction procedure, a determination procedure for determining a technique feature amount representing evaluation of a plurality of singing techniques for each note section that is a predetermined note section constituting the music data;
Among the technical features of the note section determined by the determination procedure, a technical feature amount satisfying a predetermined condition is determined, and a musical note section corresponding to the determined technical feature amount and the determined technical feature amount A program for causing a computer to execute a generation procedure for generating the associated data as evaluation data used for song evaluation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204485A JP6011506B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, data generation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204485A JP6011506B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, data generation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015069083A true JP2015069083A (en) | 2015-04-13 |
JP6011506B2 JP6011506B2 (en) | 2016-10-19 |
Family
ID=52835775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013204485A Active JP6011506B2 (en) | 2013-09-30 | 2013-09-30 | Information processing apparatus, data generation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6011506B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017067998A (en) * | 2015-09-30 | 2017-04-06 | ブラザー工業株式会社 | Singing evaluation system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007232750A (en) * | 2006-02-27 | 2007-09-13 | Yamaha Corp | Karaoke device, control method and program |
JP2011095437A (en) * | 2009-10-29 | 2011-05-12 | Daiichikosho Co Ltd | Karaoke scoring system |
-
2013
- 2013-09-30 JP JP2013204485A patent/JP6011506B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007232750A (en) * | 2006-02-27 | 2007-09-13 | Yamaha Corp | Karaoke device, control method and program |
JP2011095437A (en) * | 2009-10-29 | 2011-05-12 | Daiichikosho Co Ltd | Karaoke scoring system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017067998A (en) * | 2015-09-30 | 2017-04-06 | ブラザー工業株式会社 | Singing evaluation system |
Also Published As
Publication number | Publication date |
---|---|
JP6011506B2 (en) | 2016-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6060867B2 (en) | Information processing apparatus, data generation method, and program | |
TW201407602A (en) | Performance evaluation device, karaoke device, and server device | |
JP5598516B2 (en) | Voice synthesis system for karaoke and parameter extraction device | |
JP6075313B2 (en) | Program, information processing apparatus, and evaluation data generation method | |
JP6252420B2 (en) | Speech synthesis apparatus and speech synthesis system | |
JP6075314B2 (en) | Program, information processing apparatus, and evaluation method | |
JP6011506B2 (en) | Information processing apparatus, data generation method, and program | |
JP6056799B2 (en) | Program, information processing apparatus, and data generation method | |
JP5782972B2 (en) | Information processing system, program | |
JP6260565B2 (en) | Speech synthesizer and program | |
JP2013210501A (en) | Synthesis unit registration device, voice synthesis device, and program | |
JP6365483B2 (en) | Karaoke device, karaoke system, and program | |
JP5810947B2 (en) | Speech segment specifying device, speech parameter generating device, and program | |
JP6406182B2 (en) | Karaoke device and karaoke system | |
JP5983670B2 (en) | Program, information processing apparatus, and data generation method | |
JP6380305B2 (en) | Data generation apparatus, karaoke system, and program | |
JP6252421B2 (en) | Transcription device and transcription system | |
JP6090043B2 (en) | Information processing apparatus and program | |
JP6252408B2 (en) | Display control device and display control system | |
JP6365561B2 (en) | Karaoke system, karaoke device, and program | |
JP6260499B2 (en) | Speech synthesis system and speech synthesizer | |
JP6281447B2 (en) | Speech synthesis apparatus and speech synthesis system | |
JP5569307B2 (en) | Program and editing device | |
JP5845857B2 (en) | Parameter extraction device, speech synthesis system | |
JP5549651B2 (en) | Lyric output data correction device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6011506 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |