JP6380305B2 - Data generation apparatus, karaoke system, and program - Google Patents

Data generation apparatus, karaoke system, and program Download PDF

Info

Publication number
JP6380305B2
JP6380305B2 JP2015174774A JP2015174774A JP6380305B2 JP 6380305 B2 JP6380305 B2 JP 6380305B2 JP 2015174774 A JP2015174774 A JP 2015174774A JP 2015174774 A JP2015174774 A JP 2015174774A JP 6380305 B2 JP6380305 B2 JP 6380305B2
Authority
JP
Japan
Prior art keywords
singing
transition
data
difference
technique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015174774A
Other languages
Japanese (ja)
Other versions
JP2017049539A (en
Inventor
誠司 黒川
誠司 黒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2015174774A priority Critical patent/JP6380305B2/en
Publication of JP2017049539A publication Critical patent/JP2017049539A/en
Application granted granted Critical
Publication of JP6380305B2 publication Critical patent/JP6380305B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、楽曲において特定の人物が用いた歌い方の特徴を表すデータを生成する技術、及びそのデータを用いるカラオケシステムに関する。   The present invention relates to a technique for generating data representing characteristics of a singing method used by a specific person in music and a karaoke system using the data.

従来、指定された楽曲の演奏中にマイクを介して入力された歌唱音声を出力すると共に、その歌唱音声を評価するカラオケ装置が知られている(特許文献1参照)。
この特許文献1に記載のカラオケ装置では、楽曲の曲データに含まれるガイドメロディデータをリファレンスとし、そのガイドメロディデータによって表される歌唱旋律の音高推移と、歌唱音声の基本周波数の推移とを比較した結果に基づいて基本得点を算出する。
2. Description of the Related Art Conventionally, there has been known a karaoke apparatus that outputs a singing voice input via a microphone during performance of a designated music piece and evaluates the singing voice (see Patent Document 1).
In the karaoke apparatus described in Patent Document 1, the guide melody data included in the song data of the music is used as a reference, and the pitch transition of the singing melody represented by the guide melody data and the transition of the fundamental frequency of the singing voice are obtained. A basic score is calculated based on the comparison result.

特開2007−334364号公報JP 2007-334364 A

しかしながら、従来の技術では、利用者による楽曲の歌唱音声を判定するために歌唱音声と比較する対象をガイドメロディデータによって表される歌唱旋律の音高推移としている。このように、ガイドメロディによって表される歌唱旋律の音高推移を比較対象とした場合、利用者が楽曲を歌唱する場合の歌い方の特徴を含む歌い回しを正当に評価できない。   However, in the prior art, the object to be compared with the singing voice to determine the singing voice of the song by the user is the pitch transition of the singing melody represented by the guide melody data. Thus, when the pitch transition of the singing melody represented by the guide melody is set as a comparison target, it is not possible to properly evaluate the singing including the characteristics of how to sing when the user sings the music.

すなわち、ガイドメロディデータによって表される歌唱旋律の音高推移は、歌唱音声に対する比較対象として適していないという課題がある。
そこで、本発明においては、楽曲を歌唱する特定の人物が用いる歌い方の特徴を正確に検出可能なデータを自動で生成することを目的とする。
That is, there is a problem that the pitch transition of the singing melody represented by the guide melody data is not suitable as a comparison target for the singing voice.
Therefore, an object of the present invention is to automatically generate data that can accurately detect the characteristics of a singing method used by a specific person who sings music.

上記目的を達成するためになされた本発明は、合成音取得手段と、合成推移導出手段と、オリジナル取得手段と、歌唱推移導出手段と、差分算出手段と、登録手段とを備える、データ生成装置に関する。   In order to achieve the above object, the present invention provides a data generation apparatus comprising a synthetic sound acquisition means, a synthesis transition derivation means, an original acquisition means, a song transition derivation means, a difference calculation means, and a registration means. About.

合成音取得手段は、歌唱合成音データを取得する。ここで言う歌唱合成音データとは、楽譜データと、歌詞データとに基づいて生成され、歌詞データによって表される歌詞を楽譜データによって表される楽譜通りに音声合成された合成音声である。また、楽譜データは、音高と音価との組み合わせからなる音符を複数有し指定された楽曲である指定楽曲の楽譜を表す。歌詞データは、指定楽曲を構成する複数の音符の少なくとも一部に割り当てられた歌詞を表す。   The synthesized sound acquisition means acquires singing synthesized sound data. The singing synthesized sound data referred to here is synthesized speech that is generated based on the score data and the lyrics data, and is synthesized by voice synthesis according to the score represented by the score data. The musical score data represents a musical score of a designated musical piece that is a designated musical piece having a plurality of notes composed of combinations of pitches and note values. The lyrics data represents lyrics assigned to at least a part of a plurality of notes constituting the designated music.

合成推移導出手段は、合成音取得手段で取得した歌唱合成音データから、合成音声の基本周波数の推移を表す歌唱合成f0推移を導出する。さらに、オリジナル取得手段は、指定楽曲を特定の人物が歌唱した歌唱音声である歌唱音声データを取得する。   The synthesis transition deriving unit derives the singing synthesis f0 transition representing the transition of the fundamental frequency of the synthesized speech from the singing synthesized sound data acquired by the synthesized sound acquiring unit. Furthermore, the original acquisition means acquires singing voice data that is a singing voice of a specific person singing the designated music piece.

そして、歌唱推移導出手段は、オリジナル取得手段で取得した歌唱音声データから、歌唱音声の基本周波数の推移を表すオリジナルf0推移を導出する。差分算出手段は、合成推移導出手段で導出した歌唱合成f0推移と、歌唱推移導出手段で導出したオリジナルf0推移との指定楽曲における時間軸に沿った差分を表す差分データを算出する。   Then, the singing transition derivation means derives an original f0 transition representing transition of the fundamental frequency of the singing voice from the singing voice data acquired by the original acquisition means. The difference calculating means calculates difference data representing a difference along the time axis in the designated music between the singing composition f0 transition derived by the composition transition deriving means and the original f0 transition derived by the singing transition deriving means.

さらに、登録手段は、差分算出手段で算出した差分データを記憶部に記憶する。
楽譜データは、音高と音価との組み合わせからなる音符を有したものであり、楽譜データには、指定楽曲において用いる歌唱技法などの歌い方の特徴は指示されていない。このため、合成音声は、歌唱技法などの歌い方の特徴が現れていない歌唱の音の推移となり、歌唱合成f0推移は、合成音声の基本周波数の推移である。
Further, the registration unit stores the difference data calculated by the difference calculation unit in the storage unit.
The score data has notes composed of combinations of pitches and note values, and the singing characteristics such as the singing technique used in the designated music are not indicated in the score data. For this reason, the synthesized voice is a transition of the sound of a singing that does not show a singing feature such as a singing technique, and the singing synthesized f0 transition is a transition of the fundamental frequency of the synthesized voice.

一方、歌唱音声データは、特定の人物が指定楽曲を歌唱した場合の音声であり、その指定楽曲での特定の人物の歌い方の特徴が表出している。
したがって、データ生成装置にて算出される差分データには、特定の人物が用いた歌い方の特徴が表されることになり、特定の人物による歌い方の特徴を表すものとなる。
On the other hand, the singing voice data is a voice when a specific person sings a designated music piece, and expresses characteristics of how to sing the specific person in the designated music piece.
Therefore, the difference data calculated by the data generation device represents the characteristics of the singing method used by the specific person, and represents the characteristics of the singing method by the specific person.

換言すると、データ生成装置によれば、特定の人物による歌い方の特徴を表すデータを自動で生成できる。
この結果、カラオケ装置においては、差分データを用いて、利用者の歌声を評価したり、歌唱の際に用いるべき歌い方の特徴を報知したりすることができる。
In other words, according to the data generation device, data representing characteristics of how to sing by a specific person can be automatically generated.
As a result, in the karaoke apparatus, the difference data can be used to evaluate the user's singing voice or to notify the characteristics of the way of singing to be used when singing.

なお、ここで言う特定の人物とは、指定楽曲が歌唱するプロの歌手(いわゆるアーティスト)であってもよいし、プロの歌手ではなく一般の人物であってもよい。
データ生成装置は、技法判定手段と、技法データ生成手段とを更に備えていてもよい。
The specific person mentioned here may be a professional singer (so-called artist) who sings the designated music piece, or may be a general person rather than a professional singer.
The data generation apparatus may further include a technique determination unit and a technique data generation unit.

技法判定手段は、合成推移導出手段で導出した歌唱合成f0推移と、歌唱推移導出手段で導出したオリジナルf0推移とを比較し、その比較した結果、歌唱合成f0推移に対してオリジナルf0推移が示す歌唱音声データが、歌唱において用いられる各種の歌唱技法の条件として予め規定された技法条件を満たしているか否かを判定する。   The technique determination means compares the singing composition f0 transition derived by the composition transition deriving means with the original f0 transition derived by the singing transition derivation means, and as a result of comparison, the original f0 transition indicates the singing composition f0 transition. It is determined whether or not the singing voice data satisfies technical conditions defined in advance as conditions for various singing techniques used in singing.

また、技法データ生成手段は、技法判定手段での判定の結果、技法条件を満たしていれば、当該技法条件に適合する歌唱技法の種類及び歌唱技法を用いたタイミングを特定し、その特定した歌唱技法の種類及び歌唱技法を用いたタイミングを表す技法データを生成する。   Further, if the result of the determination by the technique determination means satisfies the technique condition, the technique data generation means specifies the type of singing technique that matches the technique condition and the timing using the singing technique, and the specified singing Technique data representing the timing of using the technique type and the singing technique is generated.

そして、登録手段は、技法データ生成手段で生成した技法データと差分データとを指定楽曲における時間軸に沿って対応付けたデータである歌回データを、記憶部に記憶する。
このようなデータ生成装置によれば、指定楽曲において特定の人物が用いた歌唱技法の種類及び歌唱技法を用いたタイミングを表す技法データを生成できる。そして、データ生成装置によれば、その技法データと差分データとを対応付けたデータである歌回データを記憶部に記憶できる。
Then, the registration unit stores song data, which is data in which the technique data generated by the technique data generation unit and the difference data are associated with each other along the time axis of the designated music piece, in the storage unit.
According to such a data generation device, it is possible to generate technique data representing the type of singing technique used by a specific person in the designated music piece and the timing using the singing technique. And according to a data generation device, song data which is data which matched the technique data and difference data can be memorized in a storage part.

この結果、データ生成装置によれば、記憶部に記憶するデータの内容を充実させることができる。
また、技法データ生成手段は、技法判定手段にて比較した結果、技法条件を満たしていなかったとしても、歌唱合成f0推移とオリジナルf0推移との間に予め規定された規定値以上の差違があれば、その差違の内容及び当該差違が存在するタイミングを技法データとして生成する。
As a result, according to the data generation device, the content of data stored in the storage unit can be enhanced.
Moreover, even if the technique data generation means does not satisfy the technique conditions as a result of the comparison by the technique determination means, there is a difference of a predetermined value or more between the singing synthesis f0 transition and the original f0 transition. For example, the contents of the difference and the timing at which the difference exists are generated as technique data.

このようなデータ生成装置によれば、技法条件を満たさない程度の差違であっても、その差違の内容を、指定楽曲を歌唱した特定の人物が用いた歌い方の特徴としてデータ化することができる。   According to such a data generation device, even if the difference does not satisfy the technical condition, the content of the difference can be converted into data as characteristics of the singing method used by a specific person who sang the designated music. it can.

この結果、データ生成装置によれば、特定の人物が用いる歌い方の特徴としてより細かな内容を歌回データに包含させることができる。
本発明は、合成音取得手段と、合成推移導出手段と、演奏実行手段と、オリジナル取得手段と、歌唱推移導出手段と、差分算出手段と、登録手段と、処理実行手段とを備えるカラオケシステムとしてなされていてもよい。
As a result, according to the data generation device, more detailed contents can be included in the singing data as the characteristics of the singing method used by a specific person.
The present invention is a karaoke system comprising synthetic sound acquisition means, synthesis transition derivation means, performance execution means, original acquisition means, singing transition derivation means, difference calculation means, registration means, and processing execution means. May have been made.

合成音取得手段は、歌唱合成音データを取得する。合成推移導出手段は、歌唱合成f0推移を導出する。演奏実行手段は、楽譜データに従って、指定楽曲を演奏する。
オリジナル取得手段は、演奏実行手段により演奏される指定楽曲を特定の人物が歌唱した歌唱音声である歌唱音声データを取得する。歌唱推移導出手段は、オリジナルf0推移を導出する。差分算出手段は、歌唱合成f0推移と、オリジナルf0推移との指定楽曲における差分データを算出する。
The synthesized sound acquisition means acquires singing synthesized sound data. The composition transition deriving unit derives the singing composition f0 transition. The performance executing means plays the designated music according to the score data.
The original acquisition means acquires singing voice data which is a singing voice of a specific person singing the designated musical piece played by the performance executing means. The singing transition derivation means derives the original f0 transition. The difference calculating means calculates difference data in the designated music between the song composition f0 transition and the original f0 transition.

さらに、登録手段は、差分データを記憶部に記憶する。処理実行手段は、差分データに基づいて、指定楽曲の演奏に関して規定された処理である規定処理を実行する。
このようなカラオケシステムにおける差分データは、指定楽曲において特定の人物が用いた歌い方の特徴を表すデータである。
Further, the registration unit stores the difference data in the storage unit. The process execution means executes a specified process, which is a process specified for the performance of the designated music, based on the difference data.
The difference data in such a karaoke system is data representing the characteristics of the singing method used by a specific person in the designated music.

そして、カラオケ装置によれば、差分データに基づいて規定処理を実行することができ、指定楽曲の演奏に関して趣向性の高いものとすることができる。
処理実行手段は、演奏実行手段により指定楽曲が演奏される場合、記憶部に記憶された差分データに基づいて、指定楽曲を歌唱した特定の人物が用いた歌い方の特徴を報知する報知処理を規定処理として実行する。
And according to a karaoke apparatus, a prescription | regulation process can be performed based on difference data, and it can be made into a thing with high preference regarding the performance of a designated music.
When the designated music is played by the performance executing means, the process executing means performs notification processing for notifying the characteristics of the singing method used by a specific person who sang the designated music based on the difference data stored in the storage unit. It is executed as a specified process.

このようなカラオケシステムによれば、特定の人物が用いた歌い方の特徴を報知できる。
さらに、カラオケシステムにおいては、歌声取得手段と、歌声推移導出手段とを備えていてもよい。
According to such a karaoke system, the characteristic of the way of singing used by a specific person can be notified.
Further, the karaoke system may include singing voice acquisition means and singing voice transition derivation means.

歌声取得手段は、演奏実行手段による指定楽曲の演奏中にマイクを介して入力された音声である歌声データを取得する。歌声推移導出手段は、歌声取得手段で取得した歌声データに基づいて、歌声の基本周波数の推移を表す歌声f0推移を導出する。   The singing voice acquisition means acquires singing voice data that is voice input through a microphone during the performance of the designated music by the performance execution means. The singing voice transition deriving unit derives the singing voice f0 transition representing the transition of the fundamental frequency of the singing voice based on the singing voice data acquired by the singing voice acquiring unit.

さらに、処理実行手段は、歌声推移導出手段で導出した歌声f0推移に基づく処理を規定処理として実行する。
このようなカラオケシステムによれば、歌声f0推移に基づく処理を規定処理として実行できる。
Further, the process execution means executes the process based on the singing voice f0 transition derived by the singing voice transition deriving means as the regulation process.
According to such a karaoke system, the process based on the singing voice f0 transition can be executed as the prescribed process.

また、カラオケシステムにおける処理実行手段は、差分生成手段を備えていてもよい。この差分生成手段では、歌声推移導出手段で導出した歌声f0推移と、合成推移導出手段で導出した歌唱合成f0推移との指定楽曲における時間軸に沿った差分を表す歌唱差分データを生成する。   Moreover, the process execution means in the karaoke system may include a difference generation means. In the difference generation means, singing difference data representing a difference along the time axis in the designated music between the singing voice f0 transition derived by the singing voice transition deriving means and the singing synthesis f0 transition derived by the synthesis transition deriving means is generated.

さらに、処理実行手段では、差分生成手段で生成した歌唱差分データと、記憶部に記憶されている差分データとを比較し、その比較の結果、一致度が高いほど高い評価とする評価処理を規定処理として実行してもよい。   Furthermore, the process execution means compares the singing difference data generated by the difference generation means with the difference data stored in the storage unit, and as a result of the comparison, the evaluation process is defined as a higher evaluation as the matching degree is higher. It may be executed as a process.

このようなカラオケシステムによれば、歌唱差分データと差分データとの一致度が高いほど、高く評価できる。この結果、カラオケシステムによれば、指定楽曲を歌唱した特定の人物の歌い方をより高い再現性で実現した場合ほど、高い評価とすることができる。   According to such a karaoke system, the higher the degree of coincidence between the singing difference data and the difference data, the higher the evaluation. As a result, according to the karaoke system, the higher the reproducibility, the higher the evaluation can be made for a specific person who sang the designated music.

なお、カラオケシステムにおける処理実行手段は、記憶部に記憶されている差分データに基づいて、特定の人物が指定楽曲を歌唱した歌声に近づくように、歌声推移導出手段で導出した歌声f0推移を変更し、その変更した歌声f0推移に基づく音声を出力する変更処理を、規定処理として実行する。   The process execution means in the karaoke system changes the singing voice f0 transition derived by the singing voice transition deriving means so that a specific person approaches the singing voice singing the designated music based on the difference data stored in the storage unit. And the change process which outputs the audio | voice based on the changed singing voice f0 transition is performed as a prescription | regulation process.

このようなカラオケシステムによれば、特定の人物が指定楽曲を歌唱した歌声に近づくように、利用者の歌声を変更して出力できる。
本発明は、合成音取得手順と、合成推移導出手順と、オリジナル取得手順と、歌唱推移導出手順と、差分算出手順と、登録手順とを、コンピュータに実行させるプログラムとしてなされていても良い。
According to such a karaoke system, the singing voice of the user can be changed and output so that a specific person approaches the singing voice of singing the designated music piece.
The present invention may be a program that causes a computer to execute a synthetic sound acquisition procedure, a synthesis transition derivation procedure, an original acquisition procedure, a singing transition derivation procedure, a difference calculation procedure, and a registration procedure.

このように、本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータをデータ生成装置として機能させることができ、特定の人物が用いた歌い方の特徴を表すデータを生成できる。   As described above, if the present invention is implemented as a program, it is used by loading the computer from a recording medium as necessary and starting it, or by acquiring it and starting it through a communication line as necessary. be able to. And by making a computer perform each procedure, the computer can be functioned as a data generation apparatus, and the data showing the characteristic of how to sing used by a specific person can be generated.

なお、ここで言う記録媒体には、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。   The recording medium referred to here includes, for example, a computer-readable electronic medium such as a DVD-ROM, a CD-ROM, and a hard disk.

カラオケシステムの概略構成を示すブロック図である。It is a block diagram which shows schematic structure of a karaoke system. 楽曲解析処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of a music analysis process. 差分データの概要を説明する説明図である。It is explanatory drawing explaining the outline | summary of difference data. 歌唱技法判定処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of a song technique determination process. 演奏処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of a performance process. 歌唱技法の表示の一例を示す図である。It is a figure which shows an example of the display of a singing technique. 変更音声の一例を示す図である。It is a figure which shows an example of a change audio | voice. 評価方法の一例を示す図である。It is a figure which shows an example of the evaluation method. 実施形態の効果を説明する図である。It is a figure explaining the effect of an embodiment. 実施形態の効果を説明する図である。It is a figure explaining the effect of an embodiment. 実施形態の効果を説明する図である。It is a figure explaining the effect of an embodiment.

以下に本発明の実施形態を図面と共に説明する。
<システム構成>
図1に示すカラオケシステム1は、情報処理装置2と、情報処理サーバ10と、カラオケ装置30とを備えている。カラオケシステム1では、情報処理装置2にて生成した歌回データEMが情報処理サーバ10に記憶され、カラオケ装置30において、指定された楽曲を演奏すると共に、情報処理サーバ10に記憶された歌回データEMに基づく処理を実行する。
Embodiments of the present invention will be described below with reference to the drawings.
<System configuration>
A karaoke system 1 shown in FIG. 1 includes an information processing device 2, an information processing server 10, and a karaoke device 30. In the karaoke system 1, the song data EM generated by the information processing device 2 is stored in the information processing server 10, and the karaoke device 30 plays the designated music and the song times stored in the information processing server 10. A process based on the data EM is executed.

なお、ここで言う楽曲とは、音高と音価との組み合わせからなる音符を複数有した楽曲のうち、楽曲を構成する複数の音符の少なくとも一部に歌詞が割り当てられた楽曲である。   Note that the music referred to here is a music in which lyrics are assigned to at least a part of a plurality of notes constituting the music, out of music having a plurality of notes made up of combinations of pitches and note values.

また、ここで言う歌回データEMとは、楽曲を歌唱する特定の人物の歌い方における特徴を表すデータである。この歌回データEMは、情報処理装置2に記憶された楽曲データWDと、MIDI楽曲MDとに基づいて、情報処理装置2にて生成される。   The song data EM referred to here is data representing characteristics of a specific person who sings a song in how to sing. The song data EM is generated by the information processing device 2 based on the music data WD stored in the information processing device 2 and the MIDI music MD.

カラオケシステム1が備えるカラオケ装置30は、図1に示すように、複数であってもよいし、単数であってもよい。
<楽曲データ>
楽曲データWDは、楽曲ごとに予め用意されたものである。楽曲データWDは、楽曲管理情報と、原盤波形データとを備えている。楽曲管理情報は、楽曲を識別する情報であり、楽曲ごとに割り当てられた固有の識別情報である楽曲IDを有する。
As shown in FIG. 1, the karaoke system 30 included in the karaoke system 1 may be plural or singular.
<Music data>
The music data WD is prepared in advance for each music. The music data WD includes music management information and master waveform data. The music management information is information for identifying a music, and has a music ID that is unique identification information assigned to each music.

原盤波形データは、楽曲の演奏音の推移を表す音声データである。ここで言う楽曲の演奏音には、複数の楽器の演奏音と、歌唱旋律をプロの歌手が歌唱した歌唱音声とを含む。また、音声データは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。   The master waveform data is audio data representing the transition of the musical performance sound. The performance sound of the music mentioned here includes a performance sound of a plurality of musical instruments and a singing voice sung by a professional singer. The audio data may be data configured by an audio file in an uncompressed audio file format, or may be data configured by an audio file in an audio compression format.

なお、以下では、原盤波形データに含まれる歌唱音声の推移を表す音声波形データを歌唱音声データと称す。
<MIDI楽曲>
MIDI楽曲MDは、楽曲ごとに予め用意されたものであり、楽譜データと、歌詞データとを有している。
In the following, the speech waveform data representing the transition of the singing speech included in the master waveform data is referred to as singing speech data.
<MIDI music>
The MIDI musical piece MD is prepared in advance for each musical piece, and has score data and lyrics data.

楽譜データは、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜を表したデータである。この楽譜データは、楽曲IDと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを有している。   The musical score data is data representing the musical score of one piece of music according to the well-known MIDI (Musical Instrument Digital Interface) standard. The score data includes a song ID and a score track that represents the score for each instrument used in the song.

そして、楽譜トラックには、MIDI音源から出力される個々の演奏音について、少なくとも、音高(いわゆるノートナンバー)と、MIDI音源が演奏音を出力する期間(以下、音価と称す)とが規定されている。楽譜トラックにおける音価は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング(いわゆるノートオンタイミング)と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング(いわゆるノートオフタイミング)とによって規定されている。   The musical score track defines at least the pitch (so-called note number) and the period during which the MIDI sound source outputs the performance sound (hereinafter referred to as tone value) for each performance sound output from the MIDI sound source. Has been. The note value in the score track is the performance start timing (so-called note-on timing) indicating the time from the start of the performance of the music until the output of the performance sound, and the music until the output of the performance sound ends. Performance end timing (so-called note-off timing) representing the time from the start of the performance.

すなわち、楽譜トラックでは、ノートナンバーと、ノートオンタイミング及びノートオフタイミングによって表される音価とによって、1つの音符NOが規定される。そして、楽譜トラックは、音符NOが演奏順に配置されることによって、1つの楽譜として機能する。   That is, in the musical score track, one note NO is defined by the note number and the note value represented by the note-on timing and the note-off timing. The musical score track functions as one musical score by arranging note NO in the order of performance.

本実施形態における楽譜トラックとして、少なくとも、歌唱旋律を表すメロディラインを担当する特定の楽器の楽譜トラックが用意されている。この特定の楽器の一例として、ヴィブラフォンが考えられる。   As a score track in the present embodiment, at least a score track of a specific instrument in charge of a melody line representing a singing melody is prepared. As an example of this specific musical instrument, vibraphone can be considered.

歌詞データは、楽曲の歌詞に関するデータである。歌詞データは、歌詞テロップデータと、歌詞出力データとを備えている。歌詞テロップデータは、楽曲の歌詞を構成する文字(以下、歌詞構成文字とする)を表す。歌詞出力データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽譜データの演奏と対応付けるタイミング対応関係が規定されたデータである。   The lyrics data is data relating to the lyrics of the music. The lyric data includes lyric telop data and lyric output data. The lyrics telop data represents characters that constitute the lyrics of the music (hereinafter referred to as lyrics component characters). The lyric output data is data in which a timing correspondence relationship for associating the lyric output timing, which is the output timing of the lyrics constituent characters, with the performance of the score data is defined.

本実施形態におけるタイミング対応関係では、楽譜データの演奏を開始するタイミングに、歌詞テロップデータの出力を開始するタイミングが対応付けられている。さらに、タイミング対応関係では、楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽譜データの演奏開始からの経過時間によって規定されている。これにより、楽譜トラックに規定された個々の演奏音の音符と、歌詞構成文字それぞれとが対応付けられる。
<情報処理装置>
情報処理装置2は、入力受付部3と、情報出力部4と、記憶部5と、制御部6とを備えた周知の情報処理装置である。この情報処理装置2の一例として、周知のパーソナルコンピュータが考えられる。
In the timing correspondence relationship in the present embodiment, the timing for starting the output of the lyrics telop data is associated with the timing for starting the performance of the musical score data. Furthermore, in the timing correspondence relationship, the lyrics output timing of each lyrics constituent character along the time axis of the music is defined by the elapsed time from the start of performance of the score data. As a result, the notes of the individual performance sounds defined in the score track are associated with the lyrics constituent characters.
<Information processing device>
The information processing apparatus 2 is a known information processing apparatus including an input receiving unit 3, an information output unit 4, a storage unit 5, and a control unit 6. As an example of the information processing apparatus 2, a known personal computer can be considered.

入力受付部3は、外部からの情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、可搬型の記憶媒体(例えば、CDやDVD、フラッシュメモリ)に記憶されたデータを読み取る読取ドライブ、通信網を介して情報を取得する通信ポートなどである。情報出力部4は、外部に情報を出力する出力装置である。ここでの出力装置とは、可搬型の記憶媒体にデータを書き込む書込ドライブや、通信網に情報を出力する通信ポートなどである。   The input receiving unit 3 is an input device that receives input of information and commands from the outside. The input device here is, for example, a key or switch, a reading drive for reading data stored in a portable storage medium (for example, CD, DVD, flash memory), or a communication port for acquiring information via a communication network. Etc. The information output unit 4 is an output device that outputs information to the outside. Here, the output device is a writing drive that writes data to a portable storage medium, a communication port that outputs information to a communication network, or the like.

記憶部5は、記憶内容を読み書き可能に構成された周知の記憶装置である。記憶部5には、楽曲データWDとMIDI楽曲MDとが、共通する楽曲ごとに対応付けて記憶されている。   The storage unit 5 is a known storage device configured to be able to read and write stored contents. In the storage unit 5, music data WD and MIDI music MD are stored in association with each common music.

制御部6は、ROM7,RAM8,CPU9を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM7は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM8は、処理プログラムやデータを一時的に記憶する。CPU9は、ROM7やRAM8に記憶された処理プログラムに従って各処理を実行する。   The control unit 6 is a known control device that is configured around a known microcomputer including a ROM 7, a RAM 8, and a CPU 9. The ROM 7 stores processing programs and data that need to retain stored contents even when the power is turned off. The RAM 8 temporarily stores processing programs and data. The CPU 9 executes each process according to a processing program stored in the ROM 7 or RAM 8.

本実施形態のROM7には、記憶部5に記憶されている楽曲データWDとMIDI楽曲MDとに基づいて、歌回データEMを生成する楽曲解析処理を、制御部6が実行するための処理プログラムが記憶されている。
<情報処理サーバ>
情報処理サーバ10は、通信部12と、記憶部14と、制御部16とを備えている。
In the ROM 7 of the present embodiment, a processing program for the control unit 6 to execute music analysis processing for generating song data EM based on the music data WD and the MIDI music MD stored in the storage unit 5. Is remembered.
<Information processing server>
The information processing server 10 includes a communication unit 12, a storage unit 14, and a control unit 16.

このうち、通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。すなわち、情報処理サーバ10は、通信網を介してカラオケ装置30と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。   Among these, the communication unit 12 performs communication between the information processing server 10 and the outside via a communication network. That is, the information processing server 10 is connected to the karaoke apparatus 30 via a communication network. The communication network referred to here may be a wired communication network or a wireless communication network.

記憶部14は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部14には、複数のMIDI楽曲MDが記憶される。さらに、記憶部14には、情報処理装置2が楽曲解析処理を実行することで生成された歌回データEMが記憶される。なお、図1に示す符号「n」は、情報処理サーバ10の記憶部14に記憶されているMIDI楽曲MD及び歌回データEMを識別する識別子であり、1以上の自然数である。   The storage unit 14 is a known storage device configured to be able to read and write stored contents. The storage unit 14 stores a plurality of MIDI music pieces MD. Further, the storage unit 14 stores song data EM generated by the information processing apparatus 2 executing the music analysis process. 1 is an identifier for identifying the MIDI music piece MD and the song data EM stored in the storage unit 14 of the information processing server 10, and is a natural number of 1 or more.

制御部16は、ROM18,RAM20,CPU22を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM18,RAM20,CPU22は、それぞれ、ROM7,RAM8,CPU9と同様に構成されている。
<カラオケ装置>
カラオケ装置30は、通信部32と、入力受付部34と、楽曲再生部36と、記憶部38と、音声制御部40と、映像制御部46と、制御部50とを備えている。
The control unit 16 is a known control device that is configured around a known microcomputer including a ROM 18, a RAM 20, and a CPU 22. The ROM 18, RAM 20, and CPU 22 are configured similarly to the ROM 7, RAM 8, and CPU 9, respectively.
<Karaoke equipment>
The karaoke apparatus 30 includes a communication unit 32, an input reception unit 34, a music playback unit 36, a storage unit 38, an audio control unit 40, a video control unit 46, and a control unit 50.

通信部32は、通信網を介して、カラオケ装置30が外部との間で通信を行う。入力受付部34は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。   In the communication unit 32, the karaoke apparatus 30 communicates with the outside via a communication network. The input receiving unit 34 is an input device that receives input of information and commands in accordance with external operations. Here, the input device is, for example, a key, a switch, a reception unit of a remote controller, or the like.

楽曲再生部36は、情報処理サーバ10からダウンロードしたMIDI楽曲MDに基づく楽曲の演奏を実行する。この楽曲再生部36は、例えば、MIDI音源である。
音声制御部40は、音声の入出力を制御するデバイスである。音声制御部40は、出力部42と、マイク入力部44とを備えている。マイク入力部44には、マイク62が接続される。これにより、マイク入力部44は、利用者の歌唱音を取得する。出力部42にはスピーカ60が接続されている。出力部42は、楽曲再生部36によって再生される楽曲の音源信号、マイク入力部44からの音源信号をスピーカ60に出力する。スピーカ60は、出力部42から出力される音源信号を音に換えて出力する。
The music playback unit 36 performs a music performance based on the MIDI music MD downloaded from the information processing server 10. The music reproducing unit 36 is, for example, a MIDI sound source.
The voice control unit 40 is a device that controls voice input / output. The voice control unit 40 includes an output unit 42 and a microphone input unit 44. A microphone 62 is connected to the microphone input unit 44. Thereby, the microphone input part 44 acquires a user's song sound. A speaker 60 is connected to the output unit 42. The output unit 42 outputs the sound source signal of the music reproduced by the music reproducing unit 36 and the sound source signal from the microphone input unit 44 to the speaker 60. The speaker 60 outputs the sound source signal output from the output unit 42 instead of sound.

映像制御部46は、制御部50から送られてくる映像データに基づく映像または画像の出力を行う。映像制御部46には、映像または画像を表示する表示部64が接続されている。   The video control unit 46 outputs a video or an image based on the video data sent from the control unit 50. The video control unit 46 is connected to a display unit 64 that displays video or images.

制御部50は、ROM52,RAM54,CPU56を少なくとも有した周知のコンピュータを中心に構成されている。ROM52,RAM54,CPU56は、それぞれ、ROM7,RAM8,CPU9と同様に構成されている。   The control unit 50 is configured around a known computer having at least a ROM 52, a RAM 54, and a CPU 56. The ROM 52, RAM 54, and CPU 56 are configured similarly to the ROM 7, RAM 8, and CPU 9, respectively.

そして、ROM52には、演奏処理を制御部50が実行するための処理プログラムが記憶されている。演奏処理は、指定楽曲を演奏すると共に、その指定楽曲に対応する歌回データEMに基づく規定処理を実行する処理である。なお、規定処理とは、指定楽曲の演奏に関して規定された処理であり、歌回データEMに基づいて実行される処理である。
<楽曲解析処理>
情報処理装置2が実行する楽曲解析処理について図2を用いて説明する。この楽曲解析処理は、予め規定された起動指令が入力されると起動される。起動指令は、例えば、プロの歌手が歌う歌唱音声を含む原盤波形データを読み込んだときに入力される。あるいは、利用者の歌唱音がマイク入力されたときに入力される。
The ROM 52 stores a processing program for the controller 50 to execute performance processing. The performance process is a process of performing a specified process based on the song data EM corresponding to the specified music while playing the specified music. The prescribed process is a process prescribed for the performance of the designated music piece, and is a process executed based on the song data EM.
<Music analysis processing>
The music analysis process executed by the information processing apparatus 2 will be described with reference to FIG. This music analysis process is activated when a predefined activation command is input. The start command is input, for example, when master waveform data including a singing voice sung by a professional singer is read. Alternatively, it is input when the user's singing sound is input to the microphone.

そして、楽曲解析処理が起動されると、制御部6は、図2に示すように、まず、楽曲IDを取得する(S110)。このS110にて取得する楽曲IDは、歌回データEMの生成対象となる楽曲を表す楽曲IDであり、入力受付部3を介して入力された楽曲に対応する楽曲IDである。なお、S110で取得した楽曲IDに対応する楽曲が、指定楽曲である。   When the music analysis process is activated, the control unit 6 first acquires a music ID as shown in FIG. 2 (S110). The song ID acquired in S110 is a song ID representing a song to be generated for the song data EM, and is a song ID corresponding to a song input via the input receiving unit 3. Note that the music corresponding to the music ID acquired in S110 is the designated music.

また、楽曲解析処理では、制御部6は、S110で取得した楽曲IDが含まれるMIDI楽曲MDを取得する(S120)。さらに、制御部6は、S120で取得したMIDI楽曲MDに含まれる歌詞データを取得する(S130)。   In the music analysis process, the control unit 6 acquires the MIDI music MD including the music ID acquired in S110 (S120). Further, the control unit 6 acquires lyrics data included in the MIDI music piece MD acquired in S120 (S130).

続いて、楽曲解析処理では、制御部6は、S120で取得したMIDI楽曲MDに含まれる楽譜データと、S130で取得した歌詞データとに基づいて、歌唱合成音データを生成して取得する(S140)。ここで言う歌唱合成音データとは、指定楽曲において、歌詞データによって表される歌詞を楽譜データによって表される楽譜通りに音声合成(即ち、情報処理装置2によって生成される歌唱)をした合成音声(以下、「歌唱合成音」と称す)である。この歌唱合成音の生成方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、歌唱合成音の生成方法としてフォルマント合成を用いることが考えられる。   Subsequently, in the music analysis process, the control unit 6 generates and acquires song synthesis sound data based on the score data included in the MIDI music MD acquired in S120 and the lyrics data acquired in S130 (S140). ). The singing synthesized sound data referred to here is a synthesized speech obtained by synthesizing the lyrics represented by the lyric data according to the musical score represented by the musical score data (that is, the singing generated by the information processing device 2) in the designated music. (Hereinafter referred to as “singing synthesized sound”). Since the method for generating this singing synthesized sound is well known, detailed description thereof is omitted here. For example, it is conceivable to use formant synthesis as a method for generating the singing synthesized sound.

さらに、制御部6は、S140で取得した歌唱合成音データに基づいて、歌唱合成f0推移を導出する(S150)。歌唱合成f0推移とは、歌唱合成音の基本周波数f0の推移である。本実施形態においては、基本周波数f0の推移の特定方法として、以下の方法を用いてもよい。制御部6は、予め規定された単位時間を表す分析窓を互いに隣接するように歌唱合成音データに設定する。この設定された分析窓それぞれでの歌唱合成音データについて周波数解析(例えば、DFT)を実施する。さらに、制御部6は、自己相関の結果、最も強い周波数成分を基本周波数f0とすることで、1つの分析窓に対して1つの基本周波数f0を算出する。そして、基本周波数f0を時間軸に沿って配置することによって、歌唱合成f0推移を導出する。   Further, the control unit 6 derives the singing synthesis f0 transition based on the singing synthesized sound data acquired in S140 (S150). The song synthesis f0 transition is a transition of the fundamental frequency f0 of the song synthesis sound. In the present embodiment, the following method may be used as a method for specifying the transition of the fundamental frequency f0. The control unit 6 sets the analysis windows representing the predetermined unit time in the singing synthesized sound data so as to be adjacent to each other. Frequency analysis (for example, DFT) is performed on the singing synthesized sound data in each of the set analysis windows. Further, the control unit 6 calculates one fundamental frequency f0 for one analysis window by setting the strongest frequency component as the fundamental frequency f0 as a result of autocorrelation. Then, the singing synthesis f0 transition is derived by arranging the fundamental frequency f0 along the time axis.

続いて、楽曲解析処理では、制御部6は、指定楽曲の歌唱音声データを取得する(S160)。さらに、制御部6は、S160で取得した歌唱音声データに基づいて、オリジナルf0推移を導出する(S170)。ここで言うオリジナルf0推移とは、指定楽曲の歌唱音声データによって表される歌唱音声の基本周波数f0の推移である。基本周波数f0の推移の特定方法としては、「歌唱合成音データ」を「歌唱音声データ」へと読み替えることを除けば、S150と同様の方法を用いればよい。   Subsequently, in the music analysis process, the control unit 6 acquires singing voice data of the designated music (S160). Further, the control unit 6 derives the original f0 transition based on the singing voice data acquired in S160 (S170). The original f0 transition referred to here is a transition of the fundamental frequency f0 of the singing voice represented by the singing voice data of the designated music. As a method for specifying the transition of the fundamental frequency f0, a method similar to S150 may be used except that “singing synthesized sound data” is replaced with “singing voice data”.

そして、楽曲解析処理では、制御部6は、S150で算出した歌唱合成f0推移と、S170で算出したオリジナルf0推移とに従って、差分データを算出する(S180)。ここで言う差分データは、図3に示すように、歌唱合成f0推移とオリジナルf0推移との指定楽曲における時間軸に沿った差分を表す。本実施形態における差分データは、オリジナルf0推移から歌唱合成f0推移を減算することで求めればよい。   In the music analysis process, the control unit 6 calculates difference data according to the singing synthesis f0 transition calculated in S150 and the original f0 transition calculated in S170 (S180). As shown in FIG. 3, the difference data referred to here represents a difference along the time axis in the designated music between the song composition f0 transition and the original f0 transition. The difference data in the present embodiment may be obtained by subtracting the song synthesis f0 transition from the original f0 transition.

続いて、楽曲解析処理では、制御部6は、歌唱技法判定処理を実行する(S190)。この歌唱技法判定処理では、詳しくは後述するが、歌唱合成f0推移とオリジナルf0推移とを比較した結果、技法条件を満たしていれば、特定楽曲においてプロの歌手が歌唱技法を用いているものと特定する。そして、歌唱技法判定処理では、特定した歌唱技法の種類及び歌唱技法を用いたタイミングを表す技法データを生成する。歌唱技法判定処理は、例えば、歌唱合成f0推移と、オリジナルf0推移とを比較し、比較した結果、オリジナルf0推移に対して歌唱合成f0推移が、各種の歌唱技法の技法条件を満たす推移であるとき、各種の歌唱技法が用いられているものと判定する。歌唱技法判定処理では、歌唱合成f0推移と、オリジナルf0推移とを比較した結果として、ステップS180において算出された差分データを用いて、各種の歌唱技法を判定してもよい。   Subsequently, in the music analysis process, the control unit 6 executes a singing technique determination process (S190). In this singing technique determination process, as will be described in detail later, as a result of comparing the singing synthesis f0 transition and the original f0 transition, if the technique condition is satisfied, the professional singer uses the singing technique in the specific music. Identify. In the singing technique determination process, technique data representing the type of the specified singing technique and the timing using the singing technique is generated. In the singing technique determination process, for example, the singing composition f0 transition is compared with the original f0 transition, and as a result, the singing composition f0 transition is a transition that satisfies the technique conditions of various singing techniques with respect to the original f0 transition. When it is determined that various singing techniques are used. In the singing technique determination process, various singing techniques may be determined using the difference data calculated in step S180 as a result of comparing the singing synthesis f0 transition and the original f0 transition.

なお、ここで言う技法条件とは、特定楽曲の歌唱において用いられる各種の歌唱技法の条件として予め規定された条件である。
さらに、楽曲解析処理では、制御部6は、歌回データEMを生成して記憶部5に記憶する(S200)。本実施形態における歌回データEMは、指定楽曲におけるプロの歌手の歌い回しを表すデータであり、差分データと、技法データと、歌唱合成f0推移と、楽曲IDとが含まれる。具体的に本実施形態のS200では、差分データと技法データと歌唱合成f0推移とを指定楽曲における時間軸に沿って対応付けると共に、その指定楽曲の楽曲IDを対応付けることで、歌回データEMを生成する。あるいは、歌回データEMを作成せず、差分データと、技法データと、歌唱合成f0推移と、楽曲IDとが対応付けられて記憶部5に記憶されていてもよい。
The technique condition referred to here is a condition defined in advance as a condition of various singing techniques used in singing a specific music piece.
Further, in the music analysis process, the control unit 6 generates song data EM and stores it in the storage unit 5 (S200). The song data EM in the present embodiment is data representing the singing of a professional singer in the designated song, and includes difference data, technique data, song composition f0 transition, and song ID. Specifically, in S200 of the present embodiment, the song data EM is generated by associating the difference data, the technique data, and the singing composition f0 transition along the time axis in the designated song and by associating the song ID of the designated song. To do. Alternatively, the song data EM may not be created, and the difference data, technique data, singing synthesis f0 transition, and music ID may be associated with each other and stored in the storage unit 5.

その後、制御部6は楽曲解析処理を終了する。
なお、情報処理装置2の制御部6が楽曲解析処理を実行することで生成される歌回データEMは、可搬型の記憶媒体を用いて情報処理サーバ10の記憶部14に記憶されても良い。情報処理装置2と情報処理サーバ10とが通信網を介して接続されている場合には、情報処理装置2の記憶部5に記憶された歌回データEMは、通信網を介して転送されることで、情報処理サーバ10の記憶部14に記憶されても良い。
Thereafter, the control unit 6 ends the music analysis process.
Note that the song data EM generated when the control unit 6 of the information processing device 2 executes the music analysis process may be stored in the storage unit 14 of the information processing server 10 using a portable storage medium. . When the information processing device 2 and the information processing server 10 are connected via a communication network, the song data EM stored in the storage unit 5 of the information processing device 2 is transferred via the communication network. Thus, the information may be stored in the storage unit 14 of the information processing server 10.

すなわち、楽曲解析処理を実行する情報処理装置2が、データ生成装置として機能する。
<歌唱技法判定処理>
次に、楽曲解析処理のS190で実行される歌唱技法判定処理について図4を用いて説明する。
That is, the information processing apparatus 2 that executes the music analysis process functions as a data generation apparatus.
<Singing technique judgment processing>
Next, the singing technique determination process executed in S190 of the music analysis process will be described with reference to FIG.

この歌唱技法判定処理が起動されると、制御部6は、図4に示すように、まず、歌唱技法の1つである「しゃくり」が用いられているか否かを判定する(S310)。本実施形態においては、オリジナルf0推移が歌唱合成f0推移に対して以下の技法条件を満たす場合、「しゃくり」が用いられているものと判定する。   When the singing technique determination process is activated, the control unit 6 first determines whether or not “shearing”, which is one of the singing techniques, is used as shown in FIG. 4 (S310). In this embodiment, when the original f0 transition satisfies the following technique condition with respect to the singing synthesis f0 transition, it is determined that “shakuri” is used.

「しゃくり」が用いられていることを表す技法条件とは、歌詞が割り当てられた音符の演奏開始タイミングにおいて、オリジナルf0推移が、歌唱合成f0推移よりも周波数軸に沿って低いこと。さらに、音符の演奏開始タイミング以降のオリジナルf0推移が、単位時間の間に規定された割合以上で上昇して歌唱合成f0推移へと到達することである。   The technical condition indicating that “shakuri” is used is that the original f0 transition is lower along the frequency axis than the singing synthesis f0 transition at the performance start timing of the note to which the lyrics are assigned. Furthermore, the original f0 transition after the performance start timing of the note rises at a rate higher than a prescribed rate during unit time and reaches the singing synthesis f0 transition.

続いて、歌唱技法判定処理では、制御部6は、歌唱技法の1つである「ビブラート」が用いられているか否かを判定する(S320)。本実施形態においては、オリジナルf0推移が歌唱合成f0推移に対して以下の技法条件を満たす場合、「ビブラート」が用いられているものと判定する。   Subsequently, in the singing technique determination process, the control unit 6 determines whether or not “vibrato” which is one of the singing techniques is used (S320). In this embodiment, when the original f0 transition satisfies the following technique condition with respect to the singing synthesis f0 transition, it is determined that “vibrato” is used.

「ビブラート」が用いられていることを表す技法条件とは、歌詞が割り当てられた1つの音符の区間おいて、歌唱合成f0推移を基準の周波数として、オリジナルf0推移が規定された周波数の範囲内で周波数方向に沿って変動していることである。   The technique condition indicating that “vibrato” is used is within the frequency range in which the original f0 transition is defined with the singing composition f0 transition as the reference frequency in the section of one note to which the lyrics are assigned. It is that it fluctuates along the frequency direction.

さらに、歌唱技法判定処理では、制御部6は、歌唱技法の1つである「こぶし」が用いられているか否かを判定する(S330)。本実施形態においては、オリジナルf0推移が歌唱合成f0推移に対して以下の技法条件を満たす場合、「こぶし」が用いられているものと判定する。   Furthermore, in the singing technique determination process, the control unit 6 determines whether or not “fist” which is one of the singing techniques is used (S330). In this embodiment, when the original f0 transition satisfies the following technique condition with respect to the singing synthesis f0 transition, it is determined that “fist” is used.

「こぶし」が用いられていることを表す技法条件とは、歌詞が割り当てられた1つの音符の区間おいて、オリジナルf0推移が歌唱合成f0推移に対して単位時間の間に周波数方向に沿って規定値以上上昇し、その後、オリジナルf0推移が上昇前の周波数へと戻ったことである。   The technique condition indicating that “fist” is used is that the original f0 transition is in the frequency direction during the unit time with respect to the singing synthesis f0 transition in the section of one note to which the lyrics are assigned. That is, the original f0 transition has returned to the frequency before the increase after rising above the specified value.

そして、歌唱技法判定処理では、制御部6は、歌唱技法の1つである「タメ」が用いられているか否かを判定する(S340)。本実施形態においては、オリジナルf0推移が歌唱合成f0推移に対して以下の技法条件を満たす場合、「タメ」が用いられているものと判定する。   In the singing technique determination process, the control unit 6 determines whether “Tame”, which is one of the singing techniques, is used (S340). In this embodiment, when the original f0 transition satisfies the following technique condition with respect to the singing synthesis f0 transition, it is determined that “tame” is used.

「タメ」が用いられていることを表す技法条件とは、歌詞が割り当てられた音符の演奏開始タイミングにおいて、現時点での音符よりも時間軸に沿って1つ前の音符の音高に、オリジナルf0推移が、予め規定された規定時間維持され、その後、現時点での音符の音高へと遷移することである。   The technical condition indicating that “Tame” is used is that the original note pitch is changed to the pitch of the previous note along the time axis from the current note at the performance start timing of the note to which the lyrics are assigned. The transition of f0 is maintained for a predetermined time specified in advance, and then transitions to the pitch of the current note.

続いて、歌唱技法判定処理では、制御部6は、歌唱技法の1つである「表情付け」が用いられているか否かを判定する(S350)。本実施形態においては、オリジナルf0推移が歌唱合成f0推移に対して以下の技法条件を満たす場合、「表情付け」が用いられているものと判定する。なお、ここで言う「表情付け」とは、歌唱における強弱を表現する歌唱技法である。   Subsequently, in the singing technique determination process, the control unit 6 determines whether or not “facial expression” which is one of the singing techniques is used (S350). In this embodiment, when the original f0 transition satisfies the following technique condition with respect to the singing synthesis f0 transition, it is determined that “facial expression” is used. In addition, "facial expression" here is a singing technique that expresses the strength of singing.

「表情付け」が用いられていることを表す技法条件とは、歌詞が割り当てられた1つの音符の区間おいて、歌唱合成f0推移が連続しているのに対して、オリジナルf0推移が途切れていることである。   The technique condition indicating that “facial expression” is used is that the singing composition f0 transition is continuous in one musical note interval to which the lyrics are assigned, whereas the original f0 transition is interrupted. It is that you are.

さらに、歌唱技法判定処理では、制御部6は、歌唱技法の1つである「拡張技法」が用いられているか否かを判定する(S360)。本実施形態においては、上述したS310からS350までの条件を満たしていなかったとしても、歌唱合成f0推移とオリジナルf0推移との間に予め規定された規定値以上の差違があれば、その差違の内容及び当該差違が存在するタイミングを、「拡張技法」が用いられている区間として判定する。すなわち、「拡張技法」とは、歌唱合成f0推移とオリジナルf0推移との間に、技法条件によって規定される歌唱技法には適合しない差違、あるいは技法条件を満たさない程度の差異などの技法条件には適合しない差異が存在する場合における当該差違の内容である。   Further, in the singing technique determination process, the control unit 6 determines whether or not the “extended technique” that is one of the singing techniques is used (S360). In this embodiment, even if the conditions from S310 to S350 described above are not satisfied, if there is a difference greater than a predetermined value between the singing synthesis f0 transition and the original f0 transition, the difference The timing at which the content and the difference exist is determined as a section in which the “extended technique” is used. That is, the “extended technique” is a technique condition such as a difference that does not conform to the singing technique defined by the technique condition or a difference that does not satisfy the technique condition between the singing synthesis f0 transition and the original f0 transition. Is the content of the difference when there is an incompatible difference.

そして、歌唱技法判定処理では、制御部6は、S310からS360までの各ステップで判定した歌唱技法に基づいて、技法データを生成する(S370)。ここで言う技法データとは、歌唱技法の種類及び歌唱技法を用いたタイミングを表すデータである。   And in a singing technique determination process, the control part 6 produces | generates technique data based on the singing technique determined by each step from S310 to S360 (S370). The technique data referred to here is data representing the type of singing technique and the timing using the singing technique.

その後、本歌唱技法判定処理を終了し、楽曲解析処理のS200へと戻る。
つまり、歌唱技法判定処理では、歌唱合成f0推移と、オリジナルf0推移とを比較する。その比較の結果、歌唱において用いられる各種の歌唱技法の条件として予め規定された技法条件を満たしているか否かを判定する。そして、判定の結果、技法条件を満たしていれば、当該技法条件に適合する歌唱技法の種類及び歌唱技法を用いたタイミングを特定し、その特定した歌唱技法の種類及び歌唱技法を用いたタイミングを表す技法データを生成する。
<演奏処理>
次に、カラオケ装置30が実行する演奏処理について説明する。
Then, this singing technique determination process is complete | finished, and it returns to S200 of a music analysis process.
That is, in the singing technique determination process, the singing synthesis f0 transition and the original f0 transition are compared. As a result of the comparison, it is determined whether or not technical conditions defined in advance as conditions for various singing techniques used in singing are satisfied. And as a result of the determination, if the technique condition is satisfied, the type of the singing technique and the timing using the singing technique that match the technique condition are specified, and the type of the specified singing technique and the timing using the singing technique are determined. Generate technique data to represent.
<Performance processing>
Next, the performance process which the karaoke apparatus 30 performs is demonstrated.

図5に示す演奏処理が起動されると、制御部50は、まず、入力受付部34を介して指定された楽曲(即ち、指定楽曲)の楽曲IDを取得する(S410)。そして、制御部50は、S410で取得した楽曲IDに対応するMIDI楽曲MDを、情報処理サーバ10の記憶部14から取得する(S420)。   When the performance process shown in FIG. 5 is started, the control unit 50 first acquires the song ID of the song (ie, the designated song) designated via the input receiving unit 34 (S410). And the control part 50 acquires the MIDI music MD corresponding to music ID acquired by S410 from the memory | storage part 14 of the information processing server 10 (S420).

続いて、演奏処理では、制御部50は、情報処理サーバ10の記憶部14に格納されている全ての歌回データEMの中から、S410で取得した楽曲IDを含む歌回データEMを取得する(S430)。さらに、演奏処理では、制御部50は、S420で取得した楽曲IDに対応するMIDI楽曲MDの中から歌詞データを取得する(S440)。   Subsequently, in the performance process, the control unit 50 acquires song data EM including the song ID acquired in S410 from all song data EM stored in the storage unit 14 of the information processing server 10. (S430). Further, in the performance process, the control unit 50 acquires lyric data from the MIDI music MD corresponding to the music ID acquired in S420 (S440).

そして、演奏処理では、制御部50は、S420にて取得したMIDI楽曲MDに基づいて指定楽曲の演奏を開始する(S450)。このS450におけるMIDI楽曲MDに基づく指定楽曲の演奏では、制御部50は、楽曲再生部36にMIDI楽曲MDを時間軸に沿って順次出力する。そのMIDI楽曲MDを取得した楽曲再生部36は、楽曲の演奏を行う。そして、楽曲再生部36によって演奏された楽曲の音源信号が、出力部42を介してスピーカ60へと出力される。すると、スピーカ60は、音源信号を音に換えて出力する。   In the performance process, the control unit 50 starts playing the designated music based on the MIDI music MD acquired in S420 (S450). In the performance of the designated music based on the MIDI music MD in S450, the control unit 50 sequentially outputs the MIDI music MD to the music playback unit 36 along the time axis. The music reproducing unit 36 that has acquired the MIDI music MD performs the music. Then, the sound source signal of the music played by the music playback unit 36 is output to the speaker 60 via the output unit 42. Then, the speaker 60 outputs the sound source signal instead of sound.

さらに、演奏処理では、制御部50は、S430で取得した歌詞データを映像制御部46に出力する(S460)。その歌詞データを取得した映像制御部46は、楽曲再生部36での指定楽曲の演奏に併せて、表示部64に歌詞を表示する。   Further, in the performance process, the control unit 50 outputs the lyrics data acquired in S430 to the video control unit 46 (S460). The video control unit 46 that has acquired the lyrics data displays the lyrics on the display unit 64 in conjunction with the performance of the designated music by the music playback unit 36.

また、演奏処理では、制御部50は、歌回データEMに含まれる技法データに基づいて、指定楽曲に用いられるべき歌唱技法を映像制御部46に出力する(S470)。その歌唱技法を取得した映像制御部46は、楽曲再生部36での指定楽曲の演奏に併せて、歌唱技法を表示部64に表示する。なお、表示部64に表示される歌唱技法には、図6に示すような歌唱技法を表すアイコンを含む。この歌唱技法を表すアイコンとは、歌唱技法としての、「しゃくり」,「タメ」,「ビブラート」,「こぶし」,「表情付け」,「拡張技法」の種類、及び各歌唱技法を実施するタイミングを示すものである。   In the performance process, the control unit 50 outputs the singing technique to be used for the designated music to the video control unit 46 based on the technique data included in the song data EM (S470). The video control unit 46 that has acquired the singing technique displays the singing technique on the display unit 64 in conjunction with the performance of the designated music piece by the music reproducing unit 36. Note that the singing technique displayed on the display unit 64 includes an icon representing the singing technique as shown in FIG. The icons representing this singing technique are the types of “shrimp”, “tame”, “vibrato”, “fist”, “facial expression”, “expansion technique”, and the timing of performing each singing technique. Is shown.

すなわち、S460では、指定楽曲が演奏される場合、歌回データEMに基づいて、指定楽曲を歌唱したプロの歌手が用いた歌い方の特徴を報知する報知処理を、規定処理の1つとして実行する。   That is, in S460, when the designated music is played, based on the song data EM, the notification process for notifying the characteristics of the singing method used by the professional singer who sang the designated music is executed as one of the regulation processes. To do.

続いて、演奏処理では、制御部50は、マイク62及びマイク入力部44を介して入力された音声を歌声データとして取得する(S480)。そして、制御部50は、S530にて取得した歌声データに基づいて歌声f0推移を算出する(S490)。ここで言う歌声f0推移は、歌声データによって表される音声の基本周波数の推移を表す。なお、歌声f0推移の算出方法は、処理の実行対象とするデータを「歌声データ」とすることを除けば、楽曲解析処理のS150と同様の手法を用いればよい。このため、歌声f0推移の算出方法の詳しい説明については省略する。   Subsequently, in the performance process, the control unit 50 acquires the voice input through the microphone 62 and the microphone input unit 44 as singing voice data (S480). Then, the control unit 50 calculates the singing voice f0 transition based on the singing voice data acquired in S530 (S490). The singing voice f0 transition here represents the transition of the fundamental frequency of the voice represented by the singing voice data. In addition, the calculation method of singing voice f0 transition should just use the method similar to S150 of a music analysis process except the data made into the execution object of a process being "singing voice data". For this reason, detailed description of the calculation method of the singing voice f0 transition is omitted.

また、制御部50は、S430にて取得した歌回データEMに含まれる差分データに基づいて、S490で算出した歌声f0推移を変更する(S500)。このS500では、プロの歌手が指定楽曲を歌唱した場合の歌声に近づくように歌声f0推移を変更する。具体的には、図7に示すように、指定楽曲における時間軸に沿って歌声f0推移に差分データを加算する。これにより、プロの歌手が指定楽曲にて用いた歌い方の特徴が、後述する変更音声に反映される。   Moreover, the control part 50 changes the singing voice f0 transition calculated by S490 based on the difference data contained in the song data EM acquired in S430 (S500). In S500, the singing voice f0 transition is changed so as to approach the singing voice when the professional singer sings the designated music piece. Specifically, as shown in FIG. 7, difference data is added to the transition of the singing voice f0 along the time axis of the designated music. Thereby, the characteristic of the way of singing which the professional singer used with the designated music is reflected in the change sound mentioned later.

さらに、演奏処理では、制御部50は、S500で変更した歌声f0推移に基づく音声である変更音声を出力する(S510)。このS510では、制御部50は、変更音声を表す音源信号を出力部42に出力する。その音源信号は、出力部42を介してスピーカ60へと出力され、スピーカ60にて変更音声へと戻されて出力される。   Further, in the performance process, the control unit 50 outputs a changed sound that is a sound based on the transition of the singing voice f0 changed in S500 (S510). In S <b> 510, the control unit 50 outputs a sound source signal representing the changed sound to the output unit 42. The sound source signal is output to the speaker 60 via the output unit 42, returned to the changed sound by the speaker 60, and output.

続いて、制御部50は、歌唱差分データを算出する(S520)。ここで言う歌唱差分データとは、S430にて取得した歌回データEMに含まれる歌唱合成f0推移と歌声f0推移との指定楽曲における時間軸に沿った差分を表すデータである。   Subsequently, the control unit 50 calculates singing difference data (S520). The singing difference data referred to here is data representing a difference along the time axis in the designated music between the singing synthesis f0 transition and the singing voice f0 transition included in the singing time data EM acquired in S430.

さらに、制御部50は、S520で算出した歌唱差分データと差分データとを比較する(S530)。そして、制御部50は、S530での比較の結果、歌唱差分データと差分データとの相関(即ち、一致度)が、予め規定された規定値以上であれば、指定楽曲において演奏された当該区間を歌唱したプロの歌手が用いた歌い方の特徴を再現できているものと特定する(S540)。   Further, the control unit 50 compares the singing difference data calculated in S520 with the difference data (S530). And as a result of the comparison in S530, if the correlation (namely, the degree of coincidence) between the singing difference data and the difference data is equal to or greater than a predetermined value, the control unit 50 plays the specified musical piece. It is specified that the characteristics of the singing method used by the professional singer who has sang the song can be reproduced (S540).

続いて、制御部50は、指定楽曲の演奏が終了したか否かを判定する(S550)。このS550での判定の結果、指定楽曲の演奏が終了していなければ(S550:NO)、制御部50は、演奏処理をS460へと戻す。   Subsequently, the control unit 50 determines whether or not the performance of the designated music has been completed (S550). As a result of the determination in S550, if the performance of the designated music has not ended (S550: NO), the control unit 50 returns the performance processing to S460.

一方、S550での判定の結果、指定楽曲の演奏が終了していれば(S550:YES)、制御部50は、利用者による指定楽曲の歌声を評価する(S560)。このS560での評価は、図8に示すように、指定楽曲に規定された区間ごとに、歌唱差分データと差分データとの一致度を算出し、その算出した一致度の演算結果が高いほど、高い評価とすればよい。なお、ここで言う一致度の算出は、S530において、歌唱差分データと差分データとを比較し相関係数を算出することで実施すればよい。また、ここで言う一致度の演算結果とは、規定された区間ごとに算出された、一致度の和でもよいし、重み付け加算の結果でもよいし、代表値であってもよいし、その他の演算結果であってもよい。   On the other hand, if the result of determination in S550 is that the performance of the designated music has been completed (S550: YES), the control unit 50 evaluates the singing voice of the designated music by the user (S560). In the evaluation in S560, as shown in FIG. 8, the degree of coincidence between the singing difference data and the difference data is calculated for each section defined in the designated music, and as the calculated result of the degree of coincidence increases, What is necessary is just high evaluation. Note that the degree of coincidence may be calculated by comparing the singing difference data and the difference data and calculating the correlation coefficient in S530. Further, the calculation result of the degree of coincidence referred to here may be the sum of the degrees of coincidence calculated for each specified section, the result of weighted addition, a representative value, or other It may be a calculation result.

すなわち、S560では、利用者の歌声が、指定楽曲を歌唱したプロの歌手が用いた歌い方の特徴を再現できていれば高い評価とする評価処理を、規定処理の1つとして実行する。   That is, in S560, if the user's singing voice is able to reproduce the characteristics of the singing method used by the professional singer who sang the designated music piece, an evaluation process that is highly evaluated is executed as one of the defining processes.

制御部50は、その後、本演奏処理を終了する。
[実施形態の効果]
本実施形態における楽譜データは、音高と音価との組み合わせからなる音符を有したものであり、楽譜データには、指定楽曲において用いる歌唱技法などの歌い方の特徴は指示されていない。このため、歌唱合成音には、歌唱技法などの歌い方の特徴は現れず、歌唱合成f0推移は、指定楽曲における標準的な歌声の基本周波数f0の推移となる。
Thereafter, the control unit 50 ends the performance process.
[Effect of the embodiment]
The score data in this embodiment has notes composed of combinations of pitches and note values, and the score data does not indicate singing characteristics such as the singing technique used in the designated music. For this reason, the singing synthesized sound does not show the characteristics of the singing technique such as the singing technique, and the singing synthesis f0 transition is the transition of the standard frequency f0 of the standard singing voice in the designated music.

一方、歌唱音声データは、プロの歌手が指定楽曲を歌唱した場合の音声であり、その指定楽曲でのプロの歌手の歌い方の特徴が表出している。
したがって、楽曲解析処理にて算出される差分データには、プロの歌手が用いた歌い方の特徴が表されることになり、差分データは、プロの歌手による歌い方の特徴を表すものとなる。
On the other hand, the singing voice data is a voice when a professional singer sings a designated music piece, and expresses the characteristics of how the professional singer sings the designated music piece.
Therefore, the difference data calculated by the music analysis process represents the characteristics of the singing method used by the professional singer, and the difference data represents the characteristics of the singing method by the professional singer. .

換言すると、楽曲解析処理によれば、プロの歌手による歌い方の特徴を表すデータを自動で生成できる。
また、楽曲解析処理では、指定楽曲においてプロの歌手が用いた歌唱技法の種類及び歌唱技法を用いたタイミングを表す技法データを生成し、その技法データと差分データとを対応付けたデータを歌回データEMとして記憶部に記憶している。
In other words, according to the music analysis process, data representing characteristics of how to sing by a professional singer can be automatically generated.
Also, in the music analysis process, technique data representing the type of singing technique used by a professional singer and timing using the singing technique in the designated music is generated, and the data in which the technique data and the difference data are associated with each other It is stored in the storage unit as data EM.

この結果、楽曲解析処理によれば、歌回データEMの内容を充実させることができ、プロの歌手の歌い方をより詳細に表したデータを歌回データEMとして生成できる。
また、楽曲解析処理では、歌唱合成f0推移とオリジナルf0推移との差違が、技法条件を満たさない程度であっても、その差違の内容を、指定楽曲を歌唱したプロの歌手が用いた歌い方の特徴(すなわち「拡張技法」)としてデータ化している。
As a result, according to the music analysis process, the contents of the song data EM can be enriched, and data representing in more detail how to sing a professional singer can be generated as the song data EM.
Also, in the music analysis process, even if the difference between the singing composition f0 transition and the original f0 transition is not enough to satisfy the technical conditions, the content of the difference is sung by the professional singer who sang the designated music Data (ie, “extended technique”).

この結果、データ生成装置によれば、特定の人物が用いる歌い方の特徴としてより細かな内容を歌回データEMに包含させることができる。
また、演奏処理においては、指定楽曲においてプロの歌手が用いた歌唱技法を報知できる。このため、カラオケ装置30の利用者は、指定楽曲を歌っている際に、その指定楽曲を歌唱したプロの歌手が用いた歌唱技法を認識できる。
As a result, according to the data generation device, more detailed contents can be included in the song data EM as the characteristics of the singing method used by a specific person.
In the performance process, the singing technique used by the professional singer in the designated music can be notified. For this reason, the user of the karaoke apparatus 30 can recognize the singing technique used by the professional singer who sang the designated music while singing the designated music.

演奏処理においては、指定楽曲におけるプロの歌手の歌い方に近づくように、利用者の歌声を変更して出力している。このため、演奏処理によれば、利用者の歌声を、プロの歌手の歌い方に近づけることができる。   In the performance process, the singing voice of the user is changed and output so as to approach the way of singing a professional singer in the designated music piece. For this reason, according to performance processing, a user's singing voice can be brought close to how to sing a professional singer.

さらに、演奏処理では、歌唱差分データと差分データとの一致度が高いほど、高く評価している。このため、演奏処理によれば、指定楽曲を歌唱したプロの歌手の歌い方をより高い再現性で実現した場合ほど、高い評価とすることができる。   Furthermore, in performance processing, the higher the degree of coincidence between the singing difference data and the difference data, the higher the evaluation. For this reason, according to the performance processing, the higher the reproducibility, the higher the evaluation can be made by a professional singer who sang the designated music.

ところで、上記実施形態のカラオケシステム1では、楽曲解析処理においてオリジナルf0推移と比較する対象、及び演奏処理において歌声f0推移と比較する対象の双方を、歌唱合成f0推移としている。   By the way, in the karaoke system 1 of the said embodiment, the object compared with the original f0 transition in a music analysis process and the object compared with the singing voice f0 transition in a performance process are made into singing synthetic | combination f0 transition.

このようにすることで、演奏処理によれば、歌唱合成f0推移に特有の基本周波数f0の推移態様(以下、f0推移態様と称す)に関係なく、カラオケ装置30の利用者の歌声を評価できる。   In this way, according to the performance processing, the singing voice of the user of the karaoke apparatus 30 can be evaluated regardless of the transition mode (hereinafter referred to as f0 transition mode) of the fundamental frequency f0 characteristic of the singing synthesis f0 transition. .

なお、ここで言う「f0推移態様」の一例として、図9に示すように、「カ行」,「サ行」,「タ行」またはその濁音の歌詞を歌唱した場合に、基本周波数f0の推移が、当該歌詞が割り当てられた音符の演奏開始タイミングよりも、時間軸に沿って前で途切れることが挙げられる。また、「f0推移態様」の一例として、図10に示すように、「ア行」,「ナ行」,「ラ行」の歌詞を歌唱した場合に、当該歌詞が割り当てられた音符へと時間軸に沿った直前の音符から、基本周波数の推移が滑らかに接続されることが挙げられる(図10中の継続音高変化)。   As an example of the “f0 transition mode” mentioned here, as shown in FIG. 9, when singing the lyrics of “ka line”, “sa line”, “ta line” or its muddy sound, the fundamental frequency f0 For example, the transition is interrupted before the performance start timing of the note to which the lyrics are assigned. As an example of the “f0 transition mode”, as shown in FIG. 10, when the lyrics of “A line”, “N line”, and “La line” are sung, the time to the note to which the lyrics are assigned is shown. It is mentioned that the transition of the fundamental frequency is smoothly connected from the immediately preceding note along the axis (continuous pitch change in FIG. 10).

さらに、「f0推移態様」の一例として、図11に示すように、時間軸に沿って同じ音高の音符が連続し、かつ時間軸に沿って後の音符に割り当てられた「ナ行」,または「マ行」の歌詞を歌唱した場合、基本周波数の推移が、当該歌詞が割り当てられた音符の音高よりも低い音高から当該音高へと推移することが挙げられる(図11中の音高揺らぎ)。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
Furthermore, as an example of the “f0 transition mode”, as shown in FIG. 11, “na rows”, in which notes having the same pitch continue along the time axis and are assigned to subsequent notes along the time axis, Or, when the lyrics of “ma line” are sung, the transition of the fundamental frequency may shift from a pitch lower than the pitch of the note to which the lyrics are assigned to the pitch (in FIG. 11). Pitch fluctuation).
[Other Embodiments]
As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment, In the range which does not deviate from the summary of this invention, it is possible to implement in various aspects.

(1)上記実施形態における歌回データEMは、指定楽曲におけるプロの歌手の歌い回しを表すデータであったが、この歌回データEMは、指定楽曲における特定の人物の歌い回しを表すデータであれば、その特定の人物は、プロの歌手でなくともよい。すなわち、特定の人物は、指定楽曲を歌唱した一般の人物であってもよい。この場合、歌回データEMは、その特定の人物が歌唱した歌唱音声の基本周波数の推移を表すオリジナルf0推移と、歌唱合成f0推移との指定楽曲における時間軸に沿った差分を表す差分データを含むデータであれば、どのようなデータであってもよい。   (1) The song data EM in the above embodiment is data representing the singing of a professional singer in the designated song, but this song data EM is data representing the singing of a specific person in the designated song. If so, that particular person may not be a professional singer. That is, the specific person may be a general person who sang the designated music piece. In this case, the song data EM includes difference data representing the difference along the time axis in the designated music between the original f0 transition indicating the transition of the fundamental frequency of the singing voice sung by the specific person and the singing synthesis f0 transition. Any data may be used as long as the data is included.

(2)上記実施形態においては、楽曲解析処理の実行主体を情報処理装置としていたが、楽曲解析処理の実行主体は、情報処理サーバ10であってもよいし、カラオケ装置30であってもよい。   (2) In the above embodiment, the execution subject of the music analysis process is the information processing device. However, the execution subject of the music analysis process may be the information processing server 10 or the karaoke device 30. .

(3)上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。   (3) The aspect which abbreviate | omitted a part of structure of the said embodiment is also embodiment of this invention. Further, an aspect configured by appropriately combining the above embodiment and the modification is also an embodiment of the present invention. Moreover, all the aspects which can be considered in the limit which does not deviate from the essence of the invention specified by the wording described in the claims are the embodiments of the present invention.

(4)本発明は、前述したデータ生成装置,カラオケシステム1の他、データ生成装置としてコンピュータを機能させるためのプログラム、このプログラムを記録した媒体など、種々の形態で本発明を実現することもできる。
<対応関係の例示>
楽曲解析処理におけるS140を実行することで得られる機能が、合成音取得手段の一例である。S150を実行することで得られる機能が、合成推移導出手段の一例である。S160を実行することで得られる機能が、オリジナル取得手段の一例である。S170を実行することで得られる機能が、歌唱推移導出手段の一例である。S180を実行することで得られる機能が、差分算出手段の一例である。S200を実行することで得られる機能が、登録手段の一例である。
(4) The present invention can be realized in various forms such as the data generation apparatus and karaoke system 1 described above, a program for causing a computer to function as the data generation apparatus, and a medium on which the program is recorded. it can.
<Example of correspondence>
The function obtained by executing S140 in the music analysis process is an example of a synthetic sound acquisition unit. The function obtained by executing S150 is an example of a composite transition deriving unit. The function obtained by executing S160 is an example of the original acquisition unit. The function obtained by executing S170 is an example of singing transition deriving means. The function obtained by executing S180 is an example of the difference calculation means. The function obtained by executing S200 is an example of a registration unit.

また、歌唱技法判定処理におけるS310〜S360を実行することで得られる機能が、技法判定手段の一例である。S370を実行することで得られる機能が、技法データ生成手段の一例である。   Moreover, the function obtained by performing S310-S360 in a singing technique determination process is an example of a technique determination means. The function obtained by executing S370 is an example of the technique data generation means.

そして、演奏処理におけるS470,S500,S510,S530,S560を実行することで得られる機能が、処理実行手段の一例である。S480を実行することで得られる機能が、歌声取得手段の一例である。S490を実行することで得られる機能が、歌声推移導出手段の一例である。S520を実行することで得られる機能が、差分生成手段の一例である。   The function obtained by executing S470, S500, S510, S530, and S560 in the performance process is an example of the process execution means. The function obtained by executing S480 is an example of a singing voice acquisition unit. The function obtained by executing S490 is an example of singing voice transition deriving means. The function obtained by executing S520 is an example of the difference generation unit.

1…カラオケシステム 2…情報処理装置 3…入力受付部 4…情報出力部 5,14,38…記憶部 6,16,50…制御部 7,18,52…ROM 8,20,54…RAM 9,22,56…CPU 10…情報処理サーバ 12…通信部 30…カラオケ装置 32…通信部 34…入力受付部 36…楽曲再生部 40…音声制御部 42…出力部 44…マイク入力部 46…映像制御部 60…スピーカ 62…マイク 64…表示部   DESCRIPTION OF SYMBOLS 1 ... Karaoke system 2 ... Information processing apparatus 3 ... Input reception part 4 ... Information output part 5, 14, 38 ... Memory | storage part 6, 16, 50 ... Control part 7, 18, 52 ... ROM 8, 20, 54 ... RAM 9 22, 22 ... CPU 10 ... Information processing server 12 ... Communication unit 30 ... Karaoke device 32 ... Communication unit 34 ... Input reception unit 36 ... Music playback unit 40 ... Audio control unit 42 ... Output unit 44 ... Microphone input unit 46 ... Video Control unit 60 ... Speaker 62 ... Microphone 64 ... Display unit

Claims (9)

音高と音価との組み合わせからなる音符を複数有し指定された楽曲である指定楽曲の楽譜を表す楽譜データと、前記指定楽曲を構成する複数の音符の少なくとも一部に割り当てられた歌詞を表す歌詞データとに基づいて生成され、前記歌詞データによって表される歌詞が前記楽譜データによって表される楽譜通りに音声合成された合成音声である歌唱合成音データを取得する合成音取得手段と、
前記合成音取得手段で取得した歌唱合成音データから、前記合成音声の基本周波数の推移を表す歌唱合成f0推移を導出する合成推移導出手段と、
前記指定楽曲を特定の人物が歌唱した歌唱音声である歌唱音声データを取得するオリジナル取得手段と、
前記オリジナル取得手段で取得した歌唱音声データから、前記歌唱音声の基本周波数の推移を表すオリジナルf0推移を導出する歌唱推移導出手段と、
前記合成推移導出手段で導出した歌唱合成f0推移と、前記歌唱推移導出手段で導出したオリジナルf0推移との前記指定楽曲における時間軸に沿った差分を表す差分データを算出する差分算出手段と、
前記差分算出手段で算出した差分データを、記憶部に記憶する登録手段と
を備える、データ生成装置。
Score data representing the score of a designated song that is a designated song having a plurality of notes composed of combinations of pitches and note values, and lyrics assigned to at least a part of the plurality of notes constituting the designated song Synthesized sound acquisition means for acquiring singing synthesized sound data that is generated based on the lyric data that is expressed and synthesized by voice synthesis of the lyrics represented by the lyric data according to the score represented by the score data;
Synthesis transition deriving means for deriving a singing synthesis f0 transition representing a transition of the fundamental frequency of the synthesized speech from the singing synthesized sound data acquired by the synthesized sound acquiring means;
Original acquisition means for acquiring singing voice data which is a singing voice of a specific person singing the designated music;
Singing transition deriving means for deriving an original f0 transition representing the transition of the fundamental frequency of the singing voice from the singing voice data acquired by the original acquiring means;
Difference calculating means for calculating difference data representing a difference along the time axis in the designated music between the singing composition f0 transition derived by the composition transition deriving means and the original f0 transition derived by the singing transition deriving means;
A data generation apparatus comprising: registration means for storing difference data calculated by the difference calculation means in a storage unit.
前記合成推移導出手段で導出した歌唱合成f0推移と、前記歌唱推移導出手段で導出したオリジナルf0推移とを比較し、その比較した結果、歌唱合成f0推移に対してオリジナルf0推移が示す歌唱音声データが、歌唱において用いられる各種の歌唱技法の条件として予め規定された技法条件を満たしているか否かを判定する技法判定手段と、
前記技法判定手段での判定の結果、前記技法条件を満たしているとき、当該技法条件に適合する歌唱技法の種類及び歌唱技法を用いたタイミングを特定し、その特定した歌唱技法の種類及び歌唱技法を用いたタイミングを表す技法データを生成する技法データ生成手段と、を備え、
前記登録手段は、
前記技法データ生成手段で生成した技法データと前記差分データとを前記指定楽曲における時間軸に沿って対応付けたデータである歌回データを、前記記憶部に記憶する、請求項1に記載のデータ生成装置。
Singing voice data indicated by the original f0 transition with respect to the singing synthesis f0 transition as a result of comparing the singing synthesis f0 transition derived by the synthetic transition derivation means with the original f0 transition derived by the singing transition derivation means. Is a technique judging means for judging whether or not a technique condition defined in advance as a condition of various singing techniques used in singing is satisfied,
As a result of determination by the technique determination means, when the technique condition is satisfied, the type of singing technique and timing using the singing technique that meet the technique condition are specified, and the specified singing technique type and singing technique are specified. Technical data generation means for generating technical data representing timing using
The registration means includes
The data according to claim 1, wherein song data, which is data in which the technique data generated by the technique data generating means and the difference data are associated with each other along a time axis in the designated music, is stored in the storage unit. Generator.
前記技法データ生成手段は、
前記技法判定手段にて比較した結果、前記技法条件を満たしていなかったとしても、前記歌唱合成f0推移と前記オリジナルf0推移との間に予め規定された規定値以上の差違があるとき、その差違の内容及び当該差違が存在するタイミングを前記技法データとして生成する、請求項2に記載のデータ生成装置。
The technique data generation means includes
Even if the technique condition is not satisfied as a result of the comparison by the technique determination means, if there is a difference greater than a predetermined value between the singing synthesis f0 transition and the original f0 transition, the difference The data generation apparatus according to claim 2, wherein the technique data and the timing at which the difference exists are generated as the technique data.
音高と音価との組み合わせからなる音符を複数有し指定された楽曲である指定楽曲の楽譜を表す楽譜データと、前記指定楽曲を構成する複数の音符の少なくとも一部に割り当てられた歌詞を表す歌詞データとに基づいて生成され、前記歌詞データによって表される歌詞が前記楽譜データによって表される楽譜通りに音声合成された合成音声である歌唱合成音データを取得する合成音取得手段と、
前記合成音取得手段で取得した歌唱合成音データから、前記合成音声の基本周波数の推移を表す歌唱合成f0推移を導出する合成推移導出手段と、
前記楽譜データに従って、前記指定楽曲を演奏する演奏実行手段と、
前記演奏実行手段により演奏される前記指定楽曲を特定の人物が歌唱した歌唱音声である歌唱音声データを取得するオリジナル取得手段と、
前記オリジナル取得手段で取得した歌唱音声データから、前記歌唱音声の基本周波数の推移を表すオリジナルf0推移を導出する歌唱推移導出手段と、
前記合成推移導出手段で導出した歌唱合成f0推移と、前記歌唱推移導出手段で導出したオリジナルf0推移との前記指定楽曲における時間軸に沿った差分を表す差分データを算出する差分算出手段と、
前記差分算出手段で算出した差分データを、記憶部に記憶する登録手段と、
前記記憶部に記憶された差分データに基づいて、前記指定楽曲の演奏に関して規定された処理である規定処理を実行する処理実行手段と
を備える、カラオケシステム。
Score data representing the score of a designated song that is a designated song having a plurality of notes composed of combinations of pitches and note values, and lyrics assigned to at least a part of the plurality of notes constituting the designated song Synthesized sound acquisition means for acquiring singing synthesized sound data that is generated based on the lyric data that is expressed and synthesized by voice synthesis of the lyrics represented by the lyric data according to the score represented by the score data;
Synthesis transition deriving means for deriving a singing synthesis f0 transition representing a transition of the fundamental frequency of the synthesized speech from the singing synthesized sound data acquired by the synthesized sound acquiring means;
Performance execution means for playing the designated music according to the score data;
Original acquisition means for acquiring singing voice data, which is a singing voice of a specific person singing the designated music played by the performance executing means;
Singing transition deriving means for deriving an original f0 transition representing the transition of the fundamental frequency of the singing voice from the singing voice data acquired by the original acquiring means;
Difference calculating means for calculating difference data representing a difference along the time axis in the designated music between the singing composition f0 transition derived by the composition transition deriving means and the original f0 transition derived by the singing transition deriving means;
Registration means for storing the difference data calculated by the difference calculation means in a storage unit;
A karaoke system comprising: process execution means for executing a specified process, which is a process specified for the performance of the designated music, based on the difference data stored in the storage unit.
前記処理実行手段は、
前記演奏実行手段により前記指定楽曲が演奏される場合、前記記憶部に記憶された差分データに基づいて、前記指定楽曲を歌唱した特定の人物が用いた歌唱技法の種類及び歌唱技法を用いたタイミングを報知する報知処理を、前記規定処理として実行する、請求項4に記載のカラオケシステム。
The process execution means includes
When the designated music is played by the performance executing means, based on the difference data stored in the storage unit, the type of singing technique used by the specific person who sang the designated music and the timing using the singing technique The karaoke system according to claim 4, wherein a notification process for notifying is performed as the defining process.
前記演奏実行手段による前記指定楽曲の演奏中にマイクを介して入力された音声である歌声データを取得する歌声取得手段と、
前記歌声取得手段で取得した歌声データに基づいて、前記音声の基本周波数の推移を表す歌声f0推移を導出する歌声推移導出手段と
を備え、
前記処理実行手段は、
前記歌声推移導出手段で導出した歌声f0推移に基づく処理を、前記規定処理として実行する、請求項4または請求項5に記載のカラオケシステム。
Singing voice acquisition means for acquiring singing voice data which is voice input via a microphone during the performance of the designated music piece by the performance execution means;
Singing voice transition deriving means for deriving a singing voice f0 transition representing a transition of the fundamental frequency of the voice based on the singing voice data acquired by the singing voice acquisition means,
The process execution means includes
The karaoke system according to claim 4 or 5, wherein a process based on the singing voice f0 transition derived by the singing voice transition deriving unit is executed as the defining process.
前記処理実行手段は、
前記歌声推移導出手段で導出した歌声f0推移と、前記合成推移導出手段で導出した歌唱合成f0推移との前記指定楽曲における時間軸に沿った差分を表す歌唱差分データを生成する差分生成手段を備え、
前記差分生成手段で生成した歌唱差分データと、前記記憶部に記憶されている差分データとを比較し、その比較の結果、一致度が高いほど、高い評価とする評価処理を、前記規定処理として実行する、請求項6に記載のカラオケシステム。
The process execution means includes
Difference generating means for generating singing difference data representing a difference along the time axis in the designated music between the singing voice f0 transition derived by the singing voice transition deriving means and the singing synthesis f0 transition derived by the synthetic transition deriving means. ,
The singing difference data generated by the difference generating means and the difference data stored in the storage unit are compared, and as a result of the comparison, an evaluation process with a higher evaluation as the degree of coincidence is defined as the prescribed process. The karaoke system according to claim 6, which is executed.
前記処理実行手段は、
前記記憶部に記憶されている差分データに基づいて、前記歌声推移導出手段で導出した歌声f0推移を変更し、その変更した歌声f0推移に基づく音声を出力する変更処理を、前記規定処理として実行する、請求項6または請求項7に記載のカラオケシステム。
The process execution means includes
Based on the difference data stored in the storage unit, the singing voice f0 transition derived by the singing voice transition deriving means is changed, and a changing process for outputting a sound based on the changed singing voice f0 transition is executed as the prescribed process. The karaoke system according to claim 6 or 7.
音高と音価との組み合わせからなる音符を複数有し指定された楽曲である指定楽曲の楽譜を表す楽譜データと、前記指定楽曲を構成する複数の音符の少なくとも一部に割り当てられた歌詞を表す歌詞データとに基づいて生成され、前記歌詞データによって表される歌詞が前記楽譜データによって表される楽譜通りに音声合成された合成音声である歌唱合成音データを取得する合成音取得手順と、
前記合成音取得手順で取得した歌唱合成音データに基づいて、前記合成音声の基本周波数の推移を表す歌唱合成f0推移を導出する合成推移導出手順と、
前記指定楽曲を特定の人物が歌唱した歌唱音声である歌唱音声データを取得するオリジナル取得手順と、
前記オリジナル取得手順で取得した歌唱音声データに基づいて、前記歌唱音声の基本周波数の推移を表すオリジナルf0推移を導出する歌唱推移導出手順と、
前記合成推移導出手順で導出した歌唱合成f0推移と、前記歌唱推移導出手順で導出したオリジナルf0推移との前記指定楽曲における時間軸に沿った差分を表す差分データを算出する差分算出手順と、
前記差分算出手順で算出した差分データを、記憶部に記憶する登録手順とを、
コンピュータに実行させる、プログラム。
Score data representing the score of a designated song that is a designated song having a plurality of notes composed of combinations of pitches and note values, and lyrics assigned to at least a part of the plurality of notes constituting the designated song A synthetic sound acquisition procedure for acquiring singing synthetic sound data that is generated based on the lyric data that is expressed and synthesized by synthesizing the lyrics represented by the lyric data according to the musical score represented by the musical score data;
A synthesis transition derivation procedure for deriving a singing synthesis f0 transition representing a transition of the fundamental frequency of the synthesized speech based on the singing synthesized sound data acquired in the synthetic sound acquisition procedure;
An original acquisition procedure for acquiring singing voice data which is a singing voice of a specific person singing the designated music;
A singing transition derivation procedure for deriving an original f0 transition representing a transition of the fundamental frequency of the singing voice based on the singing voice data acquired in the original acquisition procedure;
A difference calculation procedure for calculating difference data representing a difference along the time axis in the designated music between the singing composition f0 transition derived in the synthesis transition derivation procedure and the original f0 transition derived in the singing transition derivation procedure;
A registration procedure for storing the difference data calculated in the difference calculation procedure in a storage unit;
A program to be executed by a computer.
JP2015174774A 2015-09-04 2015-09-04 Data generation apparatus, karaoke system, and program Active JP6380305B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015174774A JP6380305B2 (en) 2015-09-04 2015-09-04 Data generation apparatus, karaoke system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015174774A JP6380305B2 (en) 2015-09-04 2015-09-04 Data generation apparatus, karaoke system, and program

Publications (2)

Publication Number Publication Date
JP2017049539A JP2017049539A (en) 2017-03-09
JP6380305B2 true JP6380305B2 (en) 2018-08-29

Family

ID=58279704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015174774A Active JP6380305B2 (en) 2015-09-04 2015-09-04 Data generation apparatus, karaoke system, and program

Country Status (1)

Country Link
JP (1) JP6380305B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493684B (en) * 2018-12-10 2021-02-23 北京金三惠科技有限公司 Multifunctional digital music teaching system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125582A (en) * 1999-10-26 2001-05-11 Victor Co Of Japan Ltd Method and device for voice data conversion and voice data recording medium
JP4007298B2 (en) * 2003-09-30 2007-11-14 ヤマハ株式会社 Karaoke device and program
JP2007322934A (en) * 2006-06-02 2007-12-13 Yamaha Corp Singing practice device, karaoke device, and program
JP4910854B2 (en) * 2007-04-17 2012-04-04 ヤマハ株式会社 Fist detection device, fist detection method and program
JP5428459B2 (en) * 2009-03-30 2014-02-26 ヤマハ株式会社 Singing evaluation device
US9305570B2 (en) * 2012-06-13 2016-04-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
JP6184296B2 (en) * 2013-10-31 2017-08-23 株式会社第一興商 Karaoke guide vocal generating apparatus and guide vocal generating method

Also Published As

Publication number Publication date
JP2017049539A (en) 2017-03-09

Similar Documents

Publication Publication Date Title
JP6060867B2 (en) Information processing apparatus, data generation method, and program
JP6380305B2 (en) Data generation apparatus, karaoke system, and program
JP2020190676A (en) Electronic musical instrument, method for controlling electronic musical instrument, and program
JP6406273B2 (en) Karaoke device and program
JP6252420B2 (en) Speech synthesis apparatus and speech synthesis system
JP6056799B2 (en) Program, information processing apparatus, and data generation method
JP6075314B2 (en) Program, information processing apparatus, and evaluation method
JP6260565B2 (en) Speech synthesizer and program
JP6075313B2 (en) Program, information processing apparatus, and evaluation data generation method
JP6365483B2 (en) Karaoke device, karaoke system, and program
JP6406182B2 (en) Karaoke device and karaoke system
JP5983670B2 (en) Program, information processing apparatus, and data generation method
JP2007225916A (en) Authoring apparatus, authoring method and program
JP6252517B2 (en) Speech synthesizer and program
CN112489607A (en) Method and device for recording songs, electronic equipment and readable storage medium
JP6011506B2 (en) Information processing apparatus, data generation method, and program
JP6252408B2 (en) Display control device and display control system
JP6281447B2 (en) Speech synthesis apparatus and speech synthesis system
JP6365561B2 (en) Karaoke system, karaoke device, and program
JP2007233078A (en) Evaluation device, control method, and program
JP5439994B2 (en) Data collection / delivery system, online karaoke system
JP5446150B2 (en) Electronic music equipment
JP2017181661A (en) Support device
JP6260499B2 (en) Speech synthesis system and speech synthesizer
JP5347641B2 (en) Karaoke device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180716

R150 Certificate of patent or registration of utility model

Ref document number: 6380305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150