JP2017111268A - Technique judgement device - Google Patents
Technique judgement device Download PDFInfo
- Publication number
- JP2017111268A JP2017111268A JP2015244827A JP2015244827A JP2017111268A JP 2017111268 A JP2017111268 A JP 2017111268A JP 2015244827 A JP2015244827 A JP 2015244827A JP 2015244827 A JP2015244827 A JP 2015244827A JP 2017111268 A JP2017111268 A JP 2017111268A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- unit
- technique
- volume
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
本発明は、入力音の技法を判定する技術に関する。 The present invention relates to a technique for determining an input sound technique.
カラオケ装置には、歌唱音声を解析して評価する機能が備えられている。歌唱の評価には様々な方法が用いられる。その方法の一つとして、例えば、特許文献1には、歌唱技法の一つであるしゃくり上げを検出して評価するカラオケ採点装置が開示されている。
The karaoke apparatus has a function of analyzing and evaluating a singing voice. Various methods are used for singing evaluation. As one of the methods, for example,
しかしながら、特許文献1に開示された技術では、誤検出が多く、歌唱の技法を正確に判定し、評価することができないという問題があった。
However, in the technique disclosed in
本発明の課題の一つは、入力音の技法を判定することにある。 One of the objects of the present invention is to determine the technique of input sound.
本発明の一実施形態によると、入力音を取得する入力音取得部と、前記入力音取得部によって取得された前記入力音の特徴量を時系列に検出する特徴量検出部と、前記特徴量検出部によって取得された前記特徴量に基づいて、特徴量の平坦部を検出する平坦部検出部と、前記特徴量の平坦部の前又は後の所定の期間における、前記特徴量の変動に基づいて前記入力音の技法を判定する技法判定部と、を備える、技法判定装置が提供される。 According to an embodiment of the present invention, an input sound acquisition unit that acquires an input sound, a feature amount detection unit that detects a feature amount of the input sound acquired by the input sound acquisition unit in time series, and the feature amount Based on the feature amount acquired by the detection unit, based on the flat portion detection unit that detects the flat portion of the feature amount, and the variation of the feature amount in a predetermined period before or after the flat portion of the feature amount And a technique determination unit that determines a technique of the input sound.
前記平坦部検出部は、前記特徴量の時系列の変動が所定の変動以下である期間を検出し、前記期間が所定時間以上である場合、前記期間を前記平坦部として検出してもよい。 The flat part detection unit may detect a period in which the time-series fluctuation of the feature amount is equal to or less than a predetermined fluctuation, and may detect the period as the flat part when the period is equal to or longer than a predetermined time.
前記特徴量は、ピッチ又は音量であってもよい。 The feature amount may be a pitch or a volume.
技法判定装置は、前記特徴量に基づいて、前記入力音のテンポを推定するテンポ推定部を備え、前記所定時間は、前記テンポに応じて決定されてもよい。 The technique determination apparatus may include a tempo estimation unit that estimates a tempo of the input sound based on the feature amount, and the predetermined time may be determined according to the tempo.
前記平坦部検出部によって、複数の平坦部が検出された場合、前記所定の期間は、時系列的に互いに隣接する2つの平坦部の間の期間であってもよい。 When a plurality of flat portions are detected by the flat portion detection unit, the predetermined period may be a period between two flat portions adjacent to each other in time series.
本発明の一実施形態によると、コンピュータに、入力音を取得し、前記入力音の特徴量を時系列に検出し、前記特徴量に基づいて特徴量の平坦部を検出し、特徴量の平坦部の前又は後の所定の期間における、前記特徴量の変動に基づいて前記入力音の技法を判定する、ことを実行させるプログラムが提供される。 According to an embodiment of the present invention, a computer acquires an input sound, detects a feature amount of the input sound in time series, detects a flat portion of the feature amount based on the feature amount, and flattenes the feature amount. There is provided a program for executing the determination of the technique of the input sound based on the variation of the feature amount in a predetermined period before or after the part.
本発明の一実施形態によれば、入力音の技法を判定することが可能になる。 According to one embodiment of the present invention, it is possible to determine the technique of the input sound.
以下、本発明の一実施形態における技法判定装置について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。 Hereinafter, a technique determination apparatus according to an embodiment of the present invention will be described in detail with reference to the drawings. The following embodiments are examples of the embodiments of the present invention, and the present invention is not limited to these embodiments.
<第1実施形態>
本発明の第1実施形態における技法判定装置について、図面を参照しながら詳細に説明する。第1実施形態に係る技法判定装置は、歌唱するユーザ(以下、歌唱者という場合がある)の歌唱音を判定する機能を備えた装置である。この技法判定装置は、歌唱音のピッチと音量を時系列に検出し、音量の変化とピッチの変動に基づいて特定の技法を判定する。
<First Embodiment>
A technique determination apparatus according to a first embodiment of the present invention will be described in detail with reference to the drawings. The technique determination apparatus which concerns on 1st Embodiment is an apparatus provided with the function which determines the song sound of the user who sings (it may be hereafter called a singer). This technique determination apparatus detects the pitch and volume of a singing sound in time series, and determines a specific technique based on a change in volume and a change in pitch.
[ハードウエア]
図1は、本発明の第1実施形態における技法判定装置10の構成を示すブロック図である。技法判定装置10は、例えば、歌唱採点機能を備えたカラオケ装置である。技法判定装置10は、制御部11、記憶部13、操作部15、表示部17、通信部19、および信号処理部21を含む。信号処理部21には、音入力部(例えば、マイクロフォン)23及び音出力部(例えば、スピーカ)25が接続されている。これらの各構成は、バスを介して相互に接続されている。
[Hardware]
FIG. 1 is a block diagram showing a configuration of a
制御部11は、CPUなどの演算処理回路を含む。制御部11は、記憶部13に記憶された制御プログラム13aをCPUにより実行して、各種機能を技法判定装置10において実現させる。実現される機能には、歌唱の技法判定機能が含まれる。また、実現される機能に、技法判定によって判定された技法に基づいた歌唱の評価機能が含まれてもよい。
The
記憶部13は、不揮発性メモリ、ハードディスク等の記憶装置である。記憶部13は、技法判定機能を実現するための制御プログラム13aを記憶する。制御プログラム13aは、歌唱の評価機能を含んでもよい。制御プログラム13aは、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。この場合には、技法判定装置10は、記録媒体を読み取る装置を備えていればよい。また、制御プログラム13aは、インターネット等のネットワーク経由でダウンロードされてもよい。
The
また、記憶部13は、歌唱に関するデータとして、楽曲データ13b、歌唱音声データ13cを記憶する。また、記憶部13は、評価基準データ13dを記憶してもよい。楽曲データ13bは、カラオケの歌唱曲に関連するデータ、例えば、ガイドメロディデータ、伴奏データ、歌詞データなどが含まれている。ガイドメロディデータは、歌唱曲のメロディを示すデータである。伴奏データは、歌唱曲の伴奏を示すデータである。ガイドメロディデータおよび伴奏データは、MIDI形式で表現されたデータであってもよい。歌詞データは、歌唱曲の歌詞を表示させるためのデータ、および表示させた歌詞テロップを色替えするタイミングを示すデータである。歌唱音声データ13cは、歌唱者が音入力部23から入力した歌唱音声に対応するデータである。本実施形態では、歌唱音声データ13cは、技法判定機能によって歌唱音声が判定されるまで、記憶部13に記憶される。評価基準データ13dは、評価機能によって歌唱音声の評価の基準として用いられる情報であり、評価対象の歌唱曲(歌唱音声の入力がされるときに出力されている歌唱曲)を示す楽曲データに予め対応付けられている基準音データであってもよい。
Moreover, the memory |
操作部15は、操作パネルおよびリモコンなどに設けられた操作ボタン、キーボード、マウスなどの装置であり、入力された操作に応じた信号を制御部11に出力する。表示部17は、液晶ディスプレイ、有機ELディスプレイ等の表示装置であり、制御部11による制御に基づいた画面が表示される。なお、操作部15と表示部17とが一体となったタッチパネル装置であってもよい。通信部19は、制御部11の制御に基づいて、インターネットやLANなどの通信回線と接続して、サーバ等の外部装置と情報の送受信を行う。なお、記憶部13の機能は、通信部19において通信可能な外部装置で実現されてもよい。
The
信号処理部21は、MIDI形式の信号からオーディオ信号を生成する音源、A/Dコンバータ、D/Aコンバータ等を含む。歌唱音声は、音入力部23において電気信号に変換されて信号処理部21に入力され、信号処理部21においてA/D変換されて制御部11に出力される。歌唱音声は、歌唱音声データ13cとして記憶部13に記憶される。また、伴奏データは、制御部11によって読み出され、信号処理部21においてD/A変換され、音出力部25から歌唱曲の伴奏として出力される。このとき、ガイドメロディも音出力部25から出力されるようにしてもよい。
The
[技法判定機能]
技法判定装置10の制御部11が記憶部13に記憶された制御プログラム13aを実行することによって実現される技法判定機能について説明する。なお、以下に説明する技法判定機能を実現する構成の一部または全部は、ハードウエアによって実現されてもよい。
[Technology judgment function]
A technique determination function realized by executing the
図2は、本発明の第1実施形態における技法判定機能100の構成を示すブロック図である。図2を参照すると、技法判定機能100は、入力音取得部103、特徴量検出部105、平坦部検出部111、及び技法判定部113を含む。
FIG. 2 is a block diagram showing a configuration of the
入力音取得部103は、音入力部23から入力された歌唱音声に対応する歌唱音声データ(入力音)を取得する。なお、入力音取得部103は、歌唱音声データを信号処理部21から直接取得するが、いったん記憶部13に記憶された歌唱音声データを取得するようにしてもよい。また、入力音取得部103は、音入力部23への入力音を示す歌唱音声データを取得する場合に限らず、外部装置への入力音を示す歌唱音声データを、通信部19によりネットワーク経由で取得してもよい。本実施形態においては、入力音取得部103は、楽曲データの再生中に順次入力される歌唱音声データを、特徴量検出部105に順次出力する。
The input
特徴量検出部105は、入力音取得部103から歌唱音声データを取得する。特徴量検出部105は、取得した歌唱音声データについて、音量及びピッチを含む歌唱音の特徴量を検出する。特徴量検出部105は、音量検出部107及びピッチ検出部109を含む。
The feature
音量検出部107は、入力音取得部103によって取得された歌唱音声データから、歌唱音の音量を時系列に検出する。即ち、音量検出部107は、歌唱音声データに基づいて、歌唱音の音量の時間的な変化を検出する。本実施形態において、音量検出部107は、歌唱音声データが示す音声信号の振幅に基づいて音量を検出する。音量検出部107は、検出された音量を時系列に示すデータ(音量波形)を平坦部検出部111及び技法判定部113に時系列に出力する。
The
ピッチ検出部109は、入力音取得部103によって取得された歌唱音声データから、歌唱音のピッチを時系列に検出する。即ち、ピッチ検出部109は、フレーム(所定期間で区切られたデータサンプル)ごとに歌唱音声データが示す音声信号の波形が負から正に変化する際のゼロクロスを検出し、そのゼロクロスの時間間隔を測定することによって歌唱音のピッチ(周波数)を特定する。このとき、この音声信号から、ローパスフィルタによりノイズ成分となる高域成分をカットしたり、ハイパスフィルタにより直流成分をカットしたりしておいてもよい。また、ピッチ検出部109は、歌唱音声データにFFT(Fast Fourier Transform)を施して得られるスペクトルからピッチを特定してもよい。ピッチ検出部109は、このようにして検出したピッチを時系列に示すデータ(ピッチ波形)を、平坦部検出部111及び技法判定部113に時系列に出力する。
The
平坦部検出部111は、特徴量検出部105によって検出された特徴量の時系列の変動に基づいて、特徴量の平坦部を検出する。平坦部検出部111は、検出された特徴量の平坦部を示すデータを技法判定部113に出力する。
The flat
具体的には、平坦部検出部111は、音量検出部107によって検出された音量を示すデータにおける平坦部、即ち、音量が略一定となっている期間を音量の平坦部として検出してもよい。例えば、平坦部検出部111は、音量検出部107によって検出された音量を示すデータに対しフレーム(所定時間ごとに区切られたデータサンプル)ごとに音量の変動が予め決められた所定の閾値ΔVth以下か否かを判定する。音量の変動が所定の閾値ΔVth以下であるフレームが予め決められた数以上(例えば、2フレーム以上)連続して検出された場合、即ち、音量の変動が所定の閾値ΔVth以下である期間が予め決められた所定時間以上である場合、平坦部検出部111は、音量の変動が所定の閾値ΔVth以下であるフレームを音量の平坦部として検出してもよい。
Specifically, the flat
図3は、平坦部検出部111における、音量の平坦部検出の概念の一例を説明するための図である。図3は、歌唱音の音量を時系列に示す音量波形であり、縦軸は音量(V)を示し、横軸は時間(T)を示す。図3では、フレームfn−1〜fn+6が示されている。フレームfの長さは任意である。開始点検出部109は、各フレームfn−1〜fn+6における音量の変動が所定の閾値ΔVth以下あるか否かを判定する。例えば、フレームfn−1、fn、fn+1、fn+4、fn+5、fn+6における音量の変動が所定の閾値ΔVthを上回り(ΔVn−1>ΔVth、ΔVn+1>ΔVth、ΔVn+4>ΔVth、ΔVn+5>ΔVth、ΔVn+6>ΔVth)、fn+2、fn+3における音量の変動が所定の閾値ΔVth以下(ΔVn+2≦ΔVth、ΔVn+3≦ΔVth、)である場合、平坦部検出部111は、フレームfn+2、fn+3を音量の平坦部として検出してもよい。
FIG. 3 is a diagram for explaining an example of the concept of detecting the flat portion of the sound volume in the flat
また、平坦部検出部111は、所定の複数のフレームごとに音量の平均値を算出し、算出された音量の平均値の変動に基づいて音量の平坦部を検出してもよい。例えば、平坦部111は、フレームfn−1、フレームfn及びフレームfn+1における音量の平均値を算出し、次に、フレームfn、フレームfn+1及びフレームfn+2における音量の平均値を算出し、その次に、フレームfn+1、フレームfn+2及びフレームfn+3における音量の平均値を算出する。このように、平坦部検出部111は、音量の平均値を算出する期間を所定の時間(ここでは、1フレームに相当する時間)だけずらしながら音量の平均値を算出する。平坦部検出部111は、連続する所定の複数のフレーム(例えば、フレームfn−1〜fn+1及びフレームn〜fn+2)の音量の平均値の差が所定の閾値以下である場合、該連続する所定の複数のフレーム期間に対応する期間(例えば、フレームfn−1〜fn+2)を音量の平坦部として検出してもよい。
Further, the flat
また、例えば、平坦部検出部111は、音量検出部107によって検出された音量を示すデータに対しフレームごとに、音量を示すデータ(音量波形)の傾きの絶対値を算出し、算出された傾きの絶対値が所定の値以下となるか否かを判定してもよい。算出された傾きの絶対値が所定の値以下となるフレームが予め決められた数以上(例えば、2フレーム以上)連続して検出された場合、平坦部検出部111は、算出された傾きの絶対値が所定の値以下となるフレームを音量の平坦部として検出してもよい。
For example, the flat
さらに、平坦部検出部111は、ピッチ検出部109によって検出されたピッチを示すデータにおける平坦部、即ち、ピッチが略一定となっている期間をピッチの平坦部として検出してもよい。例えば、平坦部検出部111は、ピッチ検出部109によって検出されたピッチを示すデータに対しフレーム(所定時間ごとに区切られたデータサンプル)ごとにピッチの平均値を算出し、算出されたピッチの平均値の10の位を四捨五入して100セントごとのグリッドに当てはめ、四捨五入されたピッチの値が同一のグリッドに乗っているフレームが予め決められた数以上(例えば、2フレーム以上)連続して検出された場合、即ち、四捨五入されたピッチの値が同一のグリッドに乗っている期間が予め決められた所定時間以上である場合、平坦部検出部111は、四捨五入されたピッチの値が同一のグリッドに乗っているフレームをピッチの平坦部として検出してもよい。
Further, the flat
図4は、平坦部検出部111における、ピッチの平坦部検出の概念の一例を説明するための図である。図4は、歌唱音のピッチを時系列に示すピッチ波形であり、縦軸はピッチ(cent)を示し、横軸は時間(T)を示す。図4では、フレームfn−1〜fn+6が示されている。フレームfの長さは任意である。平坦部検出部111は、各フレームfn−1〜fn+6におけるピッチの平均値を算出する。図4において、各フレームfn−1〜fn+6におけるピッチの平均値が黒い丸(●)で示している。平坦部検出部111は、算出されたピッチの平均値の10の位を四捨五入して100セントごとのグリッドに当てはめ、当てはまるグリッドに対応するピッチの値を、各フレームfn−1〜fn+6におけるピッチとする。
FIG. 4 is a diagram for explaining an example of the concept of the flat part detection of the pitch in the flat
例えば、図4では、フレームfn−1のピッチの平均値の10の位の四捨五入後の値に当てはまるグリッドに対応するピッチは100*(m+3)セントとする。フレームfnのピッチの平均値の10の位の四捨五入後の値に当てはまるグリッドに対応するピッチは100*(m+4)セントとする。フレームfn+1のピッチの平均値の10の位の四捨五入後の値に当てはまるグリッドに対応するピッチは100*(m+4)セントとする。フレームfn+2のピッチの平均値の10の位の四捨五入後の値に当てはまるグリッドに対応するピッチは100*(m+4)セントとする。フレームfn+3のピッチの平均値の10の位の四捨五入後の値に当てはまるグリッドに対応するピッチは100*(m+3)セントとする。フレームfn+4のピッチの平均値の10の位の四捨五入後の値に当てはまるグリッドに対応するピッチは100*(m+2)セントとする。フレームfn+5のピッチの平均値の10の位の四捨五入後の値に当てはまるグリッドに対応するピッチは100*(m+1)セントとする。フレームfn+6のピッチの平均値の10の位の四捨五入後の値に当てはまるグリッドに対応するピッチは100*(m+2)セントとする。平坦部検出部111は、ピッチが同一であるフレームが予め決められた数以上(例えば、2フレーム以上)連続して検出された場合、ピッチが同一であるフレームをピッチの平坦部として検出してもよい。図4では、フレームfn、fn+1、fn+2の四捨五入されたピッチの平均値に当てはまるグリッドに対応するピッチが、100*(m+4)セントである。したがって、平坦部検出部111は、フレームfn〜fn+2をピッチの平坦部として検出する。
For example, in FIG. 4, the pitch corresponding to the grid corresponding to the value after rounding to the 10th of the average value of the pitch of the frame f n−1 is 100 * (m + 3) cents. Pitch corresponding to grid true value after rounding digit of 10 of the average value of the pitch of the frame f n is set to 100 * (m + 4) cents. The pitch corresponding to the grid corresponding to the value after rounding off to the 10th place of the average value of the pitch of the frame f n + 1 is 100 * (m + 4) cents. The pitch corresponding to the grid corresponding to the value after rounding to the tenth of the average value of the pitches of the frame f n + 2 is 100 * (m + 4) cents. The pitch corresponding to the grid corresponding to the value after rounding to the tenth of the average value of the pitch of the frame f n + 3 is 100 * (m + 3) cents. The pitch corresponding to the grid corresponding to the value after rounding to the 10th place of the average value of the pitch of the frame f n + 4 is 100 * (m + 2) cents. The pitch corresponding to the grid corresponding to the value after rounding to the tenth of the average value of the pitch of the frame f n + 5 is 100 * (m + 1) cents. The pitch corresponding to the grid corresponding to the value after rounding to the tenth of the average value of the pitches of the frame f n + 6 is 100 * (m + 2) cents. The flat
尚、平坦部検出部111は、より正確にピッチの平坦部を検出するために、ピッチの平均値の10の位の四捨五入後の値が同一のグリッドに乗っているフレームが予め決められた数以上(例えば、2フレーム以上)連続して検出された場合、検出されたフレームにおけるピッチの時間的な変動が予め決められた所定の幅以内の変動であれば、該検出されたフレームをピッチの平坦部として検出してもよい。
In addition, in order to detect the flat part of the pitch more accurately, the flat
また、例えば、平坦部検出部111は、ピッチ検出部109によって検出されたピッチを示すデータに対しフレームごとに、ピッチを示すデータ(ピッチ波形)の傾きの絶対値を算出し、算出された傾きの絶対値が所定の値以下となるか否かを判定してもよい。算出された傾きの絶対値が所定の値以下となるフレームが予め決められた数以上(例えば、2フレーム以上)連続して検出された場合、平坦部検出部111は、算出された傾きの絶対値が所定の値以下となるフレームをピッチの平坦部として検出してもよい。また、算出された傾きの絶対値が所定の値以下となるフレームが予め決められた数以上(例えば、2フレーム以上)連続して検出された場合、平坦部検出部111は、検出されたフレームにおけるピッチの時間的な変動が予め決められた所定の幅以内の変動であれば、該検出されたフレームをピッチの平坦部として検出してもよい。
Further, for example, the flat
また、例えば、平坦部検出部111は、所定の複数のフレームにおけるピッチの最大値と最小値との差が所定の値以内であれば、該所定の複数のフレームをピッチの平坦部として検出してもよい。
In addition, for example, if the difference between the maximum and minimum pitch values in a plurality of predetermined frames is within a predetermined value, the flat
技法判定部113は、平坦部検出部111によって検出された歌唱音の特徴量の平坦部(音量の平坦部、又はピッチの平坦部)の前後の音量の変化、及びピッチの変動に基づいて、歌唱音声の技法を判定する。例えば、技法判定部113は、歌唱技法として、しゃくり上げ、しゃくり下げ、跳ね上げ、フォール及びこぶしやクレッシェンド、デクレッシェンド、及びフォルテピアノなどの抑揚を判定してもよい。
The
図5は、技法判定部113における、しゃくり上げ判定の概念を説明するための図である。しゃくり上げとは、主にピッチが安定する前にピッチを下から上に上昇させる技法である。図5は、歌唱音のピッチ波形である。平坦検出部111は、図5におけるフレームfn+1〜fn+3をフレームの平坦部として検出したものとする。図5に示すように、平坦部の前のフレーム(フレームfn−1、fn)において、ピッチが上昇している。この場合、技法判定部113は、平坦部の前にしゃくり上げが含まれていると判定する。ここで、技法判定部113は、平坦部の前において、ピッチを示すデータ(ピッチ波形)の傾きが所定の値以上となるフレームが予め決められた数以上(例えば、2フレーム以上)連続している場合、平坦部の前にしゃくり上げが含まれていると判定してもよい。
FIG. 5 is a diagram for explaining the concept of scooping determination in the
図6は、技法判定部113における、しゃくり下げ判定の概念を説明するための図である。しゃくり下げとは、主にピッチが安定する前にピッチを上から下に下降させる技法である。図6は、歌唱音のピッチ波形である。平坦検出部111は、図6におけるフレームfn+1〜fn+2をフレームの平坦部として検出したものとする。図6に示すように、平坦部の前のフレーム(フレームfn−1、fn)において、ピッチが下降している。この場合、技法判定部113は、平坦部の前にしゃくり下げが含まれていると判定する。ここで、技法判定部113は、平坦部の前において、ピッチを示すデータ(ピッチ波形)の傾きが所定の値以下となるフレームが予め決められた数以上(例えば、2フレーム以上)連続している場合、平坦部の前にしゃくり下げが含まれていると判定してもよい。
FIG. 6 is a diagram for explaining the concept of scrambling determination in the
図7は、技法判定部113における、跳ね上げ判定の概念を説明するための図である。図7は、歌唱音のピッチ波形である。跳ね上げとは、主にピッチの安定後にピッチを下から上に上昇させる技法である。図7は、歌唱音のピッチ波形である。平坦検出部111は、図7におけるフレームfn−1〜fn+1をフレームの平坦部として検出したものとする。図7に示すように、平坦部の後のフレーム(フレームfn+2、fn+3、fn+4)において、ピッチが上昇している。この場合、技法判定部113は、平坦部の後に跳ね上げが含まれていると判定する。ここで、技法判定部113は、平坦部の後において、ピッチを示すデータ(ピッチ波形)の傾きが所定の値以上となるフレームが予め決められた数以上(例えば、2フレーム以上)連続している場合、平坦部の後に跳ね上げが含まれていると判定してもよい。
FIG. 7 is a diagram for explaining the concept of the flip-up determination in the
図8は、技法判定部113における、フォール判定の概念を説明するための図である。フォールとは、主にピッチの安定後にピッチを上から下に下降させる技法である。図8は、歌唱音のピッチ波形である。平坦検出部111は、図8におけるフレームfn+1〜fn+3をフレームの平坦部として検出したものとする。図8に示すように、平坦部の後のフレーム(フレームfn+4、fn+5)において、ピッチが下降している。この場合、技法判定部113は、平坦部の後ろにフォールが含まれていると判定する。ここで、技法判定部113は、平坦部の後において、ピッチを示すデータ(ピッチ波形)の傾きが所定の値以下となるフレームが予め決められた数以上(例えば、2フレーム以上)連続している場合、平坦部の後にフォールが含まれていると判定してもよい。
FIG. 8 is a diagram for explaining the concept of fall determination in the
図9は、技法判定部113における、クレッシェンド判定の概念を説明するための図である。図9は、歌唱音の音量波形である。平坦検出部111は、図9におけるフレームfn−1〜fn+1をフレームの平坦部として検出したものとする。図9に示すように、平坦部の後のフレーム(フレームfn+2、fn+3、fn+4)において、音量が増大している。この場合、技法判定部113は、平坦部の後にクレッシェンドが含まれていると判定する。ここで、技法判定部113は、平坦部の後において、音量を示すデータ(音量波形)の傾きが所定の値以上となるフレームが予め決められた数以上(例えば、2フレーム以上)連続している場合、平坦部の後にクレッシェンドが含まれていると判定してもよい。
FIG. 9 is a diagram for explaining the concept of crescendo determination in the
図10は、技法判定部113における、デクレッシェンド判定の概念を説明するための図である。図10は、歌唱音の音量波形である。平坦検出部111は、図10におけるフレームfn〜fn+2をフレームの平坦部として検出したものとする。図10に示すように、平坦部の後のフレーム(フレームfn+3、fn+4)において、音量が減少している。この場合、技法判定部113は、平坦部の後にデクレッシェンドが含まれていると判定する。ここで、技法判定部113は、平坦部の後において、音量を示すデータ(音量波形)の傾きが所定の値以下となるフレームが予め決められた数以上(例えば、2フレーム以上)連続している場合、平坦部の後にデクレッシェンドが含まれていると判定してもよい。
FIG. 10 is a diagram for explaining the concept of the decrescendo determination in the
図11は、技法判定部113における、こぶし判定の概念を説明するための図である。こぶしとは、主にピッチをある基準から所定の時間範囲内で上又は下に所定ピッチ(例えば、100セント程度以上)変化させて、速やかに基準ピッチまで戻す技法である。図11は、歌唱音のピッチ波形である。平坦検出部111は、図11におけるフレームfn−1〜fn+1を第1の平坦部として検出し、フレームfn−4〜fn+6を第2の平坦部として検出したものとする。ここで、第1の平坦部におけるピッチの平均値と第2の平坦部におけるピッチの平均値は、略等しいものとする。ここで、ピッチの平均が略等しいとは、第1の平坦部及び第2の平坦部におけるピッチの平均値を算出し、算出されたピッチの平均値を四捨五入して100セントごとのグリッドに当てはめた場合、第1の平坦部における四捨五入されたピッチの平均値と第2の平坦部における四捨五入されたピッチの平均値が同一のグリッドに乗っている場合であってもよい。図11に示すように、第1の平坦部と第2の平坦部との間のフレーム(フレームfn+2、fn+3)において、ピッチが上下に振動している。この場合、技法判定部113は、第1の平坦部と第2の平坦部との間にこぶしが含まれていると判定する。
FIG. 11 is a diagram for explaining the concept of fist determination in the
図12は、技法判定部113における、フォルテピアノ判定の概念を説明するための図である。フォルテピアノとは、主に音量が安定する前に音量を強くした直後に減少させる奏法であるものとする。図12は、歌唱音の音量波形である。平坦検出部111は、図12におけるフレームfn+5〜fn+6をフレームの平坦部として検出したものとする。図12に示すように、平坦部の前のフレームfn+1付近で強くなった直後のフレーム(フレームfn+2、fn+3、fn+4)において、音量が減少している。この場合、技法判定部113は、平坦部の前にフォルテピアノが含まれていると判定する。ここで、技法判定部113は、平坦部の前において、音量を示すデータ(音量波形)の傾きが所定の値以下となるフレームが予め決められた数以上(例えば、2フレーム以上)連続している場合、平坦部の前にフォルテピアノが含まれていると判定してもよい。
FIG. 12 is a diagram for explaining the concept of forte piano determination in the
尚、技法判定機能100は歌唱者に指定された歌唱曲に対応する伴奏データを読み出し、信号処理部21を介して、伴奏音を音出力部25から出力させる伴奏出力部101を有してもよい。この場合、伴奏音が出力されている期間における音入力部23への入力音が判定対象の歌唱音声として認識される。
The
以上のように、第1実施形態における技法判定装置10は、入力された歌唱音声データから特徴量(ピッチ及び音量)を時系列に検出し、特徴量の平坦部(ピッチの平坦部及び音量の平坦部)を検出し、特徴量の平坦部(ピッチの平坦部又は音量の平坦部)の前後の音量の変動(音量の変化)とピッチの変動に基づいて特定の技法を判定する。ピッチ及び音量の検出から技法判定までの一連の処理は、所定のフレームごとに少ない演算量で実行することが可能であるため、歌唱音声データの蓄積や機械学習、及びリファレンスデータが不要である。これにより、演算量を抑えつつ、リアルタイムに特定の技法を正確に判定することが可能となる。
As described above, the
<変形例>
本発明の実施形態について以上に説明したが、本発明は上述した実施形態に限定されるわけではなく、他の様々な態様で実施可能である。以下の他の態様の一例を示す。
<Modification>
Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and can be implemented in various other modes. An example of the following other aspect is shown.
(変形例1)
技法判定装置10において実現される機能には、以上に述べた歌唱の技法判定機能100に加え、技法判定によって判定された技法に基づいた歌唱の評価機能が含まれてもよい。以下に、技法判定装置10の制御部11が記憶部13に記憶された制御プログラム13aを実行することによって実現される評価機能200について説明する。評価機能200を実現する構成の一部または全部は、ハードウエアによって実現されてもよい。
(Modification 1)
The functions realized in the
図2では、技法判定機能100とともに、技法判定機能100によって判定された技法に基づいて歌唱の評価を行う評価機能200も示している。図2を参照すると、評価機能200は、技法取得部201、ピッチ取得部203、音量取得部205、基準データ取得部207、比較部209、及び評価部211を含む。
FIG. 2 also shows an
技法取得部201は、技法判定機能100における技法判定部111によって判定された歌唱音の技法を示すデータを取得し、比較部209に出力する。ピッチ取得部203は、技法判定機能100におけるピッチ検出部105によって検出されたピッチを示すデータを時系列に取得し、比較部209に出力する。音量取得部205は、技法判定機能100における音量検出部107によって検出された歌唱音の音量を示すデータを時系列に取得し、比較部に出力する。基準データ取得部207は、記憶部13に記憶された、対応する歌唱音の評価基準データ13dを読み出して取得し、比較部209に出力する。なお、評価基準音データ13dは、評価の基準となる音を示していればよいため、必ずしも歌唱の模範となる音声を示していなくてもよい。
The
比較部209は、取得した歌唱音のピッチを示すデータ、歌唱音の音量を示すデータ、及び歌唱音の技法を示すデータを対応する歌唱音の評価基準データ13dと比較する。比較部209は、取得した歌唱音のピッチを示すデータと評価基準データ13dに含まれる基準ピッチデータとを時系列に比較してもよく、取得した歌唱音の音量を示すデータと評価基準データ13dに含まれる基準音量データとを時系列に比較してもよく、取得した歌唱音の技法を示すデータと価基準データ13dに含まれる基準の歌唱技法データとを比較してもよい。例えば、比較部209は、抜きやビブラートなどの技法に関し、周波数の標準偏差、周波数の平均値、ピッチの振幅の平均値、ピッチの振幅の標準偏差、及びピッチの振幅の線形近似直線の傾きなどについて、取得した歌唱音の技法と価基準データ13dに含まれる基準の歌唱技法とを比較してもよい。比較部209は、比較結果を評価部211に出力する。
The
評価部211は、比較部209から出力された比較結果に基づいて、歌唱音の評価の指標となる評価値を算出する。評価部211は、歌唱者による歌唱音のピッチを示すデータ、歌唱音の音量を示すデータ、及び歌唱音の技法を示すデータと対応する歌唱音の評価基準データ13dとの一致度が高いほど評価値を高く算出し、不一致度が高いほど評価値を低く算出する。また、評価部211は、抜きやビブラートなどの難易度の高い技法について、歌唱者による歌唱音と歌唱音の評価基準データ13dとの一致度が高い場合は、加重値を付与してもよい。評価部211による評価結果は、表示部17に表示されてもよい。
Based on the comparison result output from the
(変形例2)
上述した実施形態では、技法判定機能100において、平坦部検出部111は、特徴量検出部105によって検出された特徴量(ピッチ及び音量)の時系列の変動に基づいて、特徴量の平坦部を検出している。上述した実施形態1では、平坦検出部111は、特徴量の変動が予め決められた閾値又は予め決められた幅以内であるフレームが、予め決められた数以上連続している場合、即ち、予め決められた所定時間以上である場合、平坦部検出部111は、検出されたフレームを特徴量の平坦部として検出している。ここで、平坦部として判定される予め決められた所定時間は、歌唱音声データ(入力音)によって決定されてもよい。
(Modification 2)
In the above-described embodiment, in the
図13は、本発明の第1の実施形態の変形例における技法判定機能100aの構成を示すブロック図である。技法判定機能100aは、音量検出部107によって検出された音量を時系列に示すデータ(音量波形)に基づいて、歌唱音声データ(入力音)のテンポを検出するテンポ推定部110を備え、平坦部検出部111aがテンポ推定部110により検出された歌唱音声データのテンポに基づいて、特徴量の平坦部を判定するのに必要な所定時間を決定すること以外は、本発明の第1の実施形態の技法判定機能100と同様である。
FIG. 13 is a block diagram illustrating a configuration of the
テンポ推定部110は、音量検出部107から歌唱音声データの音量を時系列に示すデータ(音量波形)を取得する。テンポ推定部110は、音量の変動(音量の強弱)に基づいて、歌唱音声データ(入力音)のテンポを検出する。テンポ推定部110は、検出した歌唱音声データ(入力音)のテンポを平坦部検出部111aに伝達する。平坦部検出部111aは、テンポ推定部110により検出された歌唱音声データのテンポに基づいて、特徴量の平坦部として判定するのに必要な所定時間の長さを決定する。
The
このように、入力された歌唱音に応じて、特徴量の平坦部として判定するのに必要な所定時間の長さを歌唱音に応じて決定することにより、平坦部の検出の精度を向上させることができる。 Thus, according to the input singing sound, the precision of the detection of a flat part is improved by determining the length of the predetermined time required to determine as a flat part of a feature-value according to a singing sound. be able to.
尚、テンポ推定部110は、技法判定機能100aが伴奏出力部101を有する場合、伴奏出力部101から伴奏音の音量を時系列に示すデータ(音量波形)を取得し、伴奏音の音量に基づいて、対応する曲のテンポを検出してもよい。
When the
以上に述べた技法判定機能100、100aにおいて、入力音取得部103によって取得される歌唱音声データが示す音は、歌唱者による音声に限られず、歌唱合成による音声であってもよいし、楽器音であってもよい。楽器音である場合には、単音演奏であることが望ましい。なお、楽器音である場合には、子音および母音の概念が存在しないが、演奏方法によっては、各音の発音の開始点において歌唱と同様な傾向を有する。したがって、楽器音においても同様の判定ができる場合もある。
In the technique determination functions 100 and 100a described above, the sound indicated by the singing voice data acquired by the input
本発明の実施形態として説明した構成を基にして、当業者が適宜構成要素の追加、削除もしくは設計変更を行ったもの、又は、工程の追加、省略もしくは条件変更を行ったものも、本発明の要旨を備えている限り、本発明の範囲に含まれる。 Based on the configuration described as the embodiment of the present invention, those in which a person skilled in the art appropriately added, deleted, or changed the design of the component, or added, omitted, or changed conditions of the process are also included in the present invention. As long as the gist of the present invention is provided, the scope of the present invention is included.
また、上述した実施形態の態様によりもたらされる作用効果とは異なる他の作用効果であっても、本明細書の記載から明らかなもの、又は、当業者において容易に予測し得るものについては、当然に本発明によりもたらされると解される。 Of course, other operational effects that are different from the operational effects brought about by the above-described embodiment are obvious from the description of the present specification or can be easily predicted by those skilled in the art. It is understood that this is brought about by the present invention.
10…技法判定装置、11…制御部、13…記憶部、15…操作部、17…表示部、19…通信部、21…信号処理部、23…音入力部、25…音出力部、100、100a…技法判定機能、101…伴奏出力部、103…入力音取得部、105…特徴量検出部、107…音量検出部、109…ピッチ検出部、110…テンポ検出部、111、111a…平坦部検出部、113…技法判定部、200…評価機能、201…技法取得部、203…ピッチ取得部、205…音量取得部、207…基準データ取得部、209…比較部、211…評価部
DESCRIPTION OF
Claims (5)
前記入力音取得部によって取得された前記入力音の特徴量を時系列に検出する特徴量検出部と、
前記特徴量検出部によって取得された前記特徴量に基づいて、特徴量の平坦部を検出する平坦部検出部と、
前記特徴量の平坦部の前又は後の所定の期間における、前記特徴量の変動に基づいて前記入力音の技法を判定する技法判定部と、
を備える技法判定装置。 An input sound acquisition unit for acquiring the input sound;
A feature amount detection unit that detects the feature amount of the input sound acquired by the input sound acquisition unit in time series; and
A flat part detection unit that detects a flat part of the feature quantity based on the feature quantity acquired by the feature quantity detection unit;
A technique determination unit that determines a technique of the input sound based on a variation in the feature amount in a predetermined period before or after the flat portion of the feature amount;
A technique determination apparatus comprising:
前記特徴量の時系列の変動が所定の変動以下である期間を検出し、
前記期間が所定時間以上である場合、前記期間を前記平坦部として検出する、請求項1に記載の技法判定装置。 The flat part detection part is
Detecting a period in which the time-series variation of the feature amount is equal to or less than a predetermined variation;
The technique determination apparatus according to claim 1, wherein when the period is equal to or longer than a predetermined time, the period is detected as the flat portion.
前記所定時間は、前記テンポに応じて決定される、請求項2又は3に記載の技法判定装置。 A tempo estimation unit that estimates the tempo of the input sound based on the feature amount;
The technique determination apparatus according to claim 2, wherein the predetermined time is determined according to the tempo.
前記所定の期間は、時系列的に互いに隣接する2つの平坦部の間の期間である、請求項1乃至4のいずれか一項に記載の技法判定装置。 When a plurality of flat portions are detected by the flat portion detection unit,
The technique determination apparatus according to claim 1, wherein the predetermined period is a period between two flat portions adjacent to each other in time series.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015244827A JP6627482B2 (en) | 2015-12-16 | 2015-12-16 | Technique determination device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015244827A JP6627482B2 (en) | 2015-12-16 | 2015-12-16 | Technique determination device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017111268A true JP2017111268A (en) | 2017-06-22 |
JP6627482B2 JP6627482B2 (en) | 2020-01-08 |
Family
ID=59080693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015244827A Active JP6627482B2 (en) | 2015-12-16 | 2015-12-16 | Technique determination device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6627482B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017156364A (en) * | 2016-02-29 | 2017-09-07 | 株式会社第一興商 | Karaoke machine |
JP2019015761A (en) * | 2017-07-03 | 2019-01-31 | 株式会社第一興商 | Karaoke device |
JP2020106764A (en) * | 2018-12-28 | 2020-07-09 | 株式会社第一興商 | Karaoke device |
JP2020122948A (en) * | 2019-01-31 | 2020-08-13 | 株式会社第一興商 | Karaoke device |
JP2020122949A (en) * | 2019-01-31 | 2020-08-13 | 株式会社第一興商 | Karaoke device |
JP2020166162A (en) * | 2019-03-29 | 2020-10-08 | 株式会社第一興商 | Karaoke device |
-
2015
- 2015-12-16 JP JP2015244827A patent/JP6627482B2/en active Active
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017156364A (en) * | 2016-02-29 | 2017-09-07 | 株式会社第一興商 | Karaoke machine |
JP2019015761A (en) * | 2017-07-03 | 2019-01-31 | 株式会社第一興商 | Karaoke device |
JP2020106764A (en) * | 2018-12-28 | 2020-07-09 | 株式会社第一興商 | Karaoke device |
JP7158282B2 (en) | 2018-12-28 | 2022-10-21 | 株式会社第一興商 | karaoke device |
JP2020122948A (en) * | 2019-01-31 | 2020-08-13 | 株式会社第一興商 | Karaoke device |
JP2020122949A (en) * | 2019-01-31 | 2020-08-13 | 株式会社第一興商 | Karaoke device |
JP7232654B2 (en) | 2019-01-31 | 2023-03-03 | 株式会社第一興商 | karaoke equipment |
JP7232653B2 (en) | 2019-01-31 | 2023-03-03 | 株式会社第一興商 | karaoke device |
JP2020166162A (en) * | 2019-03-29 | 2020-10-08 | 株式会社第一興商 | Karaoke device |
JP7169243B2 (en) | 2019-03-29 | 2022-11-10 | 株式会社第一興商 | karaoke device |
Also Published As
Publication number | Publication date |
---|---|
JP6627482B2 (en) | 2020-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6627482B2 (en) | Technique determination device | |
JP4767691B2 (en) | Tempo detection device, code name detection device, and program | |
US10733900B2 (en) | Tuning estimating apparatus, evaluating apparatus, and data processing apparatus | |
US10643638B2 (en) | Technique determination device and recording medium | |
US10497348B2 (en) | Evaluation device and evaluation method | |
JP6690181B2 (en) | Musical sound evaluation device and evaluation reference generation device | |
JP3996565B2 (en) | Karaoke equipment | |
JP4910854B2 (en) | Fist detection device, fist detection method and program | |
JP2004102146A (en) | Karaoke scoring device having vibrato grading function | |
JP2020122948A (en) | Karaoke device | |
JP5585320B2 (en) | Singing voice evaluation device | |
JP5618743B2 (en) | Singing voice evaluation device | |
JP4910855B2 (en) | Reference data editing device, fist evaluation device, reference data editing method, fist evaluation method, and program | |
JP2016180965A (en) | Evaluation device and program | |
JP6638305B2 (en) | Evaluation device | |
JP2020122949A (en) | Karaoke device | |
JP6144592B2 (en) | Singing scoring system | |
JP6175034B2 (en) | Singing evaluation device | |
JP2018005188A (en) | Acoustic analyzer and acoustic analysis method | |
JP2020106763A (en) | Karaoke device | |
JP2004102149A (en) | Karaoke scoring device having sobbing grading function | |
JP2018146933A (en) | Evaluation device, evaluation method, and program | |
JP2020140109A (en) | Karaoke device | |
JP2020106764A (en) | Karaoke device | |
JP2018146929A (en) | Evaluation device, evaluation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191118 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6627482 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |