JP6498141B2 - Acoustic signal analyzing apparatus, method, and program - Google Patents

Acoustic signal analyzing apparatus, method, and program Download PDF

Info

Publication number
JP6498141B2
JP6498141B2 JP2016052633A JP2016052633A JP6498141B2 JP 6498141 B2 JP6498141 B2 JP 6498141B2 JP 2016052633 A JP2016052633 A JP 2016052633A JP 2016052633 A JP2016052633 A JP 2016052633A JP 6498141 B2 JP6498141 B2 JP 6498141B2
Authority
JP
Japan
Prior art keywords
weight
dictionary
common
score
singer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016052633A
Other languages
Japanese (ja)
Other versions
JP2017167347A (en
Inventor
允裕 中野
允裕 中野
柏野 邦夫
邦夫 柏野
松井 知子
知子 松井
大地 持橋
大地 持橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016052633A priority Critical patent/JP6498141B2/en
Publication of JP2017167347A publication Critical patent/JP2017167347A/en
Application granted granted Critical
Publication of JP6498141B2 publication Critical patent/JP6498141B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音響信号解析装置、方法、及びプログラムに係り、歌声を示す音響信号の基本周波数軌跡の観測データを解析する音響信号解析装置、方法、及びプログラムに関する。   The present invention relates to an acoustic signal analyzing apparatus, method, and program, and more particularly to an acoustic signal analyzing apparatus, method, and program for analyzing observation data of a fundamental frequency locus of an acoustic signal indicating a singing voice.

従来より、解析手法として、ノンパラメトリックベイズ法とカーネル法と呼ばれる2つの機械学習分野が知られている。   Conventionally, two machine learning fields called non-parametric Bayes method and kernel method are known as analysis methods.

<カーネル平均法>
複雑なデータに対する確率分布を表現する際、原理的にはありとあらゆるデータへの確率を付与していくことで構成することができるが、データのとりうる場合の数が増えるに従いそれが困難となっていく。特に無限の場合の数に対しては、それを計算機上で表現するのは困難を極める。非特許文献1のカーネル平均法は、元の確率分布と同等の表現能力を維持したまま、それを計算機上で表現する術を与えてくれ、少ない有限のデータからよく近似することが出来る方法として知られている。
<Kernel averaging method>
When expressing the probability distribution for complex data, in principle, it can be configured by adding probabilities to all kinds of data, but it becomes more difficult as the number of possible cases of data increases. Go. Especially for infinite numbers, it is extremely difficult to express them on a computer. The kernel averaging method of Non-Patent Document 1 gives a technique to express it on a computer while maintaining the same expression ability as the original probability distribution, and can be approximated well from a small amount of finite data. Are known.

<ガンマ過程による信号分解>
観測データが潜在的な意味ある辞書の組み合わせで構成されていると考えられる場合、非特許文献2に記載されている、ガンマ過程を用いた辞書モデルを構築することで、原理的に無限の辞書サイズでありながら、出来るだけ少数の辞書だけを学習するよう振る舞うような解析アルゴリズムを構成することが出来る。
<Signal decomposition by gamma process>
If observation data is considered to be composed of potentially meaningful combinations of dictionaries, it is possible to construct an infinite dictionary in principle by constructing a dictionary model using the gamma process described in Non-Patent Document 2. It is possible to construct an analysis algorithm that behaves to learn only as few dictionaries as possible, despite its size.

A. Smola, A. Gretton, L. Song, B. Scholkopf. (2007). A Hilbert Space Embedding for Distributions. Algorithmic Learning Theory: 18th International Conference. Springer: 13-31.A. Smola, A. Gretton, L. Song, B. Scholkopf. (2007). A Hilbert Space Embedding for Distributions. Algorithmic Learning Theory: 18th International Conference. Springer: 13-31. Matthew D. Hoffman, David M. Blei, Perry R. Cook, Bayesian Nonparametric Matrix Factorization for Recorded Music, International Conference on Machine Learning, 2011.Matthew D. Hoffman, David M. Blei, Perry R. Cook, Bayesian Nonparametric Matrix Factorization for Recorded Music, International Conference on Machine Learning, 2011.

従来、歌声のような非常に情報豊かなデータから、その潜在的な意味ある特徴を抽出する研究が行われてきたが、その特徴からさらに各人の個性に相当する特徴まで抽出することが出来なかった。   Conventionally, research has been conducted to extract potential and meaningful features from very information-rich data such as singing voices, but it is possible to extract features that correspond to the individuality of each person from those features. There wasn't.

本発明では、上記の事情を考慮してなされたものであり、歌声から各歌唱者の個性に相当する特徴を抽出することができる音響信号解析装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in consideration of the above circumstances, and an object thereof is to provide an acoustic signal analyzing apparatus, method, and program capable of extracting features corresponding to the individuality of each singer from a singing voice. To do.

上記目的を達成するために、本発明の音響信号解析装置は、N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの歌声を示す音響信号の観測データを解析する音響信号解析装置であって、歌声を示す音響信号の各時刻の基本周波数を表す基本周波数軌跡xと楽譜の各時刻の音程を表す楽譜ベクトルsとのペア(x、s)間の類似度を測る規準として予め定められたM個のカーネルKm、前記M個のカーネルKmの各々の重みam、及び前記N人の歌唱者nの各々がL種類の楽譜slの各々に対して少なくとも1回歌ったときの前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)から求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,lと、予め定められたD個の歌声歌唱分布の辞書qdを用いて表される各ペア(x、s)の確率分布、歌唱者nに対する楽譜共通の前記D個の辞書qdの各々の重みbd,n、及び楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dから求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,l *との距離を用いて表される目的関数を最小化するように、前記M個のカーネルKmの各々の重みamと、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,nと、前記L種類の楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dを推定するパラメータ推定部を含んで構成されている。 In order to achieve the above object, the acoustic signal analysis apparatus of the present invention provides observation data of an acoustic signal indicating a singing voice when each of N singers sang at least once for each of L kinds of sheet music. An acoustic signal analyzing apparatus for analyzing, a similarity between a pair (x, s) of a fundamental frequency trajectory x representing a fundamental frequency at each time of an acoustic signal representing a singing voice and a score vector s representing a pitch at each time of the score predetermined the M kernel K m as criteria to measure the degree to each of the M kernel K each weight a m of m, and the n number each L type singer n of music s l The singer n sings the score s l obtained from each pair (x, s) of the fundamental frequency trajectory x obtained from the observation data when sung at least once and the score vector s. Hilbert space of pairs (x, s l) at the time The D number of the expected value mu n, l, the score common for probability distributions, singer n of each pair (x, s) represented by using the dictionary q d of the D pieces of voice singing distribution predetermined each weight b d dictionaries q d, n, and each of the weights c l a singer common the D pieces of dictionary q d for the score s l, determined from d, singer n Whereas score s l Of the M kernels K m so as to minimize the objective function expressed using the distance between the expected value μ n, l * of the pair (x, sl ) in the Hilbert space and each of the weights a m, the weight b d of each of the music common said for each of the singers n of the n number D number of dictionary q d, and n, singer common the respect to the L type of music s l weight c l of each of the D pieces of dictionary q d, is configured to include a parameter estimation unit that estimates a d.

本発明の音響信号解析方法は、N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの歌声を示す音響信号の観測データを解析する音響信号解析装置における音響信号解析方法であって、パラメータ推定部が、歌声を示す音響信号の各時刻の基本周波数を表す基本周波数軌跡xと楽譜の各時刻の音程を表す楽譜ベクトルsとのペア(x、s)間の類似度を測る規準として予め定められたM個のカーネルKm、前記M個のカーネルKmの各々の重みam、及び前記N人の歌唱者nの各々がL種類の楽譜slの各々に対して少なくとも1回歌ったときの前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)から求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,lと、予め定められたD個の歌声歌唱分布の辞書qdを用いて表される各ペア(x、s)の確率分布、歌唱者nに対する楽譜共通の前記D個の辞書qdの各々の重みbd,n、及び楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dから求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,l *との距離を用いて表される目的関数を最小化するように、前記M個のカーネルKmの各々の重みamと、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,nと、前記L種類の楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dを推定する。 The acoustic signal analysis method of the present invention is an acoustic signal analysis apparatus for analyzing observation data of an acoustic signal indicating a singing voice when each of N singers sings at least once on each of L types of sheet music. In the signal analysis method, the parameter estimation unit between a pair (x, s) of a fundamental frequency trajectory x representing a fundamental frequency at each time of an acoustic signal indicating a singing voice and a score vector s representing a pitch at each time of the score of the M kernel K m that predetermined as criteria to measure the similarity, each of the weights a m of the M kernel K m, and each of the singers n of said n number of L type music s l A singer n obtained from each pair (x, s) of the fundamental frequency trajectory x obtained from the observation data obtained when singing at least once for each and the score vector s is assigned to the score sl . pair at the time of singing (x, s l The probability distribution of the expected value mu n, l in the Hilbert space, each pair represented by using the dictionary q d of the D pieces of voice singing distribution predetermined (x, s), score common for the singer n the D number each of the dictionary q d weights b d, n, and each of the singers common the D pieces of dictionary q d for the score s l weight c l, obtained from d, singer n musical score of pairs when singing against s l (x, s l) so as to minimize the objective function expressed by using the distance between the expected value mu n, l on Hilbert space * of, the M and weight a m each kernel K m, the weight b d of each of the music common for each D number of dictionary q d of singer n of the n number, and n, singing for the L type of music s l The weights c l, d of each of the D dictionaries q d common to the users are estimated.

本発明のプログラムは、コンピュータを、音響信号解析装置の各部として機能させるためのプログラムである。   The program of this invention is a program for functioning a computer as each part of an acoustic signal analyzer.

以上説明したように、本発明の音響信号解析装置、方法、及びプログラムによれば、予め定められたM個のカーネルKm、カーネルKmの各々の重みam、及び観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)から求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,lと、予め定められたD個の歌声歌唱分布の辞書qdを用いて表される各ペア(x、s)の確率分布、歌唱者nに対する楽譜共通の辞書qdの各々の重みbd,n、及び楽譜slに対する歌唱者共通の辞書qdの各々の重みcl,dから求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,l *との距離を用いて表される目的関数を最小化するように、カーネルKmの各々の重みamと、歌唱者nの各々に対する楽譜共通の辞書qdの各々の重みbd,nと、楽譜slに対する歌唱者共通の辞書qdの各々の重みcl,dを推定することにより、歌声から各歌唱者の個性に相当する特徴を抽出することができる。 As described above, the acoustic signal analyzer of the present invention, a method, and according to the program, the predetermined M-number of kernel K m, the obtained from each of the weights a m, and the observation data of the kernel K m each pair (x, s) of the score vector s with the fundamental frequency trajectory x obtained from the Hilbert space on the expected value of the pair (x, s l) when the singer n sang relative score s l μ n, l and the probability distribution of each pair (x, s) expressed using a predetermined dictionary d of singing voice singing singing q d , each of the common score q d for singer n weight b d, n, and the weight c l for each singing person common dictionary q d for the score s l, determined from d, the pair (x when singer n sang relative score s l, s l ) Minimizes the objective function expressed using the distance to the expected value μ n, l * in the Hilbert space As such, the weight a m of each kernel K m, each of the weights b d music common dictionary q d for each singer n, and n, each singing person common dictionary q d for the score s l By estimating the weights cl , d , it is possible to extract features corresponding to the individuality of each singer from the singing voice.

本実施の形態の音響信号解析装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the acoustic signal analyzer of this Embodiment. 本実施の形態の音響信号解析装置におけるパラメータ推定処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the parameter estimation process routine in the acoustic signal analyzer of this Embodiment. 実験結果を示す図である。It is a figure which shows an experimental result.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態の原理>
歌声の基本周波数軌跡xは、離散化された各時刻ごとの基本周波数値(実数)を並べたベクトルとして表現することが出来る。ここで、基本周波数軌跡xの時間方向の長さは全て統一され、Vとなっているものとする。また、楽譜sは、各時刻ごとの音の高さを並べたベクトルとして表現することが出来る。歌声の基本周波数軌跡xと楽譜sを再生核ヒルベルト空間へ写像する関数φを導入し、基本周波数軌跡xと楽譜sのペアをその一点φ(x,s)として考える。このヒルベルト空間は、歌声の基本周波数軌跡と楽譜のペア(x,s)、(x´,s´)の間の類似度を測る規準としてカーネルK(・,(x,s))を用いて特徴づけることが出来る。
<Principle of Embodiment of the Present Invention>
The fundamental frequency trajectory x of the singing voice can be expressed as a vector in which the discrete fundamental frequency values (real numbers) for each time are arranged. Here, it is assumed that the lengths in the time direction of the fundamental frequency trajectory x are all unified and V. In addition, the score s can be expressed as a vector in which the pitches of each time are arranged. A function φ that maps the fundamental frequency trajectory x of the singing voice and the score s to the reproduction kernel Hilbert space is introduced, and a pair of the fundamental frequency trajectory x and the score s is considered as one point φ (x, s). This Hilbert space uses the kernel K (・, (x, s)) as a criterion for measuring the similarity between the fundamental frequency trajectory of the singing voice and the score pair (x, s), (x´, s´). Can be characterized.

M個の素片となる規準として、以下の(1)式に示すカーネルKm((x,s), (x´,s´))(m= 1, 2, ... ,M)を考える。 Kernel K m ((x, s), (x´, s´)) (m = 1, 2, ..., M) shown in the following equation (1) is used as a criterion for M pieces. Think.


(1)

(1)

ここでλ1、λ2は事前に設定した正の実数(例えば λ1=λ2=1)を用いる。人体の物理的な制約から歌声の発生は強い拘束を受けることが考えられる。そこで歌声の類似度を測る距離規準はいくつかの典型的なテンプレートがあると考えることが出来る。カーネルKは実数の重みam 〜Gamma(. , .)(m=1, 2, ... ,M)を用いて Here, positive real numbers (for example, λ1 = λ2 = 1) set in advance are used as λ 1 and λ 2 . Due to physical constraints of the human body, the generation of singing voices can be strongly constrained. Therefore, the distance criterion for measuring the similarity of singing voices can be considered to have some typical templates. Kernel K uses real weights a m to Gamma (.,.) (M = 1, 2, ..., M)


(2)

(2)

と表すことにする。 It will be expressed as

N人の歌唱者がL種類の楽譜を歌っている場合を考える。n番目の歌唱者がl番目の楽譜を歌う際の歌声基本周波数は確率分布Pn,lにしたがうものとする。この確率分布を先の再生核ヒルベルト空間の期待値を用いて考える。確率分布Pn,lに従う基本周波数軌跡と楽譜 のペア(x, s)のヒルベルト空間上の期待値μn,lは実数bn,l,dを用いて Consider a case where N singers are singing L types of music. It is assumed that the fundamental voice frequency when the nth singer sings the lth sheet music follows the probability distribution Pn, l . This probability distribution is considered using the expected value of the previous reproduction kernel Hilbert space. Expected value μ n, l in Hilbert space of a pair (x, s) of fundamental frequency trajectory and sheet music according to probability distribution P n, l is obtained by using real numbers b n, l, d


(3)

(3)

と表すことが出来る。 Can be expressed as

この歌声歌唱確率分布を扱いやすいモデルによって表現することを考える。D個の歌声歌唱分布の辞書q1,q2, ... ,qDを事前に与えるものとする。n番目の歌唱者のl番目の楽譜に対する歌唱確率分布と同等のμn,lは、n番目の歌唱者に対する楽曲共通の辞書qdの重みbd,n(>0)とl番目の楽曲に対する歌唱者共通の辞書qdの重みcl,d(>0)を用いて、次のようにモデルμn,l *によって近似することが出来る。 Let us consider expressing this singing voice singing probability distribution by an easy-to-handle model. It is assumed that d q singing voice distribution dictionaries q 1 , q 2 ,..., Q D are given in advance. The μ n, l equivalent to the singing probability distribution for the l-th score of the n-th singer is the weight b d, n (> 0) of the common dictionary q d for the n-th singer and the l-th song Can be approximated by the model μ n, l * using the weight c l, d (> 0) of the common dictionary q d for


(4)

(4)

n番目の歌唱者がl番目の楽譜slに対して実際に歌ったol個の観測データ(基本周波数軌跡)を x1,x2, ... ,xとすると μn,lは次のように計算することができる。 n-th of the singer is the l-th score s l actually sang o l pieces of observation data (fundamental frequency trajectory) with respect to x 1, x 2, ..., and the x o μ n, l is It can be calculated as follows:


(5)

(5)

次にμn,l *は次のように近似することができる。 Next, μ n, l * can be approximated as follows.


(6)

(6)

ただし、Qd(d=1, 2, ... ,D)は事前に用意したパラメトリックな確率分布として何を用いてもよい。am、bd,n、cl,dにはいずれもガンマ過程事前分布をおくことができ、例えば最も簡潔には However, Q d (d = 1, 2,..., D) may be any parametric probability distribution prepared in advance. Each of a m , b d, n , c l, d can have a gamma process prior distribution, for example, most simply


(7)

(8)

(9)

(7)

(8)

(9)

と設定することが出来る。モデルのフィッティングはμn,lをμn,l *によって近似することで行うことができ、目的関数Wは Can be set. Model fitting can be performed by approximating μ n, l by μ n, l * , and the objective function W is


(10)

(10)

となり、これを最小化するようなam、bd,n、cl,d(m=1, 2, ..., M, d=1, 2, ..., D, l=1, 2, ..., L)を求める最適化問題となる。その解法としては例えば最急降下法や確率的最急降下法が考えられる 。 A m , b d, n , c l, d (m = 1, 2, ..., M, d = 1, 2, ..., D, l = 1, 2, ..., L). For example, the steepest descent method or the stochastic steepest descent method can be considered.

最も素朴には、以下の更新を、例えば事前に指定した回数だけ反復することが出来る。   Most simply, the following updates can be repeated, for example, a predetermined number of times.


(11)

(12)

(13)

(11)

(12)

(13)

<システム構成>
次に、図1を参照して、本発明の実施形態による音響信号解析装置の構成を説明する。本発明の実施の形態に係る音響信号解析装置10は、N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの観測データを解析する。図1に示すように、音響信号解析装置10は、入力部12と、演算部14と、出力部16と、を備えている。
<System configuration>
Next, the configuration of the acoustic signal analyzing apparatus according to the embodiment of the present invention will be described with reference to FIG. The acoustic signal analyzing apparatus 10 according to the embodiment of the present invention analyzes observation data when each of N singers sings at least once for each of L kinds of musical scores. As shown in FIG. 1, the acoustic signal analysis device 10 includes an input unit 12, a calculation unit 14, and an output unit 16.

入力部12により、N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの歌声音響信号及び楽譜が、演算部14に入力される。   By the input unit 12, the singing voice sound signal and the score when each of the N singers sang at least once for each of the L types of score are input to the calculation unit 14.

演算部14は、基本周波数抽出部20と、データ記憶部22と、パラメータ推定部24と、を含んだ構成で表すことができる。   The calculation unit 14 can be represented by a configuration including a fundamental frequency extraction unit 20, a data storage unit 22, and a parameter estimation unit 24.

基本周波数抽出部20は、N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの歌声音響信号の各々について、基本周波数軌跡xを推定し出力する。この処理は、周知技術により実現でき、例えば、文献:A de Cheveign´e and H. Kawahara,“ YIN, a fundamental frequency estimator for speech and music,” Journal of the AcousticalSociety of America, vol.111, no.4, pp. 1917-1930, 2002 で提案される基本周波数推定法YINを利用する。この手法は自己相関関数を使用して基本周波数を推定するが、倍ピッチエラーや半ピッチエラー、その他ノイズによる推定エラーを低減するために差分関数、正規化、放物線補間などの処理を後処理として導入した手法である。ピッチの高い音楽や歌声の基本周波数推定に効果的な手法であることが従来研究によって明らかにされている。本実施形態では、YINを利用して、歌声音響信号から5msごとに基本周波数を推定し、基本周波数軌跡を出力する。   The fundamental frequency extraction unit 20 estimates and outputs a fundamental frequency trajectory x for each of the singing voice acoustic signals when each of the N singers sang at least once for each of the L types of sheet music. This process can be realized by a well-known technique, for example, literature: A de Cheveign´e and H. Kawahara, “YIN, a fundamental frequency estimator for speech and music,” Journal of the Acoustical Society of America, vol. 111, no. 4, the fundamental frequency estimation method YIN proposed in pp. 1917-1930, 2002 is used. This method uses the autocorrelation function to estimate the fundamental frequency, but post-processing such as difference function, normalization, and parabolic interpolation is used to reduce estimation errors due to double pitch error, half-pitch error, and other noises. It is an introduced method. Previous studies have shown that this is an effective technique for estimating the fundamental frequency of high pitch music and singing voices. In this embodiment, YIN is used to estimate the fundamental frequency from the singing voice acoustic signal every 5 ms and output a fundamental frequency locus.

データ記憶部22は、N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの歌声音響信号の各々についての、抽出された基本周波数軌跡を表すベクトルxと、当該楽譜の各時刻の音程を表す楽譜ベクトルsとのペア(x、s)が記憶されている。   The data storage unit 22 is a vector x representing an extracted fundamental frequency trajectory for each of the singing voice signals when each of the N singers sang at least once for each of the L types of sheet music; A pair (x, s) with a score vector s representing a pitch at each time of the score is stored.

パラメータ推定部24は、データ記憶部22に記憶されている、基本周波数軌跡を表すベクトルxと、楽譜ベクトルsとの各ペア(x、s)に基づいて、予め定められたM個のカーネルKm、カーネルKmの各々の重みam、及び観測データの各ペア(x、s)から求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,lと、予め定められたD個の歌声歌唱分布の辞書qdを用いて表される各ペア(x、s)の確率分布、歌唱者nに対する楽譜共通の辞書qdの各々の重みbd,n、及び楽譜slに対する歌唱者共通の辞書qdの各々の重みcl,dから求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,l *との距離を用いて表される上記(10)式に示す目的関数を最小化するように、カーネルKmの各々の重みamと、歌唱者nの各々に対する楽譜共通の辞書qdの各々の重みbd,nと、楽譜slの各々に対する歌唱者共通の辞書qdの各々の重みcl,dを推定する。 The parameter estimation unit 24 determines M kernels K determined in advance based on each pair (x, s) of the vector x representing the fundamental frequency locus and the score vector s stored in the data storage unit 22. m, is determined from the weight a m each kernel K m, and the observed data of each pair (x, s), Hilbert space of pairs (x, s l) when the singer n sang relative score sl The above expected value μ n, l , the probability distribution of each pair (x, s) expressed using a predetermined dictionary d of D singing voice singing distributions, and a common musical score dictionary q for singer n d each weight b d a, n, and the weight c l for each singing person common dictionary q d for the score s l, determined from d, the pair (x when singer n sang relative score sl the (10, represented with a distance between the s l, the expected value mu n on Hilbert space) l * So as to minimize the objective function as shown in formula, and the weight a m of each kernel K m, the weight b d of each of the music common dictionary q d for each singer n, and n, each score s l Estimate each weight c l, d of the dictionary q d common to the singers.

具体的には、パラメータ推定部24は、パラメータ初期化部30、カーネル重み更新部32、歌唱者辞書重み更新部34、楽曲辞書重み更新部36、及び終了判定部38を備えている。   Specifically, the parameter estimation unit 24 includes a parameter initialization unit 30, a kernel weight update unit 32, a singer dictionary weight update unit 34, a music dictionary weight update unit 36, and an end determination unit 38.

パラメータ初期化部30は、M個のカーネルKmの各々の重みamと、N人の歌唱者nの各々に対する楽譜共通のD個の辞書qdの各々の重みbd,nと、L種類の楽譜slの各々に対する歌唱者共通のD個の辞書qdの各々の重みcl,dとに初期値を設定する。 Parameter initializing unit 30, the weight a m of each of the M kernel K m, the weight b d of each of the music common D number of dictionary q d for each of the singers n of N number, and n, L each of the weights c l a singer common D number of dictionary q d for each type of music s l, sets an initial value to the d.

例えば、以下のように、am、bd,n、cl,d (m=1, 2, ... , M, d=1, 2, ... ,D, l =1, 2, ...,L)の初期化を行う。 For example, a m , b d, n , c l, d (m = 1, 2, ..., M, d = 1, 2, ..., D, l = 1, 2, ..., L) is initialized.

am(m = 1, 2, ... ,M)の初期値に関しては Gamma(1/M, 1)のガンマ分布から生成する。bd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)の初期値に関してはGamma(1/D, 1)のガンマ分布から生成する。cl,d (l =1, 2, ... , L, d = 1, 2, ...D)に関しては Gamma(1/D, 1)のガンマ分布から生成する。 The initial value of a m (m = 1, 2, ..., M) is generated from the gamma distribution of Gamma (1 / M, 1). The initial values of b d, n (d = 1, 2,..., D, n = 1, 2,..., N) are generated from the gamma distribution of Gamma (1 / D, 1). c l, d (l = 1, 2, ..., L, d = 1, 2, ... D) is generated from the gamma distribution of Gamma (1 / D, 1).

カーネル重み更新部32は、データ記憶部22に記憶されている基本周波数軌跡xと楽譜ベクトルsとの各ペア(x、s)と、初期化された、又は前回更新された、カーネルKmの重みam(m = 1, 2, ... ,M)、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)、及び楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)に基づいて、上記(10)式の目的関数を最小化するように、上記(11)式に従って、カーネルKmの重みam(m = 1, 2, ... ,M)を更新する The kernel weight updating unit 32 stores each pair (x, s) of the fundamental frequency trajectory x and the score vector s stored in the data storage unit 22 and the kernel K m that has been initialized or updated last time. weight a m (m = 1, 2 , ..., M), the weight b d music common dictionary q d for singer n, n (d = 1, 2, ..., D, n = 1, 2, ..., N), and weight c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = 1, 2, ... D ), The weight a m (m = 1, 2,..., M) of the kernel K m is updated according to the above equation (11) so as to minimize the objective function of the above equation (10).

歌唱者辞書重み更新部34は、データ記憶部22に記憶されている基本周波数軌跡xと楽譜ベクトルsとの各ペア(x、s)と、初期化された、又は前回更新された、カーネルKmの重みam(m = 1, 2, ... ,M)、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)、及び楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)に基づいて、上記(10)式の目的関数を最小化するように、上記(12)式に従って、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)を更新する。 The singer dictionary weight updating unit 34 initializes or previously updated the kernel K with each pair (x, s) of the fundamental frequency trajectory x and the score vector s stored in the data storage unit 22. m weight m a (m = 1, 2,..., M), common score d d for song n , b d, n (d = 1, 2,..., D, n = 1, 2, ..., N) , and weight c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = 1, 2, .. .D), the weight b d, n (d = 1, d = 1, d) of the common score q d for the singer n according to the above equation (12) so as to minimize the objective function of the above equation (10). 2, ..., D, n = 1, 2, ..., N).

楽曲辞書重み更新部36は、データ記憶部22に記憶されている基本周波数軌跡xと楽譜ベクトルsとの各ペア(x、s)と、初期化された、又は前回更新された、カーネルKmの重みam(m = 1, 2, ... ,M)、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)、及び楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)に基づいて、上記(10)式の目的関数を最小化するように、上記(13)式に従って、楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)を更新する。 The music dictionary weight updating unit 36, each pair (x, s) of the fundamental frequency trajectory x and the score vector s stored in the data storage unit 22, and the kernel K m that has been initialized or updated last time. weight a m of (m = 1, 2, ... , M), the weight b d music common dictionary q d for singer n, n (d = 1, 2, ..., D, n = 1 , 2, ..., N), and weight c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = 1, 2, ... Based on D), according to the above equation (13), the weights c 1, d (l = 1, 1) of the common dictionary q d for the score s l are used to minimize the objective function of the above equation (10). 2, ..., L, d = 1, 2, ... D).

終了判定部38は、予め定められた終了条件を満たしたか否かを判定し、終了条件を満たすまで、カーネル重み更新部32による更新、歌唱者辞書重み更新部34による更新、及び楽曲辞書重み更新部36による更新を繰り返させる。   The end determination unit 38 determines whether a predetermined end condition is satisfied, and updates by the kernel weight update unit 32, update by the singer dictionary weight update unit 34, and music dictionary weight update until the end condition is satisfied. The updating by the unit 36 is repeated.

例えば、終了条件として、予め指定された反復回数に到達することを用いればよい。また、終了条件として、更新前のパラメータを用いて計算した目的関数の値と更新後のパラメータを用いて計算した目的関数の値との誤差が、所定の閾値以下であることを用いてもよい。   For example, reaching the number of iterations specified in advance may be used as the termination condition. Further, as an end condition, it may be used that an error between the value of the objective function calculated using the parameter before update and the value of the objective function calculated using the parameter after update is equal to or less than a predetermined threshold. .

出力部16は、終了判定部38において終了条件を満たしたと判定された場合に、カーネル重み更新部32、歌唱者辞書重み更新部34、及び楽曲辞書重み更新部36により最終的に更新されたカーネルKmの重みam(m = 1, 2, ... ,M)、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)、及び楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)を出力する。 The output unit 16, when the end determination unit 38 determines that the end condition is satisfied, the kernel finally updated by the kernel weight update unit 32, the singer dictionary weight update unit 34, and the music dictionary weight update unit 36. K m weights a m (m = 1, 2,..., M), a common score q d weights b d, n (d = 1, 2,..., D, n) for the singer n = 1, 2, ..., N ), and weight c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = 1, 2,. ..D) is output.

<音響信号解析装置の作用>
次に、本実施の形態に係る音響信号解析装置10の作用について説明する。まず、N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの歌声音響信号及び楽譜が、入力部12により音響信号解析装置10に入力されると、図2に示すパラメータ推定処理ルーチンが実行される。
<Operation of acoustic signal analyzer>
Next, the operation of the acoustic signal analysis device 10 according to the present embodiment will be described. First, when the singing voice acoustic signal and the score when each of the N singers sang at least once for each of the L types of scores are input to the acoustic signal analysis apparatus 10 by the input unit 12, FIG. The parameter estimation processing routine shown in FIG.

ステップS100で、基本周波数抽出部20によって、基本周波数推定法YINを利用して、入力された歌声音響信号の各々について、5msごとに基本周波数を推定し、基本周波数軌跡xを推定し、楽譜ベクトルsとのペア(x、s)を、データ記憶部22に格納する。   In step S100, the fundamental frequency extraction unit 20 estimates the fundamental frequency every 5 ms, estimates the fundamental frequency trajectory x for each of the input singing voice acoustic signals using the fundamental frequency estimation method YIN, and calculates the score vector. The pair (x, s) with s is stored in the data storage unit 22.

ステップS102で、カーネルKmの重みam(m = 1, 2, ... ,M)、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)、及び楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)に初期値を設定する。 In step S102, the weight a m kernel K m (m = 1, 2 , ..., M), the weight b d music common dictionary q d for singer n, n (d = 1, 2, .. ., D, n = 1, 2, ..., n), and weight c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = Set initial values to 1, 2, ... D).

ステップS104では、データ記憶部22に記憶されている基本周波数軌跡xと楽譜ベクトルsとの各ペア(x、s)と、上記ステップS102で初期化された、又は前回更新された、カーネルKmの重みam(m = 1, 2, ... ,M)、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)、及び楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)に基づいて、上記(11)式に従って、カーネルKmの重みam(m = 1, 2, ... ,M)を更新する。 In step S104, each pair (x, s) of the fundamental frequency trajectory x and the score vector s stored in the data storage unit 22 and the kernel K m initialized in the above step S102 or updated last time. weight a m of (m = 1, 2, ... , M), the weight b d music common dictionary q d for singer n, n (d = 1, 2, ..., D, n = 1 , 2, ..., N), and weight c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = 1, 2, ... Based on D), the weight a m (m = 1, 2,..., M) of the kernel K m is updated according to the above equation (11).

ステップS106では、データ記憶部22に記憶されている基本周波数軌跡xと楽譜ベクトルsとの各ペア(x、s)と、上記ステップS102で初期化された、又は前回更新された、カーネルKmの重みam(m = 1, 2, ... ,M)、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)、及び楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)に基づいて、上記(12)式に従って、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)を更新する。 In step S106, each pair (x, s) of the fundamental frequency trajectories x and the score vector s stored in the data storage unit 22 and, initialized at step S102, or was last updated, the kernel K m weight a m of (m = 1, 2, ... , M), the weight b d music common dictionary q d for singer n, n (d = 1, 2, ..., D, n = 1 , 2, ..., N), and weight c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = 1, 2, ... based on D), according to the above (12), the weight b d music common dictionary q d for singer n, n (d = 1, 2, ..., D, n = 1, 2, .. , N).

ステップS108では、データ記憶部22に記憶されている基本周波数軌跡xと楽譜ベクトルsとの各ペア(x、s)と、上記ステップS102で初期化された、又は前回更新された、カーネルKmの重みam(m = 1, 2, ... ,M)、歌唱者nに対する楽譜共通の辞書qdの重みbd,n(d =1, 2, ... ,D, n = 1, 2, ... , N)、及び楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)に基づいて、上記(13)式に従って、楽譜slに対する歌唱者共通の辞書qdの重みcl,d(l =1, 2, ... , L, d = 1, 2, ...D)を更新する。 In step S108, each pair (x, s) of the fundamental frequency trajectories x and the score vector s stored in the data storage unit 22 and, initialized at step S102, or was last updated, the kernel K m weight a m of (m = 1, 2, ... , M), the weight b d music common dictionary q d for singer n, n (d = 1, 2, ..., D, n = 1 , 2, ..., N), and weight c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = 1, 2, ... based on D), according to the above (13), the weights c l a singer common dictionary q d for the score s l, d (l = 1 , 2, ..., L, d = 1, 2,. Update ..D).

ステップS110で、予め定められた終了条件を満たしたか否かを判定する。終了条件を満たしている場合には、最終的に得られた各パラメータを、出力部16により出力して処理を終了し、一方、終了条件を満たしていない場合には、上記ステップS104へ戻る。   In step S110, it is determined whether a predetermined end condition is satisfied. If the end condition is satisfied, each finally obtained parameter is output by the output unit 16 to end the process. On the other hand, if the end condition is not satisfied, the process returns to step S104.

<実施例>
次に、本発明の効果および作用を示すため、本発明の実施形態による音響信号解析装置を用いた実施例を以下に説明する。
<Example>
Next, in order to show the effect and operation of the present invention, an example using an acoustic signal analyzer according to an embodiment of the present invention will be described below.

実施例として、本発明の実施形態の提案アルゴリズムを女性5名、男性5名がそれぞれ20曲の楽曲フレーズを1回ずつ歌った歌唱データに適用した結果を示す。   As an example, the result of applying the proposed algorithm of the embodiment of the present invention to song data in which five females and five males each sang 20 song phrases once is shown.

まず定量的な評価として、本発明の実施形態の提案アルゴリズムと、素朴なガウス過程回帰によるフィッティングとで、テストデータへの平均二乗誤差を評価した。訓練データとして、2曲、4曲、6曲を無作為に抽出し、それぞれのアルゴリズムを乱数で決められた初期値から10試行したときの平均と標準偏差を以下の表1にまとめた。   First, as a quantitative evaluation, the mean square error to the test data was evaluated by the proposed algorithm of the embodiment of the present invention and the fitting by simple Gaussian process regression. As training data, 2 songs, 4 songs, and 6 songs were randomly selected, and the average and standard deviation when each algorithm was tested 10 times from the initial value determined by random numbers are summarized in Table 1 below.

次に定量的な評価として、実際に抽出分解された各歌唱者の個性に相当する特徴を図3に示す。ここでは全ての楽曲を訓練データとして用い、パラメータの初期値は乱数によって決定した1試行を示している。上記図3では、行は分解された歌い方の辞書に対応し、列は歌唱者に対応している。例えば、5番目の歌唱者は5番目の歌い方辞書を使いやすいことや、3番目の歌唱者は10番目の歌い方辞書を使いやすいことが見て取れる。このような歌い方個性を反映した特徴量は 、歌唱者の識別問題など様々な応用が考えられる。   Next, as quantitative evaluation, characteristics corresponding to the individuality of each singer actually extracted and decomposed are shown in FIG. Here, all songs are used as training data, and the initial value of the parameter indicates one trial determined by random numbers. In FIG. 3 above, rows correspond to decomposed singing dictionaries, and columns correspond to singers. For example, it can be seen that the fifth singer is easy to use the fifth singing dictionary, and the third singer is easy to use the tenth singing dictionary. Such features that reflect the individuality of singing can have various applications such as singers' identification problems.

以上説明したように、本発明の実施の形態の音響信号解析装置10によれば、M個のカーネルKm、カーネルKmの各々の重みam、及び観測データから得られる基本周波数軌跡xと楽譜ベクトルsとの各ペア(x、s)から求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,lと、D個の歌声歌唱分布の辞書qdを用いて表される各ペア(x、s)の確率分布、歌唱者nに対する楽譜共通の辞書qdの各々の重みbd,n、及び楽譜slに対する歌唱者共通の辞書qdの各々の重みcl,dから求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,l *との距離を用いて表される目的関数を最小化するように、カーネルKmの各々の重みamと、歌唱者nの各々に対する楽譜共通の辞書qdの各々の重みbd,nと、楽譜slに対する歌唱者共通の辞書qdの各々の重みcl,dを推定することにより、歌声から各歌唱者の個性に相当する特徴を抽出することができる。 As described above, according to the sound signal analysis apparatus 10 according to the embodiment of the present invention, M-number of kernel K m, and the fundamental frequency trajectory x obtained from each of the weights a m, and the observation data of the kernel K m each pair (x, s) of the musical score vector s is determined from an expected value mu n, l on Hilbert space pairs when singer n sang relative score s l (x, s l), Probability distribution of each pair (x, s) expressed using a dictionary q d of D singing voice singing distributions, weights b d, n of a common score q d for a singer n , and a score s l weight c l for each singing person common dictionary q d for is determined from d, the pair (x, s l) when the singer n sang relative score s l expected value of the Hilbert space of mu n , so as to minimize the objective function expressed by using the distance between l *, and the weight a m of each kernel K m, songs 'S weight b d each respective score common dictionary q d for the n, and n, the weights c l for each singing person common dictionary q d for the score s l, by estimating the d, each singing from singing It is possible to extract features corresponding to the individuality of the person.

また、歌声のモデル化と、その潜在的な個性のモデル化として、従来別々な手法として独立に用いられてきたカーネル平均法とノンパラメトリックベイズ法(具体的にはガンマ過程による信号の辞書分解)を組み合わせることにより、音響信号(特に歌声データ)解析技術として、複数人の歌唱者が複数の楽曲に対して歌った歌唱データから、各歌唱者の個性を反映した特徴量を抽出することが出来る。   In addition, as a modeling of singing voice and its potential individuality, the kernel averaging method and the nonparametric Bayes method that have been used independently as separate methods in the past (specifically, dictionary decomposition of signals by gamma process) As a technique for analyzing acoustic signals (especially singing voice data), it is possible to extract feature quantities reflecting the individuality of each singer from singing data sung by a plurality of singers on a plurality of songs. .

なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

例えば、上述の音響信号解析装置10は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   For example, the acoustic signal analysis apparatus 10 described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. Shall be.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の音響信号解析装置10の各部をハードウエアにより構成してもよい。また、パラメータ初期値が記憶されるデータベースとしては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、音響信号解析装置10内部にデータベースを設けても良いし、外部装置に設けてもよい。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do. Moreover, you may comprise each part of the acoustic signal analyzer 10 of this Embodiment by hardware. Further, the database storing the parameter initial values can be realized by storage means exemplified by a hard disk device, a file server, etc., and the database may be provided inside the acoustic signal analysis device 10 or provided in an external device. May be.

10 音響信号解析装置
12 入力部
14 演算部
16 出力部
20 基本周波数抽出部
22 データ記憶部
24 パラメータ推定部
30 パラメータ初期化部
32 カーネル重み更新部
34 歌唱者辞書重み更新部
36 楽曲辞書重み更新部
38 終了判定部
DESCRIPTION OF SYMBOLS 10 Acoustic signal analyzer 12 Input part 14 Calculation part 16 Output part 20 Fundamental frequency extraction part 22 Data storage part 24 Parameter estimation part 30 Parameter initialization part 32 Kernel weight update part 34 Singer dictionary weight update part 36 Music dictionary weight update part 38 End determination part

Claims (7)

N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの歌声を示す音響信号の観測データを解析する音響信号解析装置であって、
歌声を示す音響信号の各時刻の基本周波数を表す基本周波数軌跡xと楽譜の各時刻の音程を表す楽譜ベクトルsとのペア(x、s)間の類似度を測る規準として予め定められたM個のカーネルKm、前記M個のカーネルKmの各々の重みam、及び前記N人の歌唱者nの各々がL種類の楽譜slの各々に対して少なくとも1回歌ったときの前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)から求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,lと、
予め定められたD個の歌声歌唱分布の辞書qdを用いて表される各ペア(x、s)の確率分布、歌唱者nに対する楽譜共通の前記D個の辞書qdの各々の重みbd,n、及び楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dから求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,l *
の距離を用いて表される目的関数を最小化するように、前記M個のカーネルKmの各々の重みamと、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,nと、前記L種類の楽譜slの各々に対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dを推定するパラメータ推定部
を含む音響信号解析装置。
An acoustic signal analyzer for analyzing observation data of an acoustic signal indicating a singing voice when each of N singers sang at least once for each of L types of sheet music,
M defined in advance as a criterion for measuring the similarity between a pair (x, s) of a fundamental frequency locus x representing a fundamental frequency at each time of an acoustic signal representing a singing voice and a score vector s representing a pitch at each time of the score. wherein when the number of kernel K m, the M kernel K m each weight a m, and each of singer n of the n people sang least once for each of the L types of music s l The pair (x, s l ) of the pair (x, s l ) obtained when the singer n sings the score s l obtained from each pair (x, s) of the fundamental frequency trajectory x obtained from the observation data and the score vector s. Expected value μ n, l on Hilbert space,
Probability distribution of each pair (x, s) expressed using a predetermined dictionary d of S singing voice singing distributions, weight b of each of the D dictionaries q d common to the score for singer n d, n, and the score s l each of the weights c l a singer common the D pieces of dictionary q d for is determined from d, the pair (x when singer n sang relative score s l, s l) of so as to minimize the objective function expressed by using the distance between the Hilbert space on the expectation μ n, l *, and the weight a m each of the M kernel K m, the n a weight b d, n of each of the music common the D pieces of dictionary q d for each of the singers n people, the singer common for each of said L types of music s l said D number of dictionary q d An acoustic signal analyzer including a parameter estimation unit for estimating each weight c l, d .
前記パラメータ推定部は、
前記M個のカーネルKmの各々の重みamと、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,nと、前記L種類の楽譜slの各々に対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dとの各々に初期値を設定するパラメータ初期化部と、
前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,n、及び前記L種類の楽譜slの各々に対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dに基づいて、前記目的関数を最小化するように、前記M個のカーネルKmの各々の重みamを更新するカーネル重み更新部と、
前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)、前記M個のカーネルKmの各々の重みam、及び前記L種類の楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dに基づいて、前記目的関数を最小化するように、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,nを更新する歌唱者辞書重み更新部と、
前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)、前記M個のカーネルKmの各々の重みam、及び前記N人の歌唱者nの各々に対する楽譜共通のD個の辞書qdの各々の重みbd,nに基づいて、前記目的関数を最小化するように、前記L種類の楽譜slの各々に対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dを更新する楽曲辞書重み更新部と、
予め定められた終了条件を満たすまで、前記カーネル重み更新部による更新、前記歌唱者辞書重み更新部による更新、及び前記楽曲辞書重み更新部による更新を繰り返させる終了判定部と、
を含む請求項1記載の音響信号解析装置。
The parameter estimation unit includes:
The M kernel K and the weight a m each of m, each of the weights b d music common said for each of the singers n of the N number D number of dictionary q d, and n, the L type of music the common singing person for each s l D number of dictionary q d each weight c l a, and a parameter initializing unit for setting an initial value to each of the d,
Wherein said fundamental frequency trajectory x obtained from the observed data score each pair of the vector s (x, s), the weight of each of said music common for each of the N number of singers n D pieces of dictionary q d b d, n, and the L type of music s l each of the weights c l a singer common the D pieces of dictionary q d for each, based on the d, so as to minimize the objective function, wherein and kernel weight updating section for updating the weights a m of each of the M kernel K m,
Wherein each pair of said fundamental frequency trajectory x obtained from the observed data and the score vector s (x, s), weighting a m of each of the M kernel K m, and singing to said L types of music s l The D dictionaries common to each of the N singers n so as to minimize the objective function based on the weights c l, d of the D dictionaries q d common a singer dictionary weight updating unit for updating each weight b d, n of q d ;
Each pair (x, s) of the fundamental frequency trajectory x obtained from the observation data and the score vector s, a weight a m of each of the M kernels K m , and each of the N singers n Based on the respective weights b d, n of the D dictionaries q d common to the scores for D, the D songs common to the singers for each of the L kinds of scores s l are minimized. A music dictionary weight updating unit for updating each weight c l, d of the dictionary q d ;
An end determination unit that repeats the update by the kernel weight update unit, the update by the singer dictionary weight update unit, and the update by the music dictionary weight update unit until a predetermined end condition is satisfied,
The acoustic signal analysis device according to claim 1, comprising:
前記目的関数は、以下の式で表わされる請求項1又は2記載の音響信号解析装置。

ただし、Qは、辞書qdを用いて表されるペア(x、s)の確率分布であり、Olは、前記観測データから得られる全てのペア(x、s)の数を表す。
The acoustic signal analyzing apparatus according to claim 1, wherein the objective function is represented by the following expression.

However, Q d is a probability distribution of pairs (x, s) represented using the dictionary q d , and O l represents the number of all pairs (x, s) obtained from the observed data.
N人の歌唱者の各々がL種類の楽譜の各々に対して少なくとも1回歌ったときの歌声を示す音響信号の観測データを解析する音響信号解析装置における音響信号解析方法であって、
パラメータ推定部が、歌声を示す音響信号の各時刻の基本周波数を表す基本周波数軌跡xと楽譜の各時刻の音程を表す楽譜ベクトルsとのペア(x、s)間の類似度を測る規準として予め定められたM個のカーネルKm、前記M個のカーネルKmの各々の重みam、及び前記N人の歌唱者nの各々がL種類の楽譜slの各々に対して少なくとも1回歌ったときの前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)から求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,lと、
予め定められたD個の歌声歌唱分布の辞書qdを用いて表される各ペア(x、s)の確率分布、歌唱者nに対する楽譜共通の前記D個の辞書qdの各々の重みbd,n、及び楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dから求められる、歌唱者nが楽譜slに対して歌ったときのペア(x、sl)のヒルベルト空間上の期待値μn,l *
の距離を用いて表される目的関数を最小化するように、前記M個のカーネルKmの各々の重みamと、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,nと、前記L種類の楽譜slの各々に対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dを推定する
音響信号解析方法。
An acoustic signal analysis method in an acoustic signal analyzer for analyzing observation data of an acoustic signal indicating a singing voice when each of N singers sings at least once for each of L types of sheet music,
As a criterion for the parameter estimation unit to measure the similarity between a pair (x, s) of a fundamental frequency trajectory x representing a fundamental frequency at each time of a sound signal indicating a singing voice and a score vector s representing a pitch at each time of the score. predetermined the M kernel K m, of at least one each of the weights a m of the M kernel K m, and each of the singers n of the n number for each of the L types of music s l A pair (x) obtained when a singer n sings a score s l obtained from each pair (x, s) of the fundamental frequency trajectory x obtained from the observation data when sung and the score vector s. , Sl l ) the expected value μ n, l on the Hilbert space,
Probability distribution of each pair (x, s) expressed using a predetermined dictionary d of S singing voice singing distributions, weight b of each of the D dictionaries q d common to the score for singer n d, n, and the score s l each of the weights c l a singer common the D pieces of dictionary q d for is determined from d, the pair (x when singer n sang relative score s l, s l) of so as to minimize the objective function expressed by using the distance between the Hilbert space on the expectation μ n, l *, and the weight a m each of the M kernel K m, the n a weight b d, n of each of the music common the D pieces of dictionary q d for each of the singers n people, the singer common for each of said L types of music s l said D number of dictionary q d An acoustic signal analysis method for estimating each weight c l, d .
前記パラメータ推定部によって推定することでは、
パラメータ初期化部が、前記M個のカーネルKmの各々の重みamと、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,nと、前記L種類の楽譜slの各々に対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dとの各々に初期値を設定し、
カーネル重み更新部が、前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,n、及び前記L種類の楽譜slの各々に対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dに基づいて、前記目的関数を最小化するように、前記M個のカーネルKmの各々の重みamを更新し、
歌唱者辞書重み更新部が、前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)、前記M個のカーネルKmの各々の重みam、及び前記L種類の楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dに基づいて、前記目的関数を最小化するように、前記N人の歌唱者nの各々に対する楽譜共通の前記D個の辞書qdの各々の重みbd,nを更新し、
楽曲辞書重み更新部が、前記観測データから得られる前記基本周波数軌跡xと前記楽譜ベクトルsとの各ペア(x、s)、前記M個のカーネルKmの各々の重みam、及び前記N人の歌唱者nの各々に対する楽譜共通のD個の辞書qdの各々の重みbd,nに基づいて、前記目的関数を最小化するように、前記L種類の楽譜slに対する歌唱者共通の前記D個の辞書qdの各々の重みcl,dを更新し、
終了判定部が、予め定められた終了条件を満たすまで、前記カーネル重み更新部による更新、前記歌唱者辞書重み更新部による更新、及び前記楽曲辞書重み更新部による更新を繰り返させる
ことを含む請求項4記載の音響信号解析方法。
By estimating by the parameter estimation unit,
Parameter initialization section, the M kernel K and the weight a m each of m, each of the weights b d music common said for each of the singers n of the N number D number of dictionary q d, and n the initial value set L type music s l each of the weights c l a singer common the D pieces of dictionary q d for each, in each of the d,
A kernel weight updating unit includes the D dictionaries common to the score for each pair (x, s) of the fundamental frequency trajectory x obtained from the observation data and the score vector s, and each of the N singers n. q each weight b d of d, n, and the L type of music s l each of the weights c l a singer common the D pieces of dictionary q d for each, based on the d, minimizing the objective function as of, and updates the weights a m of each of the M kernel K m,
Singer dictionary weight updating section, each pair of said fundamental frequency trajectory x obtained from the observation data and the score vector s (x, s), weighting a m of each of the M kernel K m, and the For each of the N singers n so as to minimize the objective function based on the weights c l, d of each of the D dictionaries q d common to the singers for L kinds of sheet music s l Update the weights b d, n of each of the D dictionaries q d common to the score,
Music dictionary weight updating section, each pair of said fundamental frequency trajectory x obtained from the observation data and the score vector s (x, s), each of the weights a m of the M kernel K m, and the N Common to singers for the L types of musical scores s l so as to minimize the objective function based on the weights b d, n of the D dictionaries q d common to the musical scores for each of the human singers n Update the weights c l, d of each of the D dictionaries q d of
The termination determination unit includes repeating update by the kernel weight update unit, update by the singer dictionary weight update unit, and update by the music dictionary weight update unit until a predetermined termination condition is satisfied. 4. The acoustic signal analysis method according to 4.
前記目的関数は、以下の式で表わされる請求項4又は5記載の音響信号解析方法。

ただし、Qは、辞書qdを用いて表されるペア(x、s)の確率分布であり、Olは、前記観測データから得られる全てのペア(x、s)の数を表す。
The acoustic signal analysis method according to claim 4 or 5, wherein the objective function is expressed by the following equation.

However, Q d is a probability distribution of pairs (x, s) represented using the dictionary q d , and O l represents the number of all pairs (x, s) obtained from the observed data.
コンピュータを、請求項1〜請求項3の何れか1項記載の音響信号解析装置の各部として機能させるためのプログラム。   The program for functioning a computer as each part of the acoustic signal analyzer of any one of Claims 1-3.
JP2016052633A 2016-03-16 2016-03-16 Acoustic signal analyzing apparatus, method, and program Active JP6498141B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016052633A JP6498141B2 (en) 2016-03-16 2016-03-16 Acoustic signal analyzing apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016052633A JP6498141B2 (en) 2016-03-16 2016-03-16 Acoustic signal analyzing apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2017167347A JP2017167347A (en) 2017-09-21
JP6498141B2 true JP6498141B2 (en) 2019-04-10

Family

ID=59913133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016052633A Active JP6498141B2 (en) 2016-03-16 2016-03-16 Acoustic signal analyzing apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6498141B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126599B (en) * 2019-12-20 2023-09-05 复旦大学 Neural network weight initialization method based on transfer learning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4367437B2 (en) * 2005-05-26 2009-11-18 ヤマハ株式会社 Audio signal processing apparatus, audio signal processing method, and audio signal processing program
JP5293460B2 (en) * 2009-07-02 2013-09-18 ヤマハ株式会社 Database generating apparatus for singing synthesis and pitch curve generating apparatus
JP6101599B2 (en) * 2013-08-19 2017-03-22 日本電信電話株式会社 Acoustic signal analysis apparatus, volume trajectory prediction apparatus, method, and program

Also Published As

Publication number Publication date
JP2017167347A (en) 2017-09-21

Similar Documents

Publication Publication Date Title
US10643633B2 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
US8930183B2 (en) Voice conversion method and system
JP6772213B2 (en) Question answering device, question answering method and program
US20100094629A1 (en) Weight coefficient learning system and audio recognition system
Pigoli et al. The statistical analysis of acoustic phonetic data: exploring differences between spoken Romance languages
Bandela et al. Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition
JP4512848B2 (en) Noise suppressor and speech recognition system
KR20160045673A (en) Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
JP5974901B2 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
JP5881454B2 (en) Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal
JP6498141B2 (en) Acoustic signal analyzing apparatus, method, and program
JP2009204808A (en) Sound characteristic extracting method, device and program thereof, and recording medium with the program stored
Hoffman et al. Finding latent sources in recorded music with a shift-invariant HDP
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
Hughes et al. Variability in analyst decisions during the computation of numerical likelihood ratios
US10839823B2 (en) Sound source separating device, sound source separating method, and program
JP2012027196A (en) Signal analyzing device, method, and program
JP6499095B2 (en) Signal processing method, signal processing apparatus, and signal processing program
JP5295037B2 (en) Learning device using Conditional Random Fields or Global Conditional Log-linearModels, and parameter learning method and program in the learning device
JP5771582B2 (en) Acoustic signal analyzing apparatus, method, and program
JP2013195575A (en) Sound signal analysis device, method, and program
JP5264649B2 (en) Information compression model parameter estimation apparatus, method and program
JP5860439B2 (en) Language model creation device and method, program and recording medium
JP2011053565A (en) Signal analyzer, signal analytical method, program, and recording medium
JP2019028406A (en) Voice signal separation unit, voice signal separation method, and voice signal separation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190312

R150 Certificate of patent or registration of utility model

Ref document number: 6498141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150