JP2019035888A - Sound signal generation device, sound signal generation method, and program - Google Patents

Sound signal generation device, sound signal generation method, and program Download PDF

Info

Publication number
JP2019035888A
JP2019035888A JP2017157920A JP2017157920A JP2019035888A JP 2019035888 A JP2019035888 A JP 2019035888A JP 2017157920 A JP2017157920 A JP 2017157920A JP 2017157920 A JP2017157920 A JP 2017157920A JP 2019035888 A JP2019035888 A JP 2019035888A
Authority
JP
Japan
Prior art keywords
sound
feature
gen
tex
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017157920A
Other languages
Japanese (ja)
Other versions
JP6716512B2 (en
Inventor
卓也 上村
Takuya Kamimura
卓也 上村
裕貴 寺島
Yuki Terajima
裕貴 寺島
茂人 古川
Shigehito Furukawa
茂人 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017157920A priority Critical patent/JP6716512B2/en
Publication of JP2019035888A publication Critical patent/JP2019035888A/en
Application granted granted Critical
Publication of JP6716512B2 publication Critical patent/JP6716512B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

To provide a sound signal generation technique for generating a sound having an arbitrary texture of general sound from white noise.SOLUTION: The sound signal generation device includes a first sound feature extraction unit for extracting a first sound feature which is a feature quantity not dependent on time from an input first sound, a second sound feature extraction unit for extracting a second sound feature which is a feature quantity dependent on time from an input second sound, a white signal generation unit for initializing the generated sound to be output with white noise, and a signal deformation unit for outputting a deformed generated sound using the first sound feature and the second sound feature. The signal deformation unit includes a generated sound feature extraction unit for extracting a first generated sound feature which is a feature quantity not dependent on time from the generated sound and a second generated sound feature which is a feature quantity dependent on time, and an error evaluation signal deformation unit which deforms the generated sound so that a feature error calculated from a first feature error which is the error between the first generated sound feature and the first sound feature and a second feature error which is the error between the second generated sound feature and the second sound feature is small.SELECTED DRAWING: Figure 2

Description

本発明は、入力された2つの音信号の双方の特徴を備えた音信号を得る技術に関する。   The present invention relates to a technique for obtaining a sound signal having features of both input two sound signals.

所望の質感を備える音を生成する技術の研究が進められている。そのような技術の一例として、非特許文献1にあるような、声質変換がある。この声質変換については、これまで数多くの研究がなされてきた。   Research on technology for generating sound with a desired texture is underway. An example of such a technique is voice quality conversion as described in Non-Patent Document 1. Numerous studies have been conducted on this voice quality conversion.

また、別の例として、非特許文献2では、ある質感を持った音をテクスチャ合成する手法について提案している。この手法では、入力された音から質感を表す特徴量を抽出し、その特徴量を用いて同じ質感を持つ新たな音を合成する。   As another example, Non-Patent Document 2 proposes a method for texture synthesis of sound having a certain texture. In this method, a feature amount representing a texture is extracted from the input sound, and a new sound having the same texture is synthesized using the feature amount.

T. Toda, A. W. Black, and K. Tokuda, “Spectral Conversion Based on Maximum Likelihood Estimation Considering Global Variance of Converted Parameter”, IEEE International Conference on Acoustic, Speech, and Signal Processing 2005 (ICASSP ’05) Proceedings, vol.1, no.1, pp.9-12, 2005.T. Toda, AW Black, and K. Tokuda, “Spectral Conversion Based on Maximum Likelihood Estimation Considering Global Variance of Converted Parameter”, IEEE International Conference on Acoustic, Speech, and Signal Processing 2005 (ICASSP '05) Proceedings, vol.1 , no.1, pp.9-12, 2005. J. H. McDermott and E. P. Simoncelli, “Sound texture perception via statistics of the auditory periphery: Evidence from sound synthesis”, Neuron, vol.71, no.5, pp.926-940, 2011.J. H. McDermott and E. P. Simoncelli, “Sound texture perception via statistics of the auditory periphery: Evidence from sound synthesis”, Neuron, vol.71, no.5, pp.926-940, 2011.

しかし、非特許文献1の声質変換技術では、変換目標となる質感が現実に存在する人の声の質感に限られる。また、非特許文献2は、声質ではなく、一般の音の質感を対象とするが、テクスチャ変換ではなく、テクスチャ合成を対象としている。   However, in the voice quality conversion technique of Non-Patent Document 1, the texture that is the conversion target is limited to the texture of a human voice that actually exists. Non-Patent Document 2 targets not only voice quality but general sound texture, but not texture conversion but texture synthesis.

つまり、声質以外の質感(例えば、発声する環境)や、音声以外の音の質感など、一般の音を任意の質感にテクスチャ変換する手法は存在しなかった。   In other words, there has been no technique for texture conversion of general sound into an arbitrary texture such as a texture other than voice quality (for example, an environment in which the voice is uttered) and a sound texture other than voice.

そこで本発明では、白色雑音から一般の音の任意の質感を持つ音を生成する音信号生成技術を提供することを目的とする。   Therefore, an object of the present invention is to provide a sound signal generation technique for generating a sound having an arbitrary texture of a general sound from white noise.

本発明の一態様は、入力された第1音から時刻によらない特徴量である第1音特徴を抽出する第1音特徴抽出部と、入力された第2音から時刻に依存する特徴量である第2音特徴を抽出する第2音特徴抽出部と、出力となる生成音を白色雑音で初期化する白色信号生成部と、前記第1音特徴と前記第2音特徴を用いて変形した前記生成音を出力する信号変形部とを含み、前記信号変形部は、前記生成音から時刻によらない特徴量である第1生成音特徴と時刻に依存する特徴量である第2生成音特徴を抽出する生成音特徴抽出部と、前記第1生成音特徴と前記第1音特徴との誤差である第1特徴誤差と前記第2生成音特徴と前記第2音特徴との誤差である第2特徴誤差とから計算される特徴誤差が小さくなるように、前記生成音を変形する誤差評価信号変形部とを含む。   One aspect of the present invention includes a first sound feature extraction unit that extracts a first sound feature that is a feature quantity that does not depend on time from the input first sound, and a feature quantity that depends on time from the input second sound. A second sound feature extracting unit that extracts the second sound feature, a white signal generating unit that initializes a generated sound to be output with white noise, and a modification using the first sound feature and the second sound feature A signal generating unit that outputs the generated sound, and the signal deforming unit includes a first generated sound feature that is a feature quantity independent of time from the generated sound and a second generated sound that is a feature quantity dependent on time. A generated sound feature extracting unit for extracting features; a first characteristic error that is an error between the first generated sound feature and the first sound feature; and an error between the second generated sound feature and the second sound feature. An error that deforms the generated sound so that the characteristic error calculated from the second characteristic error is small. And a value signal modifying unit.

本発明によれば、白色雑音から一般の音の任意の質感を持つ音を生成することが可能となる。   According to the present invention, it is possible to generate a sound having an arbitrary texture of a general sound from white noise.

音信号生成アルゴリズムで用いるパラメータを示す表。The table | surface which shows the parameter used with a sound signal generation algorithm. 音信号生成装置100の構成の一例を示すブロック図。1 is a block diagram showing an example of the configuration of a sound signal generation device 100. FIG. 音信号生成装置100の動作の一例を示すフローチャート。5 is a flowchart showing an example of the operation of the sound signal generation device 100.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

実施形態の説明に先立って、この明細書における表記方法について説明する。   Prior to the description of the embodiment, a description method in this specification will be described.

_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。 _ (Underscore) represents a subscript. For example, xy_z represents that yz is a superscript to x, and xy_z represents that yz is a subscript to x.

<技術的背景>
ここでは、本発明の実施形態で用いる音信号生成アルゴリズムについて説明する。まず、その概要について説明する。
<Technical background>
Here, the sound signal generation algorithm used in the embodiment of the present invention will be described. First, the outline will be described.

(音信号生成アルゴリズムの概要)
(1) 内容を保持して質感を変換したい音(以下、第2音という)と、変換目標の質感を持った音(以下、第1音という)を入力する。
(2) 第1音から、第1音の質感を表す特徴量(第1音特徴)を抽出する。第1音特徴として、聴覚系モデルの出力波形の時間周辺統計量を用いる。ここで、時間周辺統計量とは、時間の次元で周辺化した統計量のことであり、時間周辺統計量として、例えば、平均、分散、歪度、相関係数を用いる。したがって、時間周辺統計量は、時刻によらない特徴量となる。
(3) 第2音から、第2音の内容を表す特徴量(第2音特徴)を抽出する。第2音特徴として、聴覚系モデルの出力波形の時間パターンを用いる。ここでは、時間パターンとして、出力波形そのもの、つまり、振幅包絡、振幅包絡を帯域分割したものを用いる。したがって、時間パターンは、時刻に依存する特徴量となる。
(4) 生成音を白色雑音で初期化する。
(5) 生成音の質感を表す特徴量(第1生成音特徴)が第1音特徴に、生成音の内容を表す特徴量(第2生成音特徴)が第2音特徴にそれぞれ近づくように、生成音を変形する。
(6) 変形後の生成音を出力する。
(Outline of sound signal generation algorithm)
(1) Input a sound whose content is to be converted (hereinafter referred to as a second sound) and a sound having a conversion target texture (hereinafter referred to as a first sound).
(2) A feature amount (first sound feature) representing the texture of the first sound is extracted from the first sound. As the first sound feature, the time periphery statistic of the output waveform of the auditory system model is used. Here, the time-peripheral statistic is a statistic that is marginalized in the dimension of time. For example, an average, variance, skewness, and correlation coefficient are used as the time-peripheral statistic. Therefore, the time periphery statistic is a feature quantity that does not depend on time.
(3) A feature amount (second sound feature) representing the content of the second sound is extracted from the second sound. As the second sound feature, the time pattern of the output waveform of the auditory system model is used. Here, as the time pattern, the output waveform itself, that is, the amplitude envelope and the band obtained by dividing the amplitude envelope are used. Therefore, the time pattern is a feature quantity dependent on time.
(4) The generated sound is initialized with white noise.
(5) The feature amount (first generated sound feature) representing the texture of the generated sound approaches the first sound feature, and the feature amount (second generated sound feature) representing the content of the generated sound approaches the second sound feature. , Transform the generated sound.
(6) Output the generated sound after deformation.

ここで、聴覚系モデルとは、入力された音に対してヒトの聴覚系を模擬した処理を行うものである。聴覚系モデルは、まず、音を複数の帯域に分割し、その振幅包絡と微細構造を抽出する。次に、聴覚系における応答の非線形性を模擬するために、振幅包絡を非線形圧縮する。最後に、帯域ごとの振幅包絡の変動速度を反映するために、振幅包絡を帯域分割した波形を計算する。つまり、聴覚系モデルは、以下の4つの処理から構成される。
(a) バンドパスフィルタバンク
(b) 包絡線抽出
(c) 非線形圧縮
(d) バンドパスフィルタバンク
Here, the auditory system model is a process for simulating a human auditory system on an input sound. The auditory system model first divides a sound into a plurality of bands, and extracts its amplitude envelope and fine structure. Next, in order to simulate the nonlinearity of the response in the auditory system, the amplitude envelope is nonlinearly compressed. Finally, in order to reflect the fluctuation speed of the amplitude envelope for each band, a waveform obtained by dividing the amplitude envelope into bands is calculated. That is, the auditory system model is composed of the following four processes.
(a) Bandpass filter bank
(b) Envelope extraction
(c) Nonlinear compression
(d) Bandpass filter bank

また、聴覚系モデルは、音の振幅値x(t)を入力とし、帯域ごとの波形s(i,t)、波形s(i,t)の振幅包絡e(i,t)、波形s(i,t)の微細構造p(i,t)、振幅包絡e(i,t)を帯域分割した波形m(i,k,t)の4つの出力波形を出力する。これらの出力波形から、上記(2)及び(3)の処理において時間周辺統計量や時間パターンを計算する。   In addition, the auditory system model takes the amplitude value x (t) of the sound as input, the waveform s (i, t) for each band, the amplitude envelope e (i, t) of the waveform s (i, t), and the waveform s ( Four output waveforms of a waveform m (i, k, t) obtained by dividing a fine structure p (i, t) of i, t) and an amplitude envelope e (i, t) are output. From these output waveforms, the time periphery statistics and the time pattern are calculated in the processes (2) and (3).

続いて、音信号生成アルゴリズムについて説明する。   Next, the sound signal generation algorithm will be described.

(音信号生成アルゴリズム)
処理内容:第1音と第2音を入力とし、それぞれの特徴をあわせ持つ音である生成音を出力する。
入力:第1音の振幅値xtex(t)、第2音の振幅値xcon(t)
出力:生成音の振幅値xgen(t)
(Sound signal generation algorithm)
Processing content: The first sound and the second sound are input, and a generated sound that is a sound having both characteristics is output.
Input: first sound amplitude value x tex (t), second sound amplitude value x con (t)
Output: Generated sound amplitude value x gen (t)

ここで、tは離散時刻を表すパラメータであり、t∈{1, 2, …, Tx_type}とする。ただし、type∈{tex,con,gen}とする。つまり、Tx_texは第1音の長さ(サンプル数)、Tx_conは第2音の長さ(サンプル数)、Tx_genは生成音の長さ(サンプル数)を表す。また、Tx_con=Tx_genとなる。 Here, t is a parameter representing discrete time and is assumed to be t∈ {1, 2,..., T x_type }. However, typeε {tex, con, gen}. That is, T x_tex represents the length of the first sound (number of samples), T x_con represents the length of the second sound (number of samples), and T x_gen represents the length of the generated sound (number of samples). Further, T x_con = T x_gen .

なお、本アルゴリズムの計算時間はTx_conについて線形に増加する。
(1) 聴覚系モデルにより、第1音の振幅値xtex(t)から、帯域ごとの波形stex(i,t)、波形stex(i,t)の振幅包絡etex(i,t)、振幅包絡etex(i,t)を帯域分割した波形mtex(i,k,t)を計算する。聴覚系モデルについては後述する。ここで、i、kは帯域番号を表すパラメータであり、i∈{1, 2, …, Ni}、k∈{1, 2, …, Nk}とする。
(2) 振幅包絡etex(i,t)と波形mtex(i,k,t)の時間周辺統計量fmean,tex(i)、fvar,tex(i)、fskew,tex(i)、fcce,tex(i,j)、fpow,tex(i,k)、fccm,tex(i,j,k)を計算する。各時間周辺統計量の計算方法については後述する。
(3) 波形stex(i,t)の分散σs_tex(i)2を計算する。
Note that the calculation time of this algorithm increases linearly with respect to T x_con .
(1) by the auditory system model, from the amplitude value of the first sound x tex (t), for each band waveform s tex (i, t), amplitude envelope e tex waveform s tex (i, t) ( i, t ), A waveform m tex (i, k, t) obtained by band-dividing the amplitude envelope e tex (i, t) is calculated. The auditory system model will be described later. Here, i, k is a parameter representing a band number, i∈ {1, 2, ... , N i}, k∈ {1, 2, ..., N k} and.
(2) Time marginal statistics f mean, tex (i), f var, tex (i), f skew, tex (i) of amplitude envelope e tex (i, t) and waveform m tex (i, k, t) ), F cce, tex (i, j), f pow, tex (i, k), and f ccm, tex (i, j, k). A method for calculating the statistics around each time will be described later.
(3) The variance σ s_tex (i) 2 of the waveform s tex (i, t) is calculated.

Figure 2019035888
Figure 2019035888

(4) 聴覚系モデルにより、第2音の振幅値xcon(t)から、波形scon(i,t)の振幅包絡econ(i,t)と振幅包絡econ(i,t)を帯域分割した波形mcon(i,k,t)を計算する。
(5) 生成音xgen(t)を白色雑音で初期化する。つまり、xgen(t)←白色雑音とする。
(6) (6.1)から(6.11)をNiter回繰り返す。Niterは1以上の整数であり、例えば、20とするとよい(図1参照)。
(6.1) 聴覚系モデルにより、生成音の振幅値xgen(t)から、帯域ごとの波形sgen(i,t)、波形sgen(i,t)の振幅包絡egen(i,t)、波形sgen(i,t)の微細構造pgen(i,t)、振幅包絡egen(i,t)を帯域分割した波形mgen(i,k,t)を計算する。
(6.2) 振幅包絡egen(i,t)と波形mgen(i,k,t)の時間周辺統計量fmean,gen(i)、fvar,gen(i)、fskew,gen(i)、fcce,gen(i,j)、fpow,gen(i,k)、fccm,gen(i,j,k)を計算する。
(6.3) 特徴誤差をL(i)=αLcon(i)+(1-α)Ltex(i)とし、第2特徴誤差Lcon(i)、第1特徴誤差Ltex(i)をそれぞれ以下で計算する。ただし、α(0≦α≦1)は第2音と第1音がそれぞれ生成音に与える影響のバランスを決定するパラメータである。
(4) Using the auditory system model, the amplitude envelope e con (i, t) and the amplitude envelope e con (i, t) of the waveform s con (i, t) are calculated from the amplitude value x con (t) of the second sound. Calculate the band-divided waveform m con (i, k, t).
(5) The generated sound x gen (t) is initialized with white noise. That is, x gen (t) ← white noise.
(6) Repeat (6.1) to (6.11) Niter times. N iter is an integer greater than or equal to 1, for example 20 (see FIG. 1).
(6.1) From the amplitude value x gen (t) of the generated sound, the amplitude envelope e gen (i, t) of the waveform s gen (i, t) and waveform s gen (i, t) for each band is determined by the auditory system model , waveform s gen (i, t) of the microstructure p gen (i, t), amplitude envelope e gen (i, t) to band divided waveform m gen (i, k, t ) is calculated.
(6.2) Time marginal statistics f mean, gen (i), f var, gen (i), f skew, gen (i) of amplitude envelope e gen (i, t) and waveform m gen (i, k, t) ), F cce, gen (i, j), f pow, gen (i, k), f ccm, gen (i, j, k).
(6.3) The feature error is L (i) = αL con (i) + (1-α) L tex (i), and the second feature error L con (i) and the first feature error L tex (i) are respectively Calculate as follows. Here, α (0 ≦ α ≦ 1) is a parameter that determines the balance of the influence of the second sound and the first sound on the generated sound.

なお、α=0のとき、第1音特徴を持ち、第2音特徴を持たない音が合成される。また、α=1のとき、雑音駆動音声が合成される。
(6.3.1) 第2特徴誤差Lcon(i)を、次式で表される、第2音の振幅包絡econ(i,t)と振幅包絡econ(i,t)を帯域分割した波形mcon(i,k,t)と、生成音の振幅包絡egen(i,t)と振幅包絡egen(i,t)を帯域分割した波形mgen(i,k,t)との二乗誤差とする。
When α = 0, a sound having the first sound feature and not having the second sound feature is synthesized. Also, when α = 1, noise-driven speech is synthesized.
(6.3.1) The second characteristic error L con (i) is divided into bands of the amplitude envelope e con (i, t) and the amplitude envelope e con (i, t) of the second sound expressed by the following equation: The waveform m con (i, k, t) and the waveform m gen (i, k, t) obtained by band-dividing the amplitude envelope e gen (i, t) and the amplitude envelope e gen (i, t) of the generated sound Let squared error.

Figure 2019035888
Figure 2019035888

(6.3.2) 第1特徴誤差Ltex(i)を、次式で表される、第1音の時間周辺統計量と生成音の時間周辺統計量との二乗誤差とする。 (6.3.2) The first characteristic error L tex (i) is a square error between the time-peripheral statistic of the first sound and the time-peripheral statistic of the generated sound expressed by the following equation.

Figure 2019035888
Figure 2019035888

ただし、Σj,kは、jやkを引数に取るstatについてのみ実行するものとする。具体的には、stat∈{cce, pow, ccm}に対して実行することになる。
(6.4) 分散σs_tex(i)2が大きいiから順に、確率勾配法によって、特徴誤差L(i)が小さくなるように振幅包絡egen(i,t)を変形する。変形した振幅包絡をe’gen(i,t)とする。
(6.5) 振幅包絡e’gen(i,t)に対して、聴覚系モデルにおける非線形圧縮の逆の操作をする。すなわち、振幅包絡e’gen(i,t)をβ分の1乗したものを改めてe’gen(i,t)とする。
However, Σ j, k is executed only for stats that take j and k as arguments. Specifically, it is executed for statε {cce, pow, ccm}.
(6.4) The amplitude envelope e gen (i, t) is modified by the stochastic gradient method so that the characteristic error L (i) becomes smaller in order from i with the largest variance σ s_tex (i) 2 . Let the deformed amplitude envelope be e ′ gen (i, t).
(6.5) The inverse operation of nonlinear compression in the auditory system model is performed on the amplitude envelope e ′ gen (i, t). That is, an amplitude envelope e ′ gen (i, t) raised to the power of β is re- designated as e ′ gen (i, t).

Figure 2019035888
Figure 2019035888

(6.6) 振幅包絡e’gen(i,t)を振幅包絡のサンプリング周波数feから振幅値のサンプリング周波数fxへアップサンプルする。例えば、fx=20kHz, fe=400Hzとするとよい(図1参照)。アップサンプルした振幅包絡を改めてe’gen(i,t)とする。
(6.7) 振幅包絡e’gen(i,t)と微細構造pgen(i,t)から、次式により波形s’gen(i,t)を復元する。
(6.6) The amplitude envelope e ′ gen (i, t) is up-sampled from the sampling frequency f e of the amplitude envelope to the sampling frequency f x of the amplitude value. For example, f x = 20 kHz and f e = 400 Hz are preferable (see FIG. 1). Let e ′ gen (i, t) be the upsampled amplitude envelope.
(6.7) The waveform s ′ gen (i, t) is restored from the amplitude envelope e ′ gen (i, t) and the fine structure p gen (i, t) by the following equation.

Figure 2019035888
Figure 2019035888

ただし、jは虚数単位である。
(6.8) 波形s’gen(i,t)の分散が波形stex(i,t)の分散と等しくなるように、次式のように、波形s’gen(i,t)にσs_tex(i)/σs’_gen(i)をかける。すなわち、波形s’gen(i,t)にσs_tex(i)/σs’_gen(i)をかけたものを改めてs’gen(i,t)とする。
However, j is an imaginary unit.
(6.8) 'so that the variance of the gen (i, t) is equal to the variance of the waveform s tex (i, t), as in the following equation, the waveform s' waveform s gen (i, t) to the sigma S_tex ( i) Multiply / σ s'_gen (i). In other words, the waveform s ′ gen (i, t) multiplied by σ s_tex (i) / σ s′_gen (i) is changed to s ′ gen (i, t).

Figure 2019035888
Figure 2019035888

ここで、σs’_gen(i)は波形s’gen(i,t)の標準偏差であり、次式で表される。 Here, σ s′_gen (i) is a standard deviation of the waveform s ′ gen (i, t), and is expressed by the following equation.

Figure 2019035888
Figure 2019035888

(6.9) 波形s’gen(i,t)にバンドパスフィルタバンクFa(i)を適用する。適用後の波形を改めてs’gen(i,t)とする。なお、バンドパスフィルタFa(i)については後述する。
(6.10) 波形s’gen(i,t)を次式により足し合わせ、振幅値x’gen(t)を算出する。
(6.9) Apply the bandpass filter bank F a (i) to the waveform s ′ gen (i, t). Let s' gen (i, t) be the waveform after application. The bandpass filter F a (i) will be described later.
(6.10) The waveform s ′ gen (i, t) is added according to the following equation to calculate the amplitude value x ′ gen (t).

Figure 2019035888
Figure 2019035888

(6.11) xgen(t)←x’gen(t)とする。
(聴覚系モデル)
聴覚系モデルでは、先述した通り、入力された音に対してヒトの聴覚系を模擬した処理を行う。
(6.11) Let x gen (t) ← x ' gen (t).
(Hearing system model)
In the auditory system model, as described above, a process simulating the human auditory system is performed on the input sound.

以下、簡単のため、type∈{tex,con,gen}として、xtype(t)、stype(i,t)、etype(i,t)、ptype(i,t)、mtype(i,k,t)をそれぞれx(t)、s(i,t)、e(i,t)、p(i,t)、m(i,k,t)と表す。
入力:音の振幅値x(t)
出力:帯域ごとの波形s(i,t)、波形s(i,t)の振幅包絡e(i,t)、波形s(i,t)の微細構造p(i,t)、振幅包絡e(i,t)を帯域分割した波形m(i,k,t)
(1) 振幅値x(t)をバンドパスフィルタバンクFa(i)より帯域分割する。フィルタの中心周波数ca(i)がEquivalent rectangular bandwidth(ERB)スケール上で等間隔になるようにする。ERBスケールとは、蝸牛におけるフィルタの配置を模擬したスケールである。ここではerb(fω)と表す。ただしfはサンプリング周波数、ωは正規化周波数とする。i番目の帯域のバンド幅は、フィルタの係数が減衰して0になる点がca(i-1)とca(i+1)となるように設定する。
(1.1) 振幅値x(t)を離散フーリエ変換したものをX(ω)とする。ωは正規化周波数であり、ω∈{0, 1/Tx, 2/Tx, …, 1/2}となる。
(1.2) X(ω)にフィルタの係数Fa(i,ω)をかける。その結果をS(i,ω)とする。
In the following, for simplicity, type ∈ {tex, con, gen} and x type (t), s type (i, t), e type (i, t), p type (i, t), m type ( i, k, t) are represented as x (t), s (i, t), e (i, t), p (i, t), m (i, k, t), respectively.
Input: Sound amplitude value x (t)
Output: waveform s (i, t) for each band, amplitude envelope e (i, t) of waveform s (i, t), fine structure p (i, t) of waveform s (i, t), amplitude envelope e Waveform m (i, k, t) obtained by band dividing (i, t)
(1) The amplitude value x (t) is divided into bands from the bandpass filter bank F a (i). The center frequency c a (i) of the filter is set to be equally spaced on the Equivalent rectangular bandwidth (ERB) scale. The ERB scale is a scale that simulates the arrangement of filters in the cochlea. Here, it is expressed as erb (fω). Where f is the sampling frequency and ω is the normalized frequency. The bandwidth of the i-th band is set so that the points at which the filter coefficient attenuates to 0 become c a (i−1) and c a (i + 1).
(1.1) Let X (ω) be the discrete Fourier transform of the amplitude value x (t). ω is a normalized frequency, and ω∈ {0, 1 / T x , 2 / T x , ..., 1/2}.
(1.2) Multiply X (ω) by the filter coefficient F a (i, ω). The result is S (i, ω).

Figure 2019035888
Figure 2019035888

ただし、fxは振幅値x(t)のサンプリング周波数、NiはバンドパスフィルタバンクFa(i)の帯域数、ωa0はバンドパスフィルタバンクFa(i)の最低帯域の中心周波数(最小中心周波数)、ωa1はバンドパスフィルタバンクFa(i)の最高帯域の中心周波数(最大中心周波数)とする。例えば、fx=20kHz, Ni=30, ωa0=20/fx, ωa1=10000/fxとするとよい(図1参照)。
(1.3) S(i,ω)を離散逆フーリエ変換したものを帯域ごとの波形s(i,t)とする。
(2) 波形s(i,t)の振幅包絡e(i,t)、微細構造p(i,t)をヒルベルト変換により計算する。つまり、振幅包絡e(i,t)、微細構造p(i,t)をそれぞれ波形s(i,t)のヒルベルト変換の絶対値、偏角とする。
(3) 振幅包絡e(i,t)を非線形圧縮する。すなわち、振幅包絡e(i,t)をβ乗したものを改めてe(i,t)とする。
However, f x is the sampling frequency of the amplitude value x (t), N i is the number of bands of the band-pass filter bank F a (i), ω a0 bandpass filter bank F a minimum bandwidth of the center frequency of (i) ( Ω a1 is the center frequency of the highest band (maximum center frequency) of the bandpass filter bank F a (i). For example, f x = 20kHz, N i = 30, ω a0 = 20 / f x, or equal to ω a1 = 10000 / f x (see FIG. 1).
(1.3) S (i, ω) is a discrete inverse Fourier transform, which is a waveform s (i, t) for each band.
(2) The amplitude envelope e (i, t) and fine structure p (i, t) of the waveform s (i, t) are calculated by the Hilbert transform. That is, the amplitude envelope e (i, t) and the fine structure p (i, t) are set as the absolute value and the argument of the Hilbert transform of the waveform s (i, t), respectively.
(3) Non-linearly compress the amplitude envelope e (i, t). That is, the amplitude envelope e (i, t) raised to the power of β is re-designated as e (i, t).

Figure 2019035888
Figure 2019035888

ただし、β(0<β≦1)は圧縮の程度を決めるパラメータである。例えば、β=0.3とするとよい(図1参照)。
(4) 振幅包絡e(i,t)を振幅値のサンプリング周波数fxから振幅包絡のサンプリング周波数feへダウンサンプルする。ダウンサンプルにより、t∈{1, 2, …, Te}となる。ただし、Teは振幅包絡e(i,t)の長さ(サンプル数)であり、Te/fe=Tx/fxである。ダウンサンプルした振幅包絡を改めてe(i,t)とする。
(5) 振幅包絡e(i,t)をバンドパスフィルタバンクFm(k)により帯域分割する。このバンドパスフィルタバンクFm(k)は、聴覚末梢系に存在すると考えられている変調フィルタバンクを想定したものである。フィルタの中心周波数の間隔はlogスケールとし、バンド幅はシャープネス(Q値)が2となるようにする。
(5.1) 振幅包絡e(i,t)を離散フーリエ変換したものをE(i,ω)とする。ωは正規化周波数であり、ω∈{0, 1/Te, 2/Te, …, 1/2}となる。
(5.2) E(i,ω)にフィルタの係数Fm(k,ω)をかける。その結果をM(i,k,ω)とする。
However, β (0 <β ≦ 1) is a parameter that determines the degree of compression. For example, β = 0.3 is preferable (see FIG. 1).
(4) The amplitude envelope e (i, t) is down-sampled from the sampling frequency f x of the amplitude value to the sampling frequency f e of the amplitude envelope. By down-sampling, t∈ {1, 2,…, T e }. However, T e is the length of the amplitude envelope e (i, t) (the number of samples), a T e / f e = T x / f x. Let the down-sampled amplitude envelope be e (i, t) again.
(5) The amplitude envelope e (i, t) is divided into bands by the bandpass filter bank F m (k). This band pass filter bank F m (k) is assumed to be a modulation filter bank that is considered to exist in the auditory peripheral system. The interval between the center frequencies of the filters is the log scale, and the bandwidth is set so that the sharpness (Q value) is 2.
(5.1) Let E (i, ω) be the discrete Fourier transform of the amplitude envelope e (i, t). ω is a normalized frequency, and ω∈ {0, 1 / T e , 2 / T e , ..., 1/2}.
(5.2) Multiply E (i, ω) by filter coefficient F m (k, ω). The result is M (i, k, ω).

Figure 2019035888
Figure 2019035888

ただし、feは振幅包絡e(i,t)のサンプリング周波数、NkはバンドパスフィルタバンクFm(k)の帯域数、ωm0はバンドパスフィルタバンクFm(k)最低帯域の中心周波数(最小中心周波数)、ωm1はバンドパスフィルタバンクFm(k)最高帯域の中心周波数(最大中心周波数)とする。例えば、fe=400Hz, Nk=20, ωm0=0.5/fe, ωm1=200/feとするとよい(図1参照)。
(5.3) M(i,k,ω)を離散逆フーリエ変換したものをm(i,k,t)とする。
(時間周辺統計量の計算)
聴覚系モデルの出力波形から、時間周辺統計量を計算する。
Where f e is the sampling frequency of the amplitude envelope e (i, t), N k is the number of bands in the bandpass filter bank F m (k), ω m0 is the center frequency of the bandpass filter bank F m (k) lowest band (Minimum center frequency), ω m1 is the center frequency (maximum center frequency) of the highest band of the bandpass filter bank F m (k). For example, f e = 400 Hz, N k = 20, ω m0 = 0.5 / f e , and ω m1 = 200 / f e (see FIG. 1).
(5.3) Let M (i, k, t) be M (i, k, ω) obtained by discrete inverse Fourier transform.
(Calculation of statistics around time)
Calculate the time statistic from the output waveform of the auditory system model.

以下、簡単のため、type∈{tex, gen}として、stype(i,t)、etype(i,t)、mtype(i,k,t)をそれぞれs(i,t)、e(i,t)、m(i,k,t)と表す。また、時間周辺統計量fmean,type(i)、fvar,type(i)、fskew,type(i)、fcce,type(i,j)、fpow,type(i,k)、fccm,type(i,j,k)をそれぞれfmean(i)、fvar(i)、fskew(i)、fcce(i,j)、fpow(i,k)、fccm(i,j,k)と表す。
入力:波形s(i,t)の振幅包絡e(i,t)、振幅包絡e(i,t)を帯域分割した波形m(i,k,t)
出力:時間周辺統計量fmean(i)、fvar(i)、fskew(i)、fcce(i,j)、fpow(i,k)、fccm(i,j,k)
(1) 振幅包絡e(i,t)の時間周辺統計量を計算する。
(1.1) e(i,t)の平均μe(i)をfmean(i)とする。
Hereinafter, for simplicity, s type (i, t), e type (i, t), and m type (i, k, t) are set to s (i, t) and e, respectively, as type∈ {tex, gen}. (i, t) and m (i, k, t). In addition, the time marginal statistics f mean, type (i), f var, type (i), f skew, type (i), f cce, type (i, j), f pow, type (i, k), f ccm, type (i, j, k) is f mean (i), f var (i), f skew (i), f cce (i, j), f pow (i, k), f ccm ( i, j, k).
Input: Waveform m (i, k, t) obtained by band-dividing the amplitude envelope e (i, t) and amplitude envelope e (i, t) of the waveform s (i, t)
Output: Time marginal statistics f mean (i), f var (i), f skew (i), f cce (i, j), f pow (i, k), f ccm (i, j, k)
(1) Calculate the time marginal statistic of the amplitude envelope e (i, t).
(1.1) The mean μ e (i) of e (i, t) is defined as f mean (i).

Figure 2019035888
Figure 2019035888

(1.2) e(i,t)の分散σe(i)2を平均μe(i)の2乗で割った値をfvar(i)とする。 (1.2) A value obtained by dividing the variance σ e (i) 2 of e (i, t) by the square of the average μ e (i) is defined as f var (i).

Figure 2019035888
Figure 2019035888

(1.3) e(i,t)の歪度をfskew(i)とする。 (1.3) Let the skewness of e (i, t) be f skew (i).

Figure 2019035888
Figure 2019035888

(1.4)e(i,t)とe(j,t)の相関係数をfcce(i,j)とする。 (1.4) Let the correlation coefficient between e (i, t) and e (j, t) be f cce (i, j).

Figure 2019035888
Figure 2019035888

(2) 波形m(i,k,t)の時間周辺統計量を計算する。
(2.1) m(i,k,t)の二乗平均を分散σm(i,k)2で割った値をfpow(i,k)とする。ここで、μm(i,k)はm(i,k,t)の平均である。
(2) Calculate the time marginal statistics of the waveform m (i, k, t).
(2.1) Let f pow (i, k) be the value obtained by dividing the root mean square of m (i, k, t) by the variance σ m (i, k) 2 . Here, μ m (i, k) is an average of m (i, k, t).

Figure 2019035888
Figure 2019035888

(2.2) m(i,k,t)とm(j,k,t)の相関係数をfccm(i,j,k)とする。 (2.2) Let the correlation coefficient of m (i, k, t) and m (j, k, t) be f ccm (i, j, k).

Figure 2019035888
Figure 2019035888

図1は、上記音信号生成アルゴリズムで用いたパラメータを一覧にした表である。なお、この表の値はあくまで一例である。   FIG. 1 is a table listing the parameters used in the sound signal generation algorithm. Note that the values in this table are merely examples.

(音信号生成アルゴリズムの変形例)
様々な複雑な質感を備える音を性能よく生成するためには、上述の音信号生成アルゴリズムのように、帯域分割を行ったうえで音信号を生成するのが好ましいが、帯域分割を行わずに音信号を生成することもできる。ここでは、音信号生成アルゴリズムを簡易化したアルゴリズムについて説明する。
(Modification of sound signal generation algorithm)
In order to generate sound with various complex textures with good performance, it is preferable to generate a sound signal after performing band division as in the above sound signal generation algorithm, but without performing band division. A sound signal can also be generated. Here, an algorithm that simplifies the sound signal generation algorithm will be described.

まず、簡易化音信号生成アルゴリズム1について説明する。簡易化音信号生成アルゴリズム1は、振幅包絡e(i,t)を帯域分割した波形m(i,k,t)を計算しない点において、音信号生成アルゴリズムと異なる。
[簡易化音信号生成アルゴリズム1]
(1) 聴覚系モデルにより、第1音の振幅値xtex(t)から、帯域ごとの波形stex(i,t)、波形stex(i,t)の振幅包絡etex(i,t)を計算する。
(2) 振幅包絡etex(i,t)の時間周辺統計量fmean,tex(i)、fvar,tex(i)、fskew,tex(i)、fcce,tex(i,j)を計算する。
(3) 波形stex(i,t)の分散σs_tex(i)2を計算する。
(4) 聴覚系モデルにより、第2音の振幅値xcon(t)から、帯域ごとの波形scon(i,t)の振幅包絡econ(i,t)を計算する。
(5) 生成音xgen(t)を白色雑音で初期化する。つまり、xgen(t)←白色雑音とする。
(6) (6.1)から(6.11)をNiter回繰り返す。
(6.1) 聴覚系モデルにより、生成音の振幅値xgen(t)から、帯域ごとの波形sgen(i,t)、波形sgen(i,t)の振幅包絡egen(i,t)、波形sgen(i,t)の微細構造pgen(i,t)を計算する。
(6.2) 振幅包絡egen(i,t)の時間周辺統計量fmean,gen(i)、fvar,gen(i)、fskew,gen(i)、fcce,gen(i,j)を計算する。
(6.3) 特徴誤差をL(i)=αLcon(i)+(1-α)Ltex(i)とし、第2特徴誤差Lcon(i)、第1特徴誤差Ltex(i)をそれぞれ以下で計算する。
(6.3.1) 第2特徴誤差Lcon(i)を、次式で表される、第2音の振幅包絡econ(i,t)と生成音の振幅包絡egen(i,t)との二乗誤差とする。
First, the simplified sound signal generation algorithm 1 will be described. The simplified sound signal generation algorithm 1 is different from the sound signal generation algorithm in that the waveform m (i, k, t) obtained by dividing the amplitude envelope e (i, t) is not calculated.
[Simplified sound signal generation algorithm 1]
(1) by the auditory system model, from the amplitude value of the first sound x tex (t), for each band waveform s tex (i, t), amplitude envelope e tex waveform s tex (i, t) ( i, t ).
(2) Time envelope statistics f mean, tex (i), f var, tex (i), f skew, tex (i), f cce, tex (i, j) of amplitude envelope e tex (i, t) Calculate
(3) The variance σ s_tex (i) 2 of the waveform s tex (i, t) is calculated.
(4) The amplitude envelope e con (i, t) of the waveform s con (i, t) for each band is calculated from the amplitude value x con (t) of the second sound using the auditory system model.
(5) The generated sound x gen (t) is initialized with white noise. That is, x gen (t) ← white noise.
(6) Repeat (6.1) to (6.11) Niter times.
(6.1) From the amplitude value x gen (t) of the generated sound, the amplitude envelope e gen (i, t) of the waveform s gen (i, t) and waveform s gen (i, t) for each band is determined by the auditory system model Then, the fine structure p gen (i, t) of the waveform s gen (i, t) is calculated.
(6.2) Time envelope statistics f mean, gen (i), f var, gen (i), f skew, gen (i), f cce, gen (i, j) of amplitude envelope e gen (i, t) Calculate
(6.3) The feature error is L (i) = αL con (i) + (1-α) L tex (i), and the second feature error L con (i) and the first feature error L tex (i) are respectively Calculate as follows.
(6.3.1) The second characteristic error L con (i) is expressed by the following equation, the second sound amplitude envelope e con (i, t) and the generated sound amplitude envelope e gen (i, t): Is the square error.

Figure 2019035888
Figure 2019035888

(6.3.2) 第1特徴誤差Ltex(i)を、次式で表される、第1音の時間周辺統計量と生成音の時間周辺統計量との二乗誤差とする。 (6.3.2) The first characteristic error L tex (i) is a square error between the time-peripheral statistic of the first sound and the time-peripheral statistic of the generated sound expressed by the following equation.

Figure 2019035888
Figure 2019035888

ただし、Σjは、jを引数に取るstatについてのみ実行するものとする。具体的には、stat∈{cce}に対して実行することになる。
(6.4) 分散σs_tex(i)2が大きいiから順に、確率勾配法によって、特徴誤差L(i)が小さくなるように振幅包絡egen(i,t)を変形する。変形した振幅包絡をe’gen(i,t)とする。
(6.5) 振幅包絡e’gen(i,t)に対して、聴覚系モデルにおける非線形圧縮の逆の操作をする。すなわち、振幅包絡e’gen(i,t)をβ分の1乗したものを改めてe’gen(i,t)とする。
However, Σ j is executed only for a stat that takes j as an argument. Specifically, it is executed for statε {cce}.
(6.4) The amplitude envelope e gen (i, t) is modified by the stochastic gradient method so that the characteristic error L (i) becomes smaller in order from i with the largest variance σ s_tex (i) 2 . Let the deformed amplitude envelope be e ′ gen (i, t).
(6.5) The inverse operation of nonlinear compression in the auditory system model is performed on the amplitude envelope e ′ gen (i, t). That is, an amplitude envelope e ′ gen (i, t) raised to the power of β is re- designated as e ′ gen (i, t).

Figure 2019035888
Figure 2019035888

(6.6) 振幅包絡e’gen(i,t)を振幅包絡のサンプリング周波数feから振幅値のサンプリング周波数fxへアップサンプルする。アップサンプルした振幅包絡を改めてe’gen(i,t)とする。
(6.7) 振幅包絡e’gen(i,t)と微細構造pgen(i,t)から、次式により波形s’gen(i,t)を復元する。
(6.6) The amplitude envelope e ′ gen (i, t) is up-sampled from the sampling frequency f e of the amplitude envelope to the sampling frequency f x of the amplitude value. Let e ′ gen (i, t) be the upsampled amplitude envelope.
(6.7) The waveform s ′ gen (i, t) is restored from the amplitude envelope e ′ gen (i, t) and the fine structure p gen (i, t) by the following equation.

Figure 2019035888
Figure 2019035888

(6.8) 波形s’gen(i,t)の分散が波形stex(i,t)の分散と等しくなるように、次式のように、波形s’gen(i,t)にσs_tex(i)/σs’_gen(i)をかける。すなわち、波形s’gen(i,t)にσs_tex(i)/σs’_gen(i)をかけたものを改めてs’gen(i,t)とする。 (6.8) 'so that the variance of the gen (i, t) is equal to the variance of the waveform s tex (i, t), as in the following equation, the waveform s' waveform s gen (i, t) to the sigma S_tex ( i) Multiply / σ s'_gen (i). In other words, the waveform s ′ gen (i, t) multiplied by σ s_tex (i) / σ s′_gen (i) is changed to s ′ gen (i, t).

Figure 2019035888
Figure 2019035888

(6.9) 波形s’gen(i,t)にバンドパスフィルタバンクFa(i)を適用する。適用後の波形を改めてs’gen(i,t)とする。
(6.10) 波形s’gen(i,t)を次式により足し合わせ、振幅値x’gen(t)を算出する。
(6.9) Apply the bandpass filter bank F a (i) to the waveform s ′ gen (i, t). Let s' gen (i, t) be the waveform after application.
(6.10) The waveform s ′ gen (i, t) is added according to the following equation to calculate the amplitude value x ′ gen (t).

Figure 2019035888
Figure 2019035888

(6.11) xgen(t)←x’gen(t)とする。 (6.11) Let x gen (t) ← x ' gen (t).

次に、簡易化音信号生成アルゴリズム2について説明する。簡易化音信号生成アルゴリズム2は、振幅包絡e(i,t)を帯域分割した波形m(i,k,t)を計算しない点に加えて、帯域ごとの波形s(i,t)も計算しない点において、音信号生成アルゴリズムと異なる。   Next, the simplified sound signal generation algorithm 2 will be described. The simplified sound signal generation algorithm 2 calculates the waveform s (i, t) for each band in addition to not calculating the waveform m (i, k, t) obtained by dividing the amplitude envelope e (i, t) into bands. It differs from the sound signal generation algorithm in that it is not.

[簡易化音信号生成アルゴリズム2]
(1) 第1音の振幅値xtex(t)から、振幅値xtex(t)の振幅包絡etex(t)を計算する。つまり、振幅包絡etex(t)を振幅値xtex(t)のヒルベルト変換の絶対値とする。
(2) 振幅包絡etex(t)の時間周辺統計量fmean,tex、fvar,tex、fskew,texを計算する。
[Simplified sound signal generation algorithm 2]
(1) from the amplitude value of the first sound x tex (t), calculates the amplitude envelope e tex (t) of the amplitude value x tex (t). That is, the amplitude envelope e tex (t) is the absolute value of the Hilbert transform of the amplitude value x tex (t).
(2) Calculate the time marginal statistics f mean, tex , f var, tex , f skew, tex of the amplitude envelope e tex (t).

Figure 2019035888
Figure 2019035888

(3) 振幅値xtex(t)の分散σx_tex 2を計算する。 (3) The variance σ x_tex 2 of the amplitude value x tex (t) is calculated.

Figure 2019035888
Figure 2019035888

(4) 第2音の振幅値xcon(t)から、振幅値xcon(t)の振幅包絡econ(i,t)を計算する。つまり、振幅包絡etex(t)を振幅値xcon(t)のヒルベルト変換の絶対値とする。
(5) 生成音xgen(t)を白色雑音で初期化する。つまり、xgen(t)←白色雑音とする。
(6) (6.1)から(6.11)をNiter回繰り返す。
(6.1) 生成音の振幅値xgen(t)から、振幅値xgen(t)の振幅包絡egen(t)、振幅値xgen(t)の微細構造pgen(t)を計算する。つまり、振幅包絡egen(t)、微細構造pgen(t)をそれぞれ振幅値xgen(t)のヒルベルト変換の絶対値、偏角とする。
(6.2) 振幅包絡egen(t)の時間周辺統計量fmean,gen、fvar,gen、fskew,genを計算する。
(6.3) 特徴誤差をL=αLcon+(1-α)Ltexとし、第2特徴誤差Lcon、第1特徴誤差Ltexをそれぞれ以下で計算する。
(6.3.1) 第2特徴誤差Lconを、次式で表される、第2音の振幅包絡econ(t)と、生成音の振幅包絡egen(t)との二乗誤差とする。
(4) from the amplitude value x con (t) of the second sound, it calculates the amplitude envelope e con amplitude value x con (t) (i, t). That is, the amplitude envelope e tex (t) is the absolute value of the Hilbert transform of the amplitude value x con (t).
(5) The generated sound x gen (t) is initialized with white noise. That is, x gen (t) ← white noise.
(6) Repeat (6.1) to (6.11) Niter times.
(6.1) from the amplitude value x gen product sound (t), calculates the amplitude envelope e gen amplitude value x gen (t) (t), the amplitude value x microstructure of gen (t) p gen (t ). That is, the amplitude envelope e gen (t) and the fine structure p gen (t) are the absolute value and declination of the Hilbert transform of the amplitude value x gen (t), respectively.
(6.2) Compute the time marginal statistics f mean, gen , f var, gen , f skew, gen of the amplitude envelope e gen (t).
(6.3) The feature error is L = αL con + (1−α) L tex, and the second feature error L con and the first feature error L tex are calculated as follows.
(6.3.1) The second characteristic error L con is a square error between the amplitude envelope e con (t) of the second sound and the amplitude envelope e gen (t) of the generated sound, which is expressed by the following equation.

Figure 2019035888
Figure 2019035888

(6.3.2) 第1特徴誤差Ltexを、次式で表される、第1音の時間周辺統計量と生成音の時間周辺統計量との二乗誤差とする。 (6.3.2) Let the first characteristic error L tex be the square error between the time-peripheral statistic of the first sound and the time-peripheral statistic of the generated sound, expressed by the following equation.

Figure 2019035888
Figure 2019035888

(6.4)確率勾配法によって、特徴誤差Lが小さくなるように振幅包絡egen(t)を変形する。変形した振幅包絡をe’gen(t)とする。
(6.7) 振幅包絡e’gen(t)と微細構造pgen(t)から、次式により振幅値x’gen(t)を復元する。
(6.4) The amplitude envelope e gen (t) is transformed so that the feature error L is reduced by the probability gradient method. Let the deformed amplitude envelope be e ′ gen (t).
(6.7) From the amplitude envelope e ′ gen (t) and the fine structure p gen (t), the amplitude value x ′ gen (t) is restored by the following equation.

Figure 2019035888
Figure 2019035888

(6.8) 振幅値x’gen(t)の分散が振幅値xtex(t)の分散と等しくなるように、次式のように、振幅値x’gen(t)にσx_texx’_genをかける。すなわち、振幅値x’gen(t)にσx_texx’_genをかけたものを改めてx’gen(t)とする。 (6.8) 'so that the variance of the gen (t) is equal to the variance of the amplitude value x tex (t), as in the following equation, the amplitude value x' amplitude value x gen (t) to σ x_tex / σ x ' Multiply _gen . That is, 're x a multiplied by σ x_tex / σ x'_gen the gen (t)' and gen (t) the amplitude value x.

Figure 2019035888
Figure 2019035888

(6.11) xgen(t)←x’gen(t)とする。 (6.11) Let x gen (t) ← x ' gen (t).

<第一実施形態>
以下、図2〜図3を参照して音信号生成装置100について説明する。図2は、音信号生成装置100の構成を示すブロック図である。図3は、音信号生成装置100の動作を示すフローチャートである。図2に示すように音信号生成装置100は、第1音特徴抽出部110、第2音特徴抽出部120、白色信号生成部130、信号変形部140、記録部190を含む。さらに、信号変形部140は、生成音特徴抽出部141、誤差評価信号変形部142を含む。記録部190は、音信号生成装置100の処理に必要な情報を適宜記録する構成部である。
<First embodiment>
Hereinafter, the sound signal generation device 100 will be described with reference to FIGS. FIG. 2 is a block diagram illustrating a configuration of the sound signal generation device 100. FIG. 3 is a flowchart showing the operation of the sound signal generation device 100. As shown in FIG. 2, the sound signal generation device 100 includes a first sound feature extraction unit 110, a second sound feature extraction unit 120, a white signal generation unit 130, a signal transformation unit 140, and a recording unit 190. Further, the signal transformation unit 140 includes a generated sound feature extraction unit 141 and an error evaluation signal transformation unit 142. The recording unit 190 is a component that appropriately records information necessary for processing of the sound signal generation device 100.

図3に従い音信号生成装置100の動作について説明する。第1音特徴抽出部110は、入力された第1音から時刻によらない特徴量である第1音特徴を抽出する(S110)。具体的には、まず、音信号生成アルゴリズム(1)により、第1音の振幅値xtex(t)から、帯域ごとの波形stex(i,t)、波形stex(i,t)の振幅包絡etex(i,t)、振幅包絡etex(i,t)を帯域分割した波形mtex(i,k,t)を計算する。次に、音信号生成アルゴリズム(2)により、振幅包絡etex(i,t)と波形mtex(i,k,t)から、時間周辺統計量fmean,tex(i)、fvar,tex(i)、fskew,tex(i)、fcce,tex(i,j)、fpow,tex(i,k)、fccm,tex(i,j,k)を計算する。つまり、時間周辺統計量fmean,tex(i)、fvar,tex(i)、fskew,tex(i)、fcce,tex(i,j)、fpow,tex(i,k)、fccm,tex(i,j,k)が第1音特徴となる。また、音信号生成アルゴリズム(3)により、波形stex(i,t)からその分散σs_tex(i)2を計算する。 The operation of the sound signal generation device 100 will be described with reference to FIG. The first sound feature extraction unit 110 extracts a first sound feature, which is a feature quantity independent of time, from the input first sound (S110). Specifically, first, by the sound signal generation algorithm (1), the waveform s tex (i, t) and the waveform s tex (i, t) for each band are obtained from the amplitude value x tex (t) of the first sound. A waveform m tex (i, k, t) obtained by band-dividing the amplitude envelope e tex (i, t) and the amplitude envelope e tex (i, t) is calculated. Next, by the sound signal generation algorithm (2), the time-peripheral statistics f mean, tex (i), f var, tex are calculated from the amplitude envelope e tex (i, t) and the waveform m tex (i, k, t). (i), f skew, tex (i), f cce, tex (i, j), f pow, tex (i, k), f ccm, calculates the tex (i, j, k) . In other words, time-peripheral statistics f mean, tex (i), f var, tex (i), f skew, tex (i), f cce, tex (i, j), f pow, tex (i, k), f ccm, tex (i, j, k) is the first sound feature. Also, the variance σ s_tex (i) 2 is calculated from the waveform s tex (i, t) by the sound signal generation algorithm (3).

なお、音信号生成アルゴリズム(6.3.2)の第1特徴誤差Ltex(i)の計算において、6つの時間周辺統計量すべてを用いる必要はない。つまり、少なくとも1つの時間周辺統計量を用いることにより第1特徴誤差Ltex(i)を計算するようにしてもよい。したがって、必ずしも、振幅包絡etex(i,t)と波形mtex(i,k,t)の両方を計算する必要はないし、また、6つの時間周辺統計量すべてを計算する必要もない。すなわち、S110では、第1特徴誤差Ltex(i)の計算において必要となるもののみを計算すればよい。 Note that it is not necessary to use all six time-peripheral statistics in the calculation of the first characteristic error L tex (i) of the sound signal generation algorithm (6.3.2). That is, the first feature error L tex (i) may be calculated by using at least one time marginal statistic. Therefore, it is not always necessary to calculate both the amplitude envelope e tex (i, t) and the waveform m tex (i, k, t), and it is not necessary to calculate all six time marginal statistics. That is, in S110, it is only necessary to calculate what is necessary for calculating the first feature error L tex (i).

第2音特徴抽出部120は、入力された第2音から時刻に依存する特徴量である第2音特徴を抽出する(S120)。具体的には、まず、音信号生成アルゴリズム(4)により、第2音の振幅値xcon(t)から、波形scon(i,t)の振幅包絡econ(i,t)、振幅包絡econ(i,t)を帯域分割した波形mcon(i,k,t)を計算する。時間パターンである振幅包絡econ(i,t)と波形mcon(i,k,t)が第2音特徴となる。 The second sound feature extraction unit 120 extracts a second sound feature, which is a feature amount dependent on time, from the input second sound (S120). Specifically, first, by the sound signal generation algorithm (4), from the amplitude value of the second sound x con (t), amplitude envelope e con waveform s con (i, t) ( i, t), amplitude envelope A waveform m con (i, k, t) obtained by dividing the band of e con (i, t) is calculated. The amplitude envelope e con (i, t) and the waveform m con (i, k, t), which are time patterns, are the second sound features.

なお、音信号生成アルゴリズム(6.3.1)の第2特徴誤差Lcon(i)の計算において、振幅包絡econ(i,t)と波形mcon(i,k,t)の両方を用いる必要はない。つまり、振幅包絡econ(i,t)と波形mcon(i,k,t)のいずれか1つを用いることにより第2特徴誤差Lcon(i)を計算するようにしてもよい。したがって、場合によっては、波形mcon(i,k,t)を計算する必要はない。 Note that it is necessary to use both the amplitude envelope e con (i, t) and the waveform m con (i, k, t) in the calculation of the second characteristic error L con (i) of the sound signal generation algorithm (6.3.1). There is no. That is, the second feature error L con (i) may be calculated by using one of the amplitude envelope e con (i, t) and the waveform m con (i, k, t). Therefore, in some cases, it is not necessary to calculate the waveform m con (i, k, t).

白色信号生成部130は、出力となる生成音を白色雑音で初期化する(S130)。具体的には、音信号生成アルゴリズム(5)による。   The white signal generation unit 130 initializes the generated sound to be output with white noise (S130). Specifically, according to the sound signal generation algorithm (5).

信号変形部140は、第1音特徴と第2音特徴を用いて変形した生成音を出力する(S140)。生成音特徴抽出部141は、生成音から時刻によらない特徴量である第1生成音特徴と時刻に依存する特徴量である第2生成音特徴を抽出する(S141)。なお、第1生成音特徴と第2生成音特徴を生成音特徴という。誤差評価信号変形部142は、第1生成音特徴と第1音特徴との誤差である第1特徴誤差と第2生成音特徴と第2音特徴との誤差である第2特徴誤差とから計算される特徴誤差が小さくなるように、生成音を変形する(S142)。所定の条件が満たされた場合、誤差評価信号変形部142は、変形した生成音を出力する(S149)。例えば、生成音を変形する処理をNiter回繰り返した後、出力する。 The signal transformation unit 140 outputs a generated sound transformed using the first sound feature and the second sound feature (S140). The generated sound feature extraction unit 141 extracts, from the generated sound, a first generated sound feature that is a feature quantity independent of time and a second generated sound feature that is a time-dependent feature quantity (S141). The first generated sound feature and the second generated sound feature are referred to as generated sound features. The error evaluation signal transformation unit 142 calculates from a first feature error that is an error between the first generated sound feature and the first sound feature, and a second feature error that is an error between the second generated sound feature and the second sound feature. The generated sound is deformed so as to reduce the feature error (S142). When the predetermined condition is satisfied, the error evaluation signal deformation unit 142 outputs the deformed generated sound (S149). For example, the process of transforming the generated sound is repeated Niter times and then output.

以下、生成音特徴抽出部141及び誤差評価信号変形部142の動作について説明する。まず、生成音特徴抽出部141の動作について説明する。最初に、音信号生成アルゴリズム(6.1)により、生成音の振幅値xgen(t)から、帯域ごとの波形sgen(i,t)、波形sgen(i,t)の振幅包絡egen(i,t)、波形sgen(i,t)の微細構造pgen(i,t)、振幅包絡egen(i,t)を帯域分割した波形mgen(i,k,t)を計算する。時間パターンである振幅包絡egen(i,t)と波形mgen(i,k,t)が第2生成音特徴である。続いて、音信号生成アルゴリズム(6.2)により、振幅包絡egen(i,t)と波形mgen(i,k,t)の時間周辺統計量fmean,gen(i)、fvar,gen(i)、fskew,gen(i)、fcce,gen(i,j)、fpow,gen(i,k)、fccm,gen(i,j,k)を計算する。時間周辺統計量fmean,gen(i)、fvar,gen(i)、fskew,gen(i)、fcce,gen(i,j)、fpow,gen(i,k)、fccm,gen(i,j,k)が第1生成音特徴である。 The operations of the generated sound feature extraction unit 141 and the error evaluation signal transformation unit 142 will be described below. First, the operation of the generated sound feature extraction unit 141 will be described. First, according to the sound signal generation algorithm (6.1), the amplitude envelope e gen () of the waveform s gen (i, t) and waveform s gen (i, t) for each band is calculated from the amplitude value x gen (t) of the generated sound. i, t), waveform s gen (i, t), fine structure p gen (i, t), amplitude envelope e gen (i, t), waveform m gen (i, k, t) . The amplitude envelope e gen (i, t) and the waveform m gen (i, k, t), which are time patterns, are the second generated sound features. Next, the sound signal generation algorithm (6.2) uses the time envelope statistics f mean, gen (i), f var, gen () of the amplitude envelope e gen (i, t) and the waveform m gen (i, k, t). i), f skew, gen (i), f cce, gen (i, j), f pow, gen (i, k), f ccm, gen (i, j, k) are calculated. Time marginal statistics f mean, gen (i), f var, gen (i), f skew, gen (i), f cce, gen (i, j), f pow, gen (i, k), f ccm , gen (i, j, k) is the first generated sound feature.

なお、ここで計算する生成音特徴は、S110やS120に対応する形で必要となるもののみでよい。   It should be noted that the generated sound features calculated here need only be those required in a form corresponding to S110 or S120.

次に、誤差評価信号変形部142の動作について説明する。最初に、音信号生成アルゴリズム(6.3)及び(6.4)により、帯域番号iについて、分散σs_tex(i)2が大きいiから順に、確率勾配法によって、特徴誤差L(i)が小さくなるように振幅包絡egen(i,t)を変形していく。これにより、変形した振幅包絡e’gen(i,t)が得られる。 Next, the operation of the error evaluation signal transformation unit 142 will be described. First, according to the sound signal generation algorithms (6.3) and (6.4), for the band number i, the feature error L (i) is reduced by the stochastic gradient method in order from i with the largest variance σ s_tex (i) 2. The amplitude envelope e gen (i, t) is transformed. Thereby, a deformed amplitude envelope e ′ gen (i, t) is obtained.

なお、二乗誤差を用いて第1特徴誤差Ltex(i)及び第2特徴誤差Lcon(i)を計算する代わり、誤差の絶対値を用いて第1特徴誤差Ltex(i)及び第2特徴誤差Lcon(i)を計算するようにしてもよい。また、第1特徴誤差Ltex(i)及び第2特徴誤差Lcon(i)を計算する際、各二乗和(各絶対値和)に重みを付けたうえで加算するようにしてもよい。 Incidentally, instead of calculating the first feature error L tex (i) and the second characteristic error L con (i) using a square error, the first feature using the absolute value of the error error L tex (i) and a second The feature error L con (i) may be calculated. In addition, when calculating the first feature error L tex (i) and the second feature error L con (i), each square sum (each absolute value sum) may be weighted and added.

続いて、音信号生成アルゴリズム(6.5)〜(6.11)により、変形した振幅包絡e’gen(i,t)(i∈{1, 2, …, Ni})から生成音の振幅値xgen(t)を計算する。 Subsequently, the amplitude value x gen of the generated sound is generated from the modified amplitude envelope e ′ gen (i, t) (i∈ {1, 2,..., N i }) by the sound signal generation algorithms (6.5) to (6.11). Calculate (t).

本発明は上述の実施形態に限定されるものではない。例えば、S110〜S130の処理はこの順序でなく適宜入れ替えて実行してもよいし、並列に実行してもよい。   The present invention is not limited to the above-described embodiment. For example, the processing of S110 to S130 may be executed in an appropriate manner instead of this order, or may be executed in parallel.

本発明によれば、白色雑音から一般の音の任意の質感を持つ音を生成することができる。   According to the present invention, it is possible to generate a sound having an arbitrary texture of a general sound from white noise.

<変形例>
音信号生成装置100では、各構成部は音信号生成アルゴリズムに基づいて動作するものとして説明したが、音信号生成アルゴリズムの代わりに、簡易化音信号生成アルゴリズム1や簡易化音信号生成アルゴリズム2に基づいて動作するものとしてもよい。
<Modification>
In the sound signal generation device 100, each component has been described as operating based on the sound signal generation algorithm. However, instead of the sound signal generation algorithm, the simplified sound signal generation algorithm 1 and the simplified sound signal generation algorithm 2 are used. It is good also as what operate | moves based.

この場合、第1音特徴、第2音特徴、第1生成音特徴、第2生成音特徴は、必ずしも帯域分割して帯域ごとに計算したものではないことになる。この点において、第1音特徴、第2音特徴、第1生成音特徴、第2生成音特徴が、ヒトの聴覚特性を考慮して帯域分割した帯域ごとに計算したものである音信号生成装置100と異なる。   In this case, the first sound feature, the second sound feature, the first generated sound feature, and the second generated sound feature are not necessarily calculated by band division. In this respect, the sound signal generation device in which the first sound feature, the second sound feature, the first generated sound feature, and the second generated sound feature are calculated for each band divided in consideration of human auditory characteristics. Different from 100.

<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。   The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。   In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。   As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Claims (8)

入力された第1音から時刻によらない特徴量である第1音特徴を抽出する第1音特徴抽出部と、
入力された第2音から時刻に依存する特徴量である第2音特徴を抽出する第2音特徴抽出部と、
出力となる生成音を白色雑音で初期化する白色信号生成部と、
前記第1音特徴と前記第2音特徴を用いて変形した前記生成音を出力する信号変形部と
を含む音信号生成装置であり、
前記信号変形部は、
前記生成音から時刻によらない特徴量である第1生成音特徴と時刻に依存する特徴量である第2生成音特徴を抽出する生成音特徴抽出部と、
前記第1生成音特徴と前記第1音特徴との誤差である第1特徴誤差と前記第2生成音特徴と前記第2音特徴との誤差である第2特徴誤差とから計算される特徴誤差が小さくなるように、前記生成音を変形する誤差評価信号変形部と
を含む音信号生成装置。
A first sound feature extraction unit that extracts a first sound feature that is a feature quantity independent of time from the input first sound;
A second sound feature extraction unit that extracts a second sound feature that is a time-dependent feature amount from the input second sound;
A white signal generator that initializes the output generated sound with white noise;
A sound signal generating device including: a signal deforming unit that outputs the generated sound deformed by using the first sound feature and the second sound feature;
The signal transformation unit is
A generated sound feature extracting unit that extracts a first generated sound feature that is a feature quantity independent of time and a second generated sound feature that is a time-dependent feature quantity from the generated sound;
Feature error calculated from a first feature error that is an error between the first generated sound feature and the first sound feature, and a second feature error that is an error between the second generated sound feature and the second sound feature A sound signal generating device including an error evaluation signal deforming unit that deforms the generated sound so that becomes smaller.
請求項1に記載の音信号生成装置であって、
前記第1音特徴は、前記第1音から計算される時間周辺統計量であり、
前記第1生成音特徴は、前記生成音から計算される時間周辺統計量である
ことを特徴とする音信号生成装置。
The sound signal generating device according to claim 1,
The first sound feature is a time-peripheral statistic calculated from the first sound,
The first generated sound feature is a time-peripheral statistic calculated from the generated sound.
請求項1または2に記載の音信号生成装置であって、
前記第2音特徴は、前記第2音から計算される時間パターンであり、
前記第2生成音特徴は、前記生成音から計算される時間パターンである
ことを特徴とする音信号生成装置。
The sound signal generating device according to claim 1 or 2,
The second sound feature is a time pattern calculated from the second sound,
The second generated sound feature is a time pattern calculated from the generated sound.
請求項1ないし3のいずれか1項に記載の音信号生成装置であって、
前記第1音特徴と前記第1生成音特徴は、ヒトの聴覚特性を考慮して帯域分割した帯域ごとに計算したものである
ことを特徴とする音信号生成装置。
The sound signal generation device according to any one of claims 1 to 3,
The sound signal generation device according to claim 1, wherein the first sound feature and the first generated sound feature are calculated for each band obtained by dividing a band in consideration of human auditory characteristics.
請求項4に記載の音信号生成装置であって、
xtex(t)を前記第1音の振幅値、stex(i,t)をxtex(t)から計算される帯域ごとの波形、etex(i,t)をstex(i,t)の振幅包絡、mtex(i,k,t)をetex(i,t)を帯域分割した波形(ただし、tは離散時刻を表すパラメータ、i、kは帯域番号を表すパラメータ)とし、
xgen(t)を前記生成音の振幅値、sgen(i,t)をxgen(t)から計算される帯域ごとの波形、egen(i,t)をsgen(i,t)の振幅包絡、mgen(i,k,t)をegen(i,t)を帯域分割した波形(ただし、tは離散時刻を表すパラメータ、i、kは帯域番号を表すパラメータ)とし、
前記第1音特徴は、etex(i,t)の平均であるfmean,tex(i)と、etex(i,t)の分散をetex(i,t)の平均の2乗で割った値であるfvar,tex(i)と、etex(i,t)の歪度であるfskew,tex(i)と、etex(i,t)とetex(j,t)の相関係数であるfcce,tex(i,j)と、mtex(i,k,t)の二乗平均をmtex(i,k,t)の分散で割った値であるfpow,tex(i,k)と、mtex(i,k,t)とmtex(j,k,t)の相関係数であるfccm,tex(i,j,k)であり、
前記第1生成音特徴は、egen(i,t)の平均であるfmean,gen(i)と、egen(i,t)の分散をegen(i,t)の平均の2乗で割った値であるfvar,gen(i)と、egen(i,t)の歪度であるfskew,gen(i)と、egen(i,t)とegen(j,t)の相関係数であるfcce,gen(i,j)と、mgen(i,k,t)の二乗平均をmgen(i,k,t)の分散で割った値であるfpow,gen(i,k)と、mgen(i,k,t)とmgen(j,k,t)の相関係数であるfccm,gen(i,j,k)である
ことを特徴とする音信号生成装置。
The sound signal generation device according to claim 4,
x tex (t) is the amplitude value of the first sound, s tex (i, t) is a waveform for each band calculated from x tex (t), and e tex (i, t) is s tex (i, t ) Amplitude envelope, m tex (i, k, t) is a band-divided waveform of e tex (i, t) (where t is a parameter representing discrete time, i and k are parameters representing band numbers),
x gen (t) is the amplitude value of the generated sound, s gen (i, t) is a waveform for each band calculated from x gen (t), e gen (i, t) is s gen (i, t) The amplitude envelope of m gen (i, k, t) is a band-divided waveform of e gen (i, t) (where t is a parameter representing discrete time and i and k are parameters representing band numbers)
The first sound feature, e tex (i, t) mean a is f mean of a tex (i), e tex ( i, t) the variance of the average of the square of e tex (i, t) is a value obtained by dividing f var, tex (i) and, e tex (i, t) f skew is skewness of a tex (i), e tex ( i, t) and e tex (j, t) the correlation coefficient of a is f cce, tex (i, j ) and, m tex (i, k, t) root mean a m tex of (i, k, t) f pow is divided by the dispersion, tex (i, k), m tex (i, k, t) and m tex (j, k, t) are correlation coefficients f ccm, tex (i, j, k),
Said first generating sound features, e gen (i, t) mean a is f mean of the gen (i), e gen ( i, t) 2 square of the average of the variance of e gen (i, t) is divided by f var, and gen (i), e gen ( i, t) a skewness is f skew of the gen (i), e gen ( i, t) and e gen (j, t f cce a correlation coefficient), gen (i, j) and, m gen (i, k, root mean a m gen (i of t), k, is divided by the variance of t) f pow , gen (i, k) and m gen (i, k, t) and m gen (j, k, t) are correlation coefficients f ccm, gen (i, j, k) A sound signal generator.
請求項1ないし5のいずれか1項に記載の音信号生成装置であって、
前記第2音特徴と前記第2生成音特徴は、ヒトの聴覚特性を考慮して帯域分割した帯域ごとに計算したものである
ことを特徴とする音信号生成装置。
The sound signal generation device according to any one of claims 1 to 5,
The sound signal generating device, wherein the second sound feature and the second generated sound feature are calculated for each band obtained by dividing a band in consideration of human auditory characteristics.
音信号生成装置が、入力された第1音から時刻によらない特徴量である第1音特徴を抽出する第1音特徴抽出ステップと、
前記音信号生成装置が、入力された第2音から時刻に依存する特徴量である第2音特徴を抽出する第2音特徴抽出ステップと、
前記音信号生成装置が、出力となる生成音を白色雑音で初期化する白色信号生成ステップと、
前記音信号生成装置が、前記第1音特徴と前記第2音特徴を用いて変形した前記生成音を出力する信号変形ステップと
を含む音信号生成方法であり、
前記信号変形ステップは、
前記生成音から時刻によらない特徴量である第1生成音特徴と時刻に依存する特徴量である第2生成音特徴を抽出する生成音特徴抽出ステップと、
前記第1生成音特徴と前記第1音特徴との誤差である第1特徴誤差と前記第2生成音特徴と前記第2音特徴との誤差である第2特徴誤差とから計算される特徴誤差が小さくなるように、前記生成音を変形する誤差評価信号変形ステップと
を含む音信号生成方法。
A first sound feature extracting step in which the sound signal generating device extracts a first sound feature that is a feature quantity independent of time from the input first sound;
A second sound feature extracting step in which the sound signal generating device extracts a second sound feature which is a feature quantity dependent on time from the input second sound;
The sound signal generation device initializes a generated sound to be output with white noise, and a white signal generation step;
The sound signal generation device includes a signal modification step of outputting the generated sound deformed using the first sound feature and the second sound feature,
The signal transformation step includes
A generated sound feature extracting step of extracting a first generated sound feature that is a feature quantity independent of time and a second generated sound feature that is a time-dependent feature quantity from the generated sound;
Feature error calculated from a first feature error that is an error between the first generated sound feature and the first sound feature, and a second feature error that is an error between the second generated sound feature and the second sound feature A sound signal generation method comprising: an error evaluation signal deformation step of deforming the generated sound so as to decrease
請求項1ないし6のいずれか1項に記載の音信号生成装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the sound signal generation device according to any one of claims 1 to 6.
JP2017157920A 2017-08-18 2017-08-18 Sound signal generation device, sound signal generation method, and program Active JP6716512B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017157920A JP6716512B2 (en) 2017-08-18 2017-08-18 Sound signal generation device, sound signal generation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017157920A JP6716512B2 (en) 2017-08-18 2017-08-18 Sound signal generation device, sound signal generation method, and program

Publications (2)

Publication Number Publication Date
JP2019035888A true JP2019035888A (en) 2019-03-07
JP6716512B2 JP6716512B2 (en) 2020-07-01

Family

ID=65637554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017157920A Active JP6716512B2 (en) 2017-08-18 2017-08-18 Sound signal generation device, sound signal generation method, and program

Country Status (1)

Country Link
JP (1) JP6716512B2 (en)

Also Published As

Publication number Publication date
JP6716512B2 (en) 2020-07-01

Similar Documents

Publication Publication Date Title
JP2020034624A (en) Signal generation device, signal generation system, signal generation method, and program
JP2021001964A (en) Abnormal sound detection system, pseudo-sound production system and pseudo-sound production method
JP2012163919A (en) Voice signal processing device, method and program
US10262680B2 (en) Variable sound decomposition masks
JP4964259B2 (en) Parameter estimation device, sound source separation device, direction estimation device, method and program thereof
CN112037800A (en) Voiceprint nuclear model training method and device, medium and electronic equipment
JPWO2019220620A1 (en) Anomaly detection device, anomaly detection method and program
WO2021237923A1 (en) Smart dubbing method and apparatus, computer device, and storage medium
CN113345460A (en) Audio signal processing method, device, equipment and storage medium
JP2009535997A (en) Noise reduction in electronic devices with farfield microphones on the console
CN110890098B (en) Blind signal separation method and device and electronic equipment
JP6716512B2 (en) Sound signal generation device, sound signal generation method, and program
EP4177885A1 (en) Quantifying signal purity by means of machine learning
JP2018077139A (en) Sound field estimation device, sound field estimation method and program
CN117496990A (en) Speech denoising method, device, computer equipment and storage medium
JP2017083566A (en) Noise suppression device, noise suppression method, and program
US20140140519A1 (en) Sound processing device, sound processing method, and program
US11699440B2 (en) System and method for data augmentation for multi-microphone signal processing
JP2019074621A (en) Signal separation device, signal separation method and program
US11676619B2 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
CN115762546A (en) Audio data processing method, apparatus, device and medium
CN114063965A (en) High-resolution audio generation method, electronic equipment and training method thereof
JP6827908B2 (en) Speech enhancement device, speech enhancement learning device, speech enhancement method, program
US20210219048A1 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP2020030373A (en) Sound source enhancement device, sound source enhancement learning device, sound source enhancement method, program

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20170830

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200610

R150 Certificate of patent or registration of utility model

Ref document number: 6716512

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150