JP7019138B2 - Coding device, coding method and program - Google Patents
Coding device, coding method and program Download PDFInfo
- Publication number
- JP7019138B2 JP7019138B2 JP2017037640A JP2017037640A JP7019138B2 JP 7019138 B2 JP7019138 B2 JP 7019138B2 JP 2017037640 A JP2017037640 A JP 2017037640A JP 2017037640 A JP2017037640 A JP 2017037640A JP 7019138 B2 JP7019138 B2 JP 7019138B2
- Authority
- JP
- Japan
- Prior art keywords
- coding
- data
- complex
- rbm
- hidden
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明は、符号化装置および符号化方法、並びに符号化方法を実行するプログラムに関する。 The present invention relates to a coding apparatus and a coding method, and a program for executing the coding method.
近年、ディープラーニングを用いた手法が飛躍的に高い精度を上げ、画像認識や音声認識など、幅広い分野において盛んに研究され、利用が進んでいる。これまでに数多くのディープラーニング手法が提案されているが、最も代表的なモデルとして、制限ボルツマンマシン(restricted Boltzmann machine:以下、「RBM」と称する)が用いられている。また、RBMを多層に積み重ねたDeep Belief Net (以下、「DBN」と称する) も用いられている。さらに、様々なRBMの拡張モデルも提案されている。 In recent years, methods using deep learning have dramatically improved accuracy, and have been actively researched and used in a wide range of fields such as image recognition and voice recognition. Although many deep learning methods have been proposed so far, the restricted Boltzmann machine (hereinafter referred to as "RBM") is used as the most representative model. In addition, Deep Belief Net (hereinafter referred to as "DBN") in which RBMs are stacked in multiple layers is also used. In addition, various RBM extensions have been proposed.
従来、RBMを利用した特徴量抽出処理としては、いずれのアプローチでも入力特徴量はバイナリまたは実数値が使用されていた。
例えば音声認識や音声合成などの音声処理を行う場合には、メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients :MFCC)、メルケプストラム特徴量、STRAIGHTスペクトルなどの振幅スペクトルに基づいた音響特徴量が利用されている。ところが、振幅スペクトルに基づいた音響特徴量抽出では、位相情報が欠落しており、元の複素数表現された音声データに対して少なからず情報の損失が存在する。
ここでは音声処理を例に説明したが、その他の複素数情報から特徴量抽出をする場合にも、情報の損失が存在するという問題があった。
Conventionally, as a feature amount extraction process using RBM, a binary or a real value has been used as an input feature amount in either approach.
For example, when performing speech processing such as speech recognition and speech synthesis, acoustic features based on amplitude spectra such as Mel-Frequency Cepstrum Coefficients (MFCC), Mel-Frequency Cepstrum Coefficients, and STRAIGHT spectra are used. ing. However, in the acoustic feature amount extraction based on the amplitude spectrum, the phase information is missing, and there is not a little loss of information with respect to the original complex-numbered voice data.
Here, speech processing has been described as an example, but there is a problem that information loss exists even when feature quantity extraction is performed from other complex number information.
なお、非特許文献1には、ボルツマンマシンで複素数を使って特徴量を抽出する技術が記載されているが、この技術は、上述したRBMやDBNを適用したものではないため、特徴量の抽出がより精度よく行うことができる手法の開発が望まれていた。 Note that Non-Patent Document 1 describes a technique for extracting a feature amount using a complex number with a Boltzmann machine, but since this technique does not apply the above-mentioned RBM or DBN, the feature amount is extracted. It has been desired to develop a method that can be performed more accurately.
本発明は、複素数に対してRBMを適用し、精度の良い特徴抽出を行うことで、その特徴量抽出に基づいた良好な符号化ができる符号化装置、符号化方法およびプログラムを提供することを目的とする。 The present invention provides a coding device, a coding method, and a program capable of performing good coding based on the feature extraction by applying RBM to a complex number and performing feature extraction with high accuracy. The purpose.
本発明の符号化装置は、パラメータ学習ユニットと符号化ユニットとを備える。
パラメータ学習ユニットは、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを適用して、学習用データに対して、隠れ素子および結合重みを推定する処理を行う。
符号化ユニットは、符号化用入力データに対して、パラメータ学習ユニットで推定した制限ボルツマンマシンによる確率モデルを適用して、隠れ素子を推定し、推定した隠れ素子を符号化データとして出力する。
ここで、学習用データおよび符号化用入力データは複素数データであり、制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれていることを特徴とする。
The coding device of the present invention includes a parameter learning unit and a coding unit.
The parameter learning unit applies a probabilistic model based on a restricted Boltzmann machine that assumes that there is a coupling weight between the visible element that represents the input data and the hidden element that represents the potential information, and applies it to the training data. Then, the process of estimating the hidden element and the coupling weight is performed.
The coding unit applies a probability model by the restricted Boltzmann machine estimated by the parameter learning unit to the coding input data, estimates hidden elements, and outputs the estimated hidden elements as coding data.
Here, the training data and the coding input data are complex number data, and are characterized in that the energy function of the probability model by the restricted Boltzmann machine includes a cross-term of a real part and an imaginary part .
また本発明の符号化方法は、パラメータ学習処理と符号化処理とを含む。
パラメータ学習処理は、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを適用して、学習用データに対して、隠れ素子および結合重みを推定する処理を行う。
符号化処理は、符号化用入力データに対して、パラメータ学習処理で推定した制限ボルツマンマシンによる確率モデルを適用して、隠れ素子を推定し、推定した隠れ素子を符号化データとして出力する。
ここで、パラメータ学習処理で得られる学習用データと符号化処理で得られる符号化用入力データは複素数データであり、制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれていることを特徴とする。
Further, the coding method of the present invention includes a parameter learning process and a coding process.
The parameter learning process applies a probabilistic model based on a restricted Boltzmann machine that assumes that there is a coupling weight between the visible element that represents the input data and the hidden element that represents the potential information, and applies the probability model to the training data. Then, the process of estimating the hidden element and the coupling weight is performed.
In the coding process, a stochastic model by the restricted Boltzmann machine estimated by the parameter learning process is applied to the coding input data to estimate the hidden element, and the estimated hidden element is output as the coded data.
Here, the training data obtained by the parameter learning process and the coding input data obtained by the coding process are complex number data, and the energy function of the probability model by the restricted Boltzmann machine includes the cross-term of the real part and the imaginary part. It is characterized by being.
また本発明のプログラムは、複素数データで構成される学習用データおよび符号化用入力データを入力として、上述した符号化方法のパラメータ学習処理を実行するステップと、符号化処理を実行するステップをコンピュータに実行させるものである。 Further, in the program of the present invention, a computer performs a step of executing the parameter learning process of the above-mentioned coding method and a step of executing the coding process by inputting the learning data and the coding input data composed of complex number data. Is to be executed.
本発明によると、制限ボルツマンマシン(RBM)を複素数に拡張した複素RBMによる特徴量の抽出を行うことができ、高い精度で入力データから特徴量を抽出して符号化することが可能になるので、効率の良い符号化が行えるようになる。 According to the present invention, it is possible to extract the feature amount by the complex RBM which is an extension of the restricted Boltzmann machine (RBM) to a complex number, and it is possible to extract and encode the feature amount from the input data with high accuracy. , Efficient coding will be possible.
以下、本発明の好適な一実施の形態例について説明する。 Hereinafter, an example of a preferred embodiment of the present invention will be described.
[1.符号化装置の構成例]
図1は、本発明の一実施の形態例にかかる符号化装置の構成例を示す図である。図1に示すように、コンピュータ(PC)等により構成される符号化装置1は、パラメータ学習ユニット11と符号化処理ユニット12とを備える。
パラメータ学習ユニット11は、符号化を行うデータと同じ種類のデータについて事前に学習処理を行い、符号化に必要なパラメータを得る。符号化処理ユニット12は、その学習処理で得たパラメータを使って、入力データ(符号化用データ)の符号化を行う。
符号化を行う入力データとしては、音声データ、画像データなど様々なデータが適用可能である。但し、後述するように本実施の形態例で扱う学習データおよび入力データは複素数データである。
[1. Configuration example of coding device]
FIG. 1 is a diagram showing a configuration example of a coding device according to an embodiment of the present invention. As shown in FIG. 1, the coding device 1 configured by a computer (PC) or the like includes a
The
As the input data to be encoded, various data such as voice data and image data can be applied. However, as will be described later, the learning data and the input data handled in this embodiment are complex number data.
パラメータ学習ユニット11は、複素数データ取得部111と前処理部112とパラメータ推定部113とを備える。複素数データ取得部111には、学習用複素数データが供給される。複素数データ取得部111で取得した学習用複素数データは、前処理部112で前処理が行われた後、パラメータ推定部113に供給される。
例えば、複素数データ取得部111で取得される学習用複素数データが音声データの場合には、前処理部112は、学習用の音声データを単位時間ごと(以下、フレームという)に切り出して、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算し、これを正規化する。なお、この前処理部112での処理で学習用データを複素数データに変換してもよい。
The
For example, when the learning complex number data acquired by the complex number
パラメータ推定部113は、可視素子推定部1131と隠れ素子推定部1132とによって構成される確率モデルを持つ。本実施の形態例では、可視素子推定部1131および隠れ素子推定部1132で構成される確率モデルとして、RBMを複素数に拡張した複素RBM(Complex RBM)を使用する。なお、複素RBMの確率モデルは、可視素子および隠れ素子の他に、素子間の結合重みの情報についても有し、パラメータ推定部113は、この結合重みの情報についても推定して持つ。この複素RBMの詳細については後述する。
The
符号化処理ユニット12は、複素数データ取得部121と前処理部122と符号化部123とを備える。
複素数データ取得部121には、符号化用複素数データが供給される。複素数データ取得部121で取得された符号化用複素数データは、前処理部122で前処理が行われた後、符号化部123に供給される。
前処理部122は、パラメータ学習ユニット11の前処理部112と同じ構成である。この前処理部122における処理により、符号化用データを複素数データに変換してもよい。
The
The complex number
The
符号化部123は、パラメータ学習ユニット11のパラメータ推定部113と同じ構成であり、可視素子推定部1231で得た可視素子と隠れ素子推定部1232で得た隠れ素子とによって構成される複素RBMの確率モデルを備える。可視素子推定部1231および隠れ素子推定部1232で、可視素子および隠れ素子を推定する際には、パラメータ学習ユニット11のパラメータ推定部113で推定したパラメータが利用される。
The
符号化装置1は、符号化部123の隠れ素子推定部1232で推定された隠れ素子を、符号化データとして外部に出力する。
なお、図1に示す構成では、学習処理を行うパラメータ推定部113と、入力データの符号化処理を行う符号化部123を個別の構成としたが、パラメータ推定部113と符号化部123は、ほぼ同じ機能を有しており、パラメータ推定部113で符号化部123の処理を行うようにしてもよい。複素数データ取得部111,121や前処理部112,122についても共通化してもよい。
The coding device 1 outputs the hidden element estimated by the hidden
In the configuration shown in FIG. 1, the
図2は、符号化装置1のハードウェア構成例を示す図である。ここでは、符号化装置1をコンピュータ(PC)で構成した例を示す。
図2に示すように、符号化装置1は、バス107を介して相互に接続されたCPU(中央制御ユニット:Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)/SSD(Solid State Drive)104、接続I/F(Interface)105、通信I/F106を備える。CPU101は、RAM103をワークエリアとしてROM102またはHDD/SSD104等に格納されたプログラムを実行することで、符号化装置1の動作を統括的に制御する。接続I/F105は、符号化装置1に接続される機器とのインターフェースである。通信I/Fは、ネットワークを介して他の情報処理機器と通信を行うためのインターフェースである。
FIG. 2 is a diagram showing a hardware configuration example of the coding device 1. Here, an example in which the coding device 1 is configured by a computer (PC) is shown.
As shown in FIG. 2, the coding apparatus 1 has a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, and a RAM (Random Access Memory) 103, which are connected to each other via a
学習用データや符号化用データの入出力および設定は、接続I/F105または通信I/F106を介して行われる。図1で説明した符号化装置1の機能は、CPU101において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得してもよく、ネットワークを経由して取得してもよく、ROMに組み込んで使用してもよい。また、一般的なコンピュータとプログラムの組合せでなく、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの論理回路を組むことで、符号化装置1の構成を実現するためのハードウェア構成にしてもよい。
The input / output and setting of the learning data and the coding data are performed via the connection I /
[2.複素RBMの定義]
次に、パラメータ推定部113および符号化部123が持つ確率モデルである、複素RBMについて説明する。
RBMは、入力データを表現する可視素子と、潜在的な情報を表現する隠れ素子の間に双方向の接続重みが存在する(ただし可視素子間または隠れ素子間には接続はない)と仮定した確率モデルであり、複素RBMは、実部と虚部を持つ複素数にRBMを拡張したものである。
図3は、本実施の形態例の複素RBMのグラフ表現例を示す。
図3の例は、複素数となるI次元のデータz∈CIを可視素子とする複素RBMのモデルを示す。
図3において、zは可視素子、hは隠れ素子、W′は可視素子zと隠れ素子hとの間の双方向結合重みであり、b′は可視素子zのバイアス、cは隠れ素子hのバイアス、qは共役を示す。また、各符号の上に付けた線(オーバーライン)は複素共役を示す。
[2. Definition of complex RBM]
Next, the complex RBM, which is a probabilistic model of the
The RBM has assumed that there is a bidirectional connection weight between the visible element representing the input data and the hidden element representing the potential information (although there is no connection between the visible or hidden elements). It is a stochastic model, and the complex RBM is an extension of the RBM to a complex number having a real part and an imaginary part.
FIG. 3 shows a graph representation example of the complex RBM of the present embodiment.
The example of FIG. 3 shows a model of a complex RBM whose visible element is I -dimensional data z ∈ CI which is a complex number.
In FIG. 3, z is a visible element, h is a hidden element, W'is a bidirectional coupling weight between the visible element z and the hidden element h, b'is the bias of the visible element z, and c is the hidden element h. Bias, q indicates conjugation. The line (overline) attached above each sign indicates the complex conjugate.
この複素RBMは、次の[数1]式~[数4]式で定義される。ここでは、I次元のデータz∈CIを可視素子とし、確率モデルのパラメータの集合をθとし、上付きのHはエルミート転置を示す。 This complex RBM is defined by the following equations [Equation 1] to [Equation 4]. Here, the I -dimensional data z ∈ CI is a visible element, the set of parameters of the probability model is θ, and the superscript H indicates the Hermitian transpose.
また、[数3]式のΦは、[数5]式で定義され、[数5]式で定義される複素数Zの分散と疑似分散(共役複素数との共分散)を表すパラメータは、[数6]式で定義される。ただし、Δは入力されたベクトルが対角成分となる対角行列を返す関数である。 Further, Φ in the equation [Equation 3] is defined by the equation [Equation 5], and the parameter representing the variance and pseudo-variance (covariance with the conjugate complex number) of the complex number Z defined in the equation [Equation 5] is [. It is defined by the equation [Equation 6]. However, Δ is a function that returns a diagonal matrix in which the input vector is a diagonal component.
結局、複素RBMのパラメータは、θ={b、c、W、γ、δ}となる。ここで、[数7]式および[数8]式を導入する。但し、[数7]式および[数8]式において、分数線は要素除算を表す。 After all, the parameter of the complex RBM is θ = {b, c, W, γ, δ}. Here, the [Equation 7] equation and the [Equation 8] equation are introduced. However, in the [Equation 7] and [Equation 8] equations, the fractional line represents element division.
これより、[数9]式となる。 From this, it becomes the formula [Equation 9].
[数3]式で定義されるエネルギー関数は、[数10]式に書き直すことができる。Rは入力された複素数の実部を返す関数である。 The energy function defined by the equation [Equation 3] can be rewritten into the equation [Equation 10]. R is a function that returns the real part of the input complex number.
ここで、エネルギー関数は実数値となる。複素可視素子zの各次元は共役複素数との結合が存在するが、通常のRBM(複素でないRBM)のように次元間の結合は存在しないことが確認できる。さらに、次の[数11]式および[数12]式を用いることで、[数3]式は[数13]式となる。 Here, the energy function is a real value. It can be confirmed that each dimension of the complex visible element z has a coupling with a conjugate complex number, but there is no coupling between dimensions like a normal RBM (non-complex RBM). Further, by using the following [Equation 11] and [Equation 12] equations, the [Equation 3] equation becomes the [Equation 13] equation.
この[数13]式から、図3に示すように、zとh、z(-)とhの関係性は、互いに共役空間を挟んで鏡像の関係にあることが分かる。なお、本明細書中に示す「z(-)」の「(-)」は、複素共役を示すオーバーラインであり、本来は、図2に示すように「-」が「z」の上に付加されるものであるが、本明細書では記載上の制約から「z(-)」と記載することとする。他の記号に付加されるオーバーラインについても、本明細書では同様に記載する。
以上の定義から、隠れ素子が与えられたときの可視素子の条件付き確率、および可視素子が与えられたときの隠れ素子の条件付き確率は、それぞれ[数14]式および[数15]式で表すことができる。
From this equation [Equation 13], as shown in FIG. 3, it can be seen that the relationship between z and h and the relationship between z ( − ) and h are mirror images of each other with the conjugate space in between. The "( - )" of "z ( - )" shown in the present specification is an overline indicating complex conjugate, and originally, "-" is above "z" as shown in FIG. Although it is added, in this specification, it is described as "z ( - )" due to the limitation of description. Overlines added to other symbols are described herein as well.
From the above definitions, the conditional probability of the visible element when the hidden element is given and the conditional probability of the hidden element when the visible element is given are given by the equations [Equation 14] and [Equation 15], respectively. Can be represented.
但し、CN(・;μ,Γ,C)は平均μ、分散共分散行列Γ、疑似分散共分散行列Cの多変量複素正規分布である[数16]式および[数17]式で定義される。B(・;π)は成功確率πの多次元ベルヌーイ分布を表す。f(・)は要素ごとのシグモイド関数を表す。Dはzの次元数である。 However, CN (・; μ, Γ, C) is defined by the [Equation 16] and [Equation 17] equations, which are multivariate complex normal distributions of the mean μ, the variance-covariance matrix Γ, and the pseudovariance-covariance matrix C. To. B (・; π) represents a multidimensional Bernoulli distribution with a success probability of π. f (・) represents a sigmoid function for each element. D is the number of dimensions of z.
[3.学習処理動作および符号化処理動作]
次に、本実施の形態例の複素RBMを適用して行われる符号化処理について説明する。
図4は、パラメータ学習ユニット11が行うパラメータ学習動作の流れを示すフローチャートである。
まず、複素数データ取得部111が学習用の複素数データを取得し(ステップS11)、前処理部112がその複素数データの前処理を実行する(ステップS12)。例えば、複素数データ取得部111は、学習用のデータが音声データである場合には、学習用音声データをフレームごと(例えば、5msecごと)に切り出し、切り出された学習用音声信号にFFT処理などを施すことでスペクトル特徴量(例えば、MFCCやメルケプストラム特徴量)を算出する。なお、この前処理にて学習用データを複素数データとしてもよい。
[3. Learning processing operation and coding processing operation]
Next, the coding process performed by applying the complex RBM of the present embodiment will be described.
FIG. 4 is a flowchart showing the flow of the parameter learning operation performed by the
First, the complex number
次に、前処理が施された複素数データがパラメータ推定部113に供給され、パラメータ推定部113は、複素数データのパラメータ学習処理を行う(ステップS13)。ステップS13で行われるパラメータ学習処理の詳細については後述する(図6)。
このパラメータ学習処理で複素RBMのモデルが持つ各パラメータが決定され、記憶される。そして、記憶されたパラメータが、パラメータを符号化部123に引き渡されて、符号化部123で符号化される(ステップS14)。
Next, the preprocessed complex number data is supplied to the
In this parameter learning process, each parameter of the complex RBM model is determined and stored. Then, the stored parameter is passed to the
図5は、符号化処理ユニット12が行う符号化処理の流れを示すフローチャートである。
まず、複素数データ取得部121が符号化用複素数データを取得し(ステップS21)、前処理部122がその複素数データの前処理を実行する(ステップS22)。ここでの前処理は、前処理部112が行うステップS12での前処理と同じである。なお、先に前処理部112の構成で述べたように、この前処理によって、入力データを複素数データとしてもよい。
FIG. 5 is a flowchart showing the flow of the coding process performed by the
First, the complex number
前処理が施された複素数データは符号化部123に供給され、符号化部123は、ステップS14で引き渡された複素RBMのモデルが持つパラメータを使って隠れ素子を推定するとともに、符号化処理を行う(ステップS23)。ステップS23で行われる符号化処理の詳細については後述する(図7)。そして、符号化処理ユニット12は、ステップS23で得られた隠れ素子を符号化データとして出力する(ステップS24)。
The preprocessed complex number data is supplied to the
図6は、図4のステップS13で行われるパラメータ学習処理の詳細を示すフローチャートである。
まず、パラメータ推定部113は、複素RBMのモデルが持つパラメータとして任意の値を設定する(ステップS31)。次に、パラメータ推定部113の可視素子推定部1131に、前処理が施された学習用複素数データを入力する(ステップS32)。
その後、パラメータ推定部113は、複素RBMのモデルの隠れ素子の確率値を計算し、計算値をサンプリングする(ステップS33)。なお、ここで「サンプリングする」とは、条件付き確率密度関数に従うデータをランダムに1つ生成することをいい、以下、同じ意味で用いる。
FIG. 6 is a flowchart showing the details of the parameter learning process performed in step S13 of FIG.
First, the
After that, the
また、パラメータ推定部113は、複素RBMのモデルの可視素子の確率値を計算し、計算値をサンプリングし(ステップS34)、その後、複素RBMのモデルの隠れ素子の確率値を再度計算し、計算値を再サンプリングする(ステップS35)。そして、パラメータ推定部113は、ここまでの計算で得られた各種パラメータを、複素RBMのモデルを構成するパラメータとして更新し、更新値を記憶する(ステップS36)。
Further, the
ステップS36でパラメータを更新した後、パラメータ推定部113は、パラメータ学習処理の終了条件を満足したか否か判断し(ステップS37)、終了条件を満足しないと判断した場合には(ステップS37のNO)、ステップS31に戻り、ここまでの処理を繰り返す。また、ステップS37で終了条件を満足したと判断した場合には(ステップS37のYES)、パラメータ推定部113は、パラメータ学習処理を終了する。なお、ステップS37での終了条件としては、例えば、これら一連のステップの繰り返し数が挙げられる。
After updating the parameters in step S36, the
図7は、図5のステップS33で行われる符号化処理の詳細を示すフローチャートである。
まず、符号化部123は、パラメータ推定部113から引き渡されたパラメータを設定する(ステップS41)。次に、符号化部123の可視素子推定部1231に、前処理が施された符号化用複素数データを入力する(ステップS42)。
その後、符号化部123の隠れ素子推定部1232は、複素RBMのモデルの隠れ素子を計算し、推定した隠れ素子を符号化データとして出力する(ステップS43)。
FIG. 7 is a flowchart showing details of the coding process performed in step S33 of FIG.
First, the
After that, the hidden
次に、具体的な学習処理および符号化処理で行われる、複素RBMのモデルのパラメータ推定処理を、数式を用いて説明する。
パラメータ推定では、次の[数18]式で示される、入力データ(可視データ)zの対数尤度L(θ)を最大化するように、複素RBMのパラメータを複素勾配法によって更新する。チルダ付きの変数は、チルダ無しの変数と区別するために導入した。
Next, the parameter estimation process of the complex RBM model, which is performed in the specific learning process and the coding process, will be described using mathematical formulas.
In the parameter estimation, the parameters of the complex RBM are updated by the complex gradient method so as to maximize the log-likelihood L (θ) of the input data (visible data) z represented by the following equation [Equation 18]. Variables with tildes were introduced to distinguish them from variables without tildes.
複素勾配法は、学習率α>0を用いて、[数19]式の計算を繰り返し実行することでパラメータを更新する。 In the complex gradient method, the parameters are updated by repeatedly executing the calculation of the equation [Equation 19] using the learning rate α> 0.
但し、[数19]式における複素数の偏微分は、[数20]式に示すウェルティンガーの微分である。ここでのiは、虚数単位である。[数20]式右辺第一項、第二項はそれぞれ、対数尤度Lの、パラメータθの実部に関する偏微分、虚部に関する偏微分を表す。 However, the partial derivative of the complex number in the equation [Equation 19] is the derivative of Weltinger shown in the equation [Equation 20]. Here, i is an imaginary unit. [Equation 20] The first and second terms on the right side of the equation represent the partial differential of the log-likelihood L with respect to the real part and the partial differential with respect to the imaginary part of the parameter θ, respectively.
各パラメータの偏微分には、観測データ(入力データ)に対する期待値およびモデルの期待値の項が含まれる。モデルの期待値は、計算困難であるため、従来のRBMで計算する場合と同様に、CD法(Contrastive Divergence法)を用いて近似計算する。
エネルギー関数に対するパラメータの偏微分は、解析的に求めることができ、それぞれ[数21]式~[数25]式に示すようになる。
The partial derivative of each parameter includes terms for the expected value for the observed data (input data) and the expected value of the model. Since the expected value of the model is difficult to calculate, it is approximately calculated using the CD method (Contrastive Divergence method) in the same manner as in the case of calculating with the conventional RBM.
The partial differential of the parameter with respect to the energy function can be obtained analytically, and is shown in the equations [Equation 21] to [Equation 25], respectively.
但し、○,|・|,・2は、それぞれ要素ごとの積、絶対値、および二乗を表し、次の[数26]式および[数27]式で示される。 However, ◯, |, |, and 2 represent the product, the absolute value, and the square of each element, respectively, and are represented by the following equations [Equation 26] and [Equation 27].
分散および疑似分散の更新は、他のパラメータと比較してスケールが異なるため、安定して学習させるために、実際には、[数28]に示すように置き換え、rおよびsでパラメータ更新を行う。 Since the variance and pseudo-variance updates have different scales compared to other parameters, in order to train them stably, they are actually replaced as shown in [Equation 28], and the parameters are updated with r and s. ..
[4.復号化装置の構成および動作]
図8は、本発明の一実施形態例に係る符号化装置1に対応する復号化装置2の構成例を示したものである。
復号化装置2は、符号化装置1で得られた符号化データを復号化するものであり、例えばコンピュータで構成される。なお、復号化装置2は、符号化装置1と一体化してもよい。
復号化装置2は、パラメータ学習ユニット11と復号化処理ユニット13とを備える。
パラメータ学習ユニット11は、符号化装置1のパラメータ学習ユニット11と同じであり、パラメータ推定部113として、学習処理で得た可視素子および隠れ素子推定する可視素子推定部1131および隠れ素子推定部1132を備える。
[4. Decryptor configuration and operation]
FIG. 8 shows a configuration example of the decoding device 2 corresponding to the coding device 1 according to the embodiment of the present invention.
The decoding device 2 decodes the coded data obtained by the coding device 1, and is configured by, for example, a computer. The decoding device 2 may be integrated with the coding device 1.
The decoding device 2 includes a
The
復号化処理ユニット13には、符号化装置1で得られた符号化データが供給される。復号化処理ユニット13は、復号化部131を備える。復号化部131は、可視素子推定部1311と隠れ素子推定部1312とを有し、複素RBMのモデルのパラメータをパラメータ推定部113から取得する。
隠れ素子推定部1312は、入力した符号化データを隠れ素子とする。そして、可視素子推定部1311は、複素RBMのモデルのパラメータを使った演算により、可視素子の推定値を得る。この可視素子の推定値は、後処理部132に供給され、後処理部132で後処理が行われる。後処理部132では、例えば符号化装置1の前処理部122での前処理を元に戻す処理が行われる。
そして、出力部133は、後処理が行われた復号化データを出力する。
The coding data obtained by the coding device 1 is supplied to the
The hidden
Then, the
図9は、復号化装置2での復号化の流れを示すフローチャートである。
復号化装置2は、復号化する符号化データを取得すると(ステップS51)、復号化処理ユニット13が復号化処理を行う。復号化処理の詳細は後述する(図10)。
復号化処理ユニット13での処理で得られたデータは、後処理部132に供給されて後処理が行われ(ステップS52)、後処理されたデータが出力部133から復号化データとして出力される(ステップS53)。
FIG. 9 is a flowchart showing the flow of decoding by the decoding device 2.
When the decoding device 2 acquires the coded data to be decoded (step S51), the
The data obtained by the processing in the
図10は、図9のフローチャートのステップS52での復号化処理の詳細を示す。
まず、復号化部131は、パラメータ学習ユニット11から引き渡された複素RBMのモデルの各種パラメータを設定する(ステップS61)。ここでは、復号化する符号化データを符号化する際に用いたパラメータ(図1に示す符号化装置1での符号化時に使用したパラメータ)をパラメータ学習ユニット11から取得して設定する。そして、復号化部131の隠れ素子推定部1312に、符号化データを入力する(ステップS62)。そして、可視素子推定部1311が、複素RBMのモデルを使って可視素子(復号化データ)を推定する(ステップS63)。
このようにして、符号化とは逆の流れで、符号化データの復号化が可能となる。
FIG. 10 shows the details of the decoding process in step S52 of the flowchart of FIG.
First, the
In this way, the coded data can be decoded in the reverse flow of the coding.
[5.複素RBMと従来手法(GB-RBM)との相違]
複素数z=x+iyは、実部と虚部の連結ベクトルであるz′=[xTyT]T∈R2Iを用いることで、従来手法の一つであるGB-RBM(Gaussian-Bernoulli RBM)で表現することもできる。GB-RBMは、次の[数29]式~[数32]式で示される。
[5. Differences between complex RBM and conventional method (GB-RBM)]
The complex number z = x + iy is GB-RBM (Gaussian-Bernoulli RBM), which is one of the conventional methods, by using z'= [x T y T ] T ∈ R 2I , which is a connecting vector of the real part and the imaginary part. It can also be expressed by. GB-RBM is represented by the following equations [Equation 29] to [Equation 32].
但し、Σx=Δ(σx 2),Σy=Δ(σy 2)である。この場合、例えばエネルギー関数に対する実部および虚部のバイアスパラメータの偏微分はそれぞれ、[数33]式および[数34]式で示される。 However, Σ x = Δ (σ x 2 ) and Σ y = Δ (σ y 2 ). In this case, for example, the partial differentials of the bias parameters of the real part and the imaginary part with respect to the energy function are shown by the equations [Equation 33] and [Equation 34], respectively.
一方で、z=x+iy,b=bR+ibI,W=WR+iWI,q=qR+iqIとし、複素RBMのエネルギー関数([数3]式の右辺)を書き換えると、[数35]式となる。 On the other hand, if z = x + iy, b = b R + ib I , W = WR + iWI , q = q R + iq I , and the energy function of the complex RBM (the right side of the equation [Equation 3]) is rewritten, [Equation 35] ] Expression.
但し、次の[数36]式~[数42]式で示す条件を設定した。 However, the conditions shown in the following equations [Equation 36] to [Equation 42] were set.
ここで、[数31]式と[数35]式を比較すると、本実施の形態例による複素RBMによるモデル化では、xとyのクロスターム(xTΣxy
-1y)が含まれていることが分かる。すなわち、複素RBMでは、従来手法の1つであるGB-RBMによる複素表現に加えて、特徴量次元ごとに実部と虚部との関係性を考慮した拡張表現であると言える。
さらに、GB-RBMによる複素表現では、[数33]式,[数34]式で示されるように、観測データの実部と虚部のバイアスがそれぞれ独立して計算(例えば実部バイアスの更新では実部のみの情報が用いられ)されるのに対して、複素RBMのバイアスパラメータの更新式([数21]式)では、実部と虚部の両方が用いられて更新される。そのため、本実施の形態例による複素RBMによるモデル化では、複素数のデータ構造を保ったまま学習を行うことができる。
Here, when the equation [Equation 31] and the equation [Equation 35] are compared, the cross-term of x and y (x T Σ xy -1 y) is included in the modeling by the complex RBM according to the embodiment of the present embodiment. You can see that there is. That is, it can be said that the complex RBM is an extended expression that considers the relationship between the real part and the imaginary part for each feature dimension, in addition to the complex expression by GB-RBM, which is one of the conventional methods.
Furthermore, in the complex representation by GB-RBM, the biases of the real part and the imaginary part of the observed data are calculated independently (for example, updating the real part bias) as shown by the equations [Equation 33] and [Equation 34]. In (the information of only the real part is used), in the update formula of the bias parameter of the complex RBM ([Equation 21] formula), both the real part and the imaginary part are used and updated. Therefore, in the modeling by the complex RBM according to the embodiment of the present embodiment, the learning can be performed while maintaining the data structure of the complex number.
[6.実験例]
次に、本実施の形態例による複素RBMによるモデルの有効性を検証するために実験した例について説明する。
ここでは、本実施の形態例による複素RBMによるモデルの有効性を確認するため、音声データの符号化を行い、その符号化音声の品質評価実験を行った。具体的には、Repeated Harvard Sentence Prompts (REHASP)2コーパスを用いた再構築音声の品質評価実験を行い、同コーパスから1リピート分の音声(30センテンス,約20秒,サンプリングレート16kHz)を使用した。そして、窓幅256,64サンプルオーバーラップの短時間フーリエ変換を施した複素スペクトル(129次元)を可視素子として、隠れ素子数200の複素RBMを学習させた。この際、学習率0.01、モーメント係数0.1、バッチサイズ100、繰り返し回数100の確率的勾配法を用いた。また、比較手法として、同じ複素スペクトルデータの実部と虚部を連結したベクトルを可視素子としたGB-RBM(隠れ素子数は200)を、同様の条件で学習させた。
[6. Experimental example]
Next, an example experimented to verify the validity of the model by the complex RBM according to the present embodiment will be described.
Here, in order to confirm the validity of the model by the complex RBM according to the embodiment of the present embodiment, voice data was coded and a quality evaluation experiment of the coded voice was performed. Specifically, we conducted a quality evaluation experiment of reconstructed speech using the Repeated Harvard Sentence Prompts (REHASP) 2 corpus, and used one repeat of speech (30 sentences, about 20 seconds, sampling rate 16 kHz) from the corpus. .. Then, a complex RBM having 200 hidden elements was trained using a complex spectrum (129 dimensions) subjected to a short-time Fourier transform with a window width of 256,64 sample overlap as a visible element. At this time, a stochastic gradient descent method with a learning rate of 0.01, a moment coefficient of 0.1, a batch size of 100, and a number of repetitions of 100 was used. Further, as a comparison method, GB-RBM (the number of hidden elements is 200) in which a vector connecting the real part and the imaginary part of the same complex spectrum data is used as a visible element was trained under the same conditions.
図11は、符号化前のオリジナルの振幅スペクトル(図11A)と、本実施の形態例による複素RBMによるモデルによって復元されたスペクトル(図11B)とを比較した図である。図11において、それぞれ縦軸は周波数、横軸は時間を示す。この図11から分かるように、本実施の形態例による複素RBMによるモデルによって復元されたスペクトルは、オリジナルのスペクトルに近く、本実施の形態例による複素RBMは、高い精度で音声スペクトルのエンコードおよびデコードが可能であることが確認できる。 FIG. 11 is a diagram comparing the original amplitude spectrum before coding (FIG. 11A) with the spectrum restored by the model by the complex RBM according to the embodiment of the present embodiment (FIG. 11B). In FIG. 11, the vertical axis represents frequency and the horizontal axis represents time. As can be seen from FIG. 11, the spectrum restored by the model by the complex RBM according to the present embodiment is close to the original spectrum, and the complex RBM according to the present embodiment encodes and decodes the voice spectrum with high accuracy. Can be confirmed to be possible.
図12は、本実施の形態例による複素RBM(Comp RBM)と、従来のRBM(GB-RBM)とを、学習中の再構築エラーによって比較した様子を示し、縦軸は再構築エラーの数、横軸は時系列の変化を示す。「Adam」または「Ada Grad」は最適化手法にそれぞれAdamまたはAda Gradを使用した場合の結果であり、表記のないものは最適化手法に確率的勾配法を用いた場合の結果を示す。
図12では、複素RBM(Comp RBM)を単独で適用した例と、他の方式と組み合わせた例(Comp RBM+Ada Grad、Comp RBM+Adam)と、従来のRBMを単独で適用した例と、他の方式と組み合わせた例(RBM+Ada Grad、RBM+Adam)との6つの例を示す。
例えば、複素RBMにAdamを組み合わせた例[Comp RBM+Adam:太い実線]の特性は、従来のRBMにAdamを組み合わせた例[RBM+Adam:細い実線]の特性よりも早く収束し、収束時のエラーも低いことが分かる。複素RBMのみを適用した例[Comp RBM:2点鎖線]の特性についても、従来のRBMのみを適用した例[RBM:1点鎖線]の特性よりも早く収束し、収束時のエラーも低いことが分かる。
FIG. 12 shows a comparison between the complex RBM (Comp RBM) according to the present embodiment and the conventional RBM (GB-RBM) based on the reconstruction error during learning, and the vertical axis indicates the number of reconstruction errors. , The horizontal axis shows the change over time. "Adam" or "Ada Grad" is the result when Adam or Ada Grad is used as the optimization method, respectively, and the one without notation shows the result when the stochastic gradient descent method is used as the optimization method.
In FIG. 12, an example in which a complex RBM (Comp RBM) is applied alone, an example in which it is combined with another method (Comp RBM + Ada Grad, Comp RBM + Adam), an example in which a conventional RBM is applied alone, and another method are shown. Six examples with combined examples (RBM + Ada Grad, RBM + Adam) are shown.
For example, the characteristics of the example of combining Adam with complex RBM [Comp RBM + Adam: thick solid line] converge faster than the characteristics of the example of combining Adam with conventional RBM [RBM + Adam: thin solid line], and the error at the time of convergence is low. You can see that. The characteristics of the example [Comp RBM: two-dot chain line] to which only the complex RBM is applied also converge faster than the characteristics of the example [RBM: one-dot chain line] to which only the conventional RBM is applied, and the error at the time of convergence is low. I understand.
[7.変形例]
なお、図3に示す複素RBMのモデルは、1層のRBMの構成を示したが、RBMを多層に積み重ねたDBN(Deep Belief Net) に、本発明の複素RBMを適用してもよい。
図13は、複素RBMを3層化した例を示す。
実部は、可視素子zから1層目の隠れ符号h1と、その隠れ素子hのバイアスc1を得る。虚部は、可視素子z(-)から1層目の隠れ符号h1と、その隠れ素子hのバイアスc1を得る。W1′およびW1′(-)は、可視素子zと隠れ素子h1との間の双方向結合重みである。
1層目の実部の隠れ符号h1およびバイアスc1から、2層目の隠れ符号h2およびバイアスc2を得、1層目の実部の隠れ符号h1およびバイアスc1から、2層目の隠れ符号h2およびバイアスc2を得る。W2′およびW2′(-)は隠れ素子h1と隠れ素子h2との間の双方向結合重みである。
さらに、2層目の実部の隠れ符号h2およびバイアスc2から、3層目の隠れ符号h3およびバイアスc3を得、2層目の実部の隠れ符号h2およびバイアスc2から、3層目の隠れ符号h3およびバイアスc3を得る。W3′およびW3′(-)は隠れ素子h2と隠れ素子h3との間の双方向結合重みである。
このように、多層化した複素RBMによっても、同様に符号化および復号化ができるようになる。
[7. Modification example]
Although the model of the complex RBM shown in FIG. 3 shows the configuration of a single layer RBM, the complex RBM of the present invention may be applied to a DBN (Deep Belief Net) in which RBMs are stacked in multiple layers.
FIG. 13 shows an example in which the complex RBM is three-layered.
The real part obtains the hidden code h 1 of the first layer from the visible element z and the bias c 1 of the hidden element h. The imaginary portion obtains the hidden code h 1 of the first layer from the visible element z ( − ) and the bias c 1 of the hidden element h. W 1 ′ and W 1 ′ ( − ) are bidirectional coupling weights between the visible element z and the hidden element h 1 .
From the hidden sign h 1 and the bias c 1 of the real part of the first layer, the hidden sign h 2 and the bias c 2 of the second layer are obtained, and from the hidden sign h 1 and the bias c 1 of the real part of the first layer, 2 The hidden sign h 2 and the bias c 2 of the layer are obtained. W 2 ′ and W 2 ′ ( − ) are bidirectional coupling weights between the hidden element h 1 and the hidden element h 2 .
Further, from the hidden code h 2 and the bias c 2 of the real part of the second layer, the hidden code h 3 and the bias c 3 of the third layer are obtained, and from the hidden code h 2 and the bias c 2 of the real part of the second layer. The hidden sign h 3 and the bias c 3 of the third layer are obtained. W 3 ′ and W 3 ′ ( − ) are bidirectional coupling weights between the hidden element h 2 and the hidden element h 3 .
In this way, even with the multi-layered complex RBM, coding and decoding can be performed in the same manner.
また、上述した実施の形態例では、実験例として音声データに適用した場合を説明したが、本発明による複素RBMは、他の様々の信号の符号化および復号化に適用が可能である。例えば画像データの符号化および復号化に本発明による複素RBMを適用してもよい。さらに、本発明による複素RBMは、音声データや画像データ以外のデータの符号化および復号化に適用してもよい。 Further, in the above-described embodiment, the case of applying to voice data has been described as an experimental example, but the complex RBM according to the present invention can be applied to coding and decoding of various other signals. For example, the complex RBM according to the present invention may be applied to the coding and decoding of image data. Further, the complex RBM according to the present invention may be applied to coding and decoding of data other than audio data and image data.
1・・・符号化装置、2・・・復号化装置、11・・・パラメータ学習ユニット、12・・・符号化処理ユニット、13・・・復号化処理ユニット、101・・・CPU(中央制御ユニット)、102・・・ROM、103・・・RAM、104・・・HDD/SDD、105・・・接続I/F、106・・・通信I/F、111,121・・・複素数データ取得部、112,122・・・前処理部、113・・・パラメータ推定部、123・・・符号化部、131・・・復号化部、132・・・後処理部、133・・・出力部、1131,1231,1311・・・可視素子推定部、1132,1232,1312・・・隠れ素子推定部
1 ... Coding device, 2 ... Decoding device, 11 ... Parameter learning unit, 12 ... Coding processing unit, 13 ... Decoding processing unit, 101 ... CPU (central control) Unit), 102 ... ROM, 103 ... RAM, 104 ... HDD / SDD, 105 ... Connection I / F, 106 ... Communication I / F, 111, 121 ... Complex number
Claims (5)
符号化用入力データに対して、前記パラメータ学習ユニットで推定した前記制限ボルツマンマシンによる確率モデルを適用して、前記隠れ素子を推定し、推定した前記隠れ素子を符号化データとして出力する符号化ユニットとを備え、
前記学習用データおよび前記符号化用入力データは複素数データであり、前記制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれている
符号化装置。 The hidden element is applied to the learning data by applying a probabilistic model by a restricted Boltzmann machine assuming that there is a coupling weight between the visible element representing the input data and the hidden element expressing the potential information. And a parameter learning unit that performs processing to estimate the connection weight,
A coding unit that estimates the hidden element by applying the probability model by the restricted Boltzmann machine estimated by the parameter learning unit to the input data for coding, and outputs the estimated hidden element as coding data. And with
The training data and the coding input data are complex number data, and the energy function of the probability model by the restricted Boltzmann machine includes a cross-term of a real part and an imaginary part.
Coding device.
請求項1に記載の符号化装置。 The probability model by the restricted Boltsman machine has a visible element z composed of I-dimensional data z ∈ CI and a hidden element h, the parameter set of the model is θ, and the parameters constituting the parameter set θ are b, c, and so on. W, γ, and δ, the bias of the visible element is b ∈ CI, the bias of the hidden element is c ∈ RJ, the complex conjugate weight between the visible element and the hidden element is W ∈ CI × J, and the overline of each sign is Complex conjugate, H is defined by the following equation when it is Hermitian translocation.
The coding device according to claim 1.
請求項1~2のいずれか1項に記載の符号化装置。 The coding device according to any one of claims 1 to 2, further comprising a decoding processing unit for decoding the coded data obtained by the coding unit.
符号化用入力データに対して、前記パラメータ学習処理で推定した前記制限ボルツマンマシンによる確率モデルを適用して、前記隠れ素子を推定する処理を演算処理部が実行し、推定した前記隠れ素子を符号化データとして出力する符号化処理と、
を含み、
前記パラメータ学習処理で得られる前記学習用データと前記符号化処理で得られる前記符号化用入力データは複素数データであり、前記制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれている
符号化方法。 The hidden element is applied to the learning data by applying a probabilistic model by a restricted Boltzmann machine assuming that there is a coupling weight between the visible element representing the input data and the hidden element expressing the potential information. And the parameter learning process in which the arithmetic processing unit executes the process of estimating the join weight, and
The arithmetic processing unit executes the process of estimating the hidden element by applying the probability model by the restricted Boltzmann machine estimated by the parameter learning process to the input data for coding, and the estimated hidden element is coded. Coding processing to output as conversion data and
Including
The learning data obtained by the parameter learning process and the coding input data obtained by the coding process are complex number data, and the cross-term of the real part and the imaginary part in the energy function of the probability model by the restricted Boltzmann machine. It is included
Coding method.
前記入力データに対して、前記パラメータ学習ステップで推定した制限ボルツマンマシンによる確率モデルを適用して、前記隠れ素子を推定し、推定した前記隠れ素子を、複素数データである符号化データとして出力する符号化ステップとを、含み、
前記制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれている
前記各ステップをコンピュータに実行させるプログラム。 The hidden element is applied to the input data by applying a probabilistic model by a restricted Boltzmann machine assuming that there is a coupling weight between the visible element representing the input data and the hidden element expressing the potential information. And the parameter learning step of obtaining the training data which is the complex number data by performing the process of estimating the connection weight.
A code that estimates the hidden element by applying a probability model by the restricted Boltzmann machine estimated in the parameter learning step to the input data, and outputs the estimated hidden element as coded data which is complex data. Including the conversion step,
The energy function of the stochastic model by the restricted Boltzmann machine contains the cross-term of the real part and the imaginary part.
A program that causes a computer to execute each of the above steps.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017037640A JP7019138B2 (en) | 2017-02-28 | 2017-02-28 | Coding device, coding method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017037640A JP7019138B2 (en) | 2017-02-28 | 2017-02-28 | Coding device, coding method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018142278A JP2018142278A (en) | 2018-09-13 |
JP7019138B2 true JP7019138B2 (en) | 2022-02-15 |
Family
ID=63526747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017037640A Active JP7019138B2 (en) | 2017-02-28 | 2017-02-28 | Coding device, coding method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7019138B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102180617B1 (en) * | 2017-12-07 | 2020-11-19 | 한국과학기술원 | Apparatus and system for machine learning using coding technique |
JP7368827B2 (en) * | 2019-08-20 | 2023-10-25 | 国立大学法人電気通信大学 | Encoding and decoding devices, parameter learning devices, and programs |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015148189A2 (en) | 2014-03-24 | 2015-10-01 | Qualcomm Incorporated | Differential encoding in neural networks |
JP2016143043A (en) | 2015-02-05 | 2016-08-08 | 日本電信電話株式会社 | Speech model learning method, noise suppression method, speech model learning system, noise suppression system, speech model learning program, and noise suppression program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07111714B2 (en) * | 1991-02-01 | 1995-11-29 | 工業技術院長 | Neural network and signal processing method thereof |
-
2017
- 2017-02-28 JP JP2017037640A patent/JP7019138B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015148189A2 (en) | 2014-03-24 | 2015-10-01 | Qualcomm Incorporated | Differential encoding in neural networks |
JP2016143043A (en) | 2015-02-05 | 2016-08-08 | 日本電信電話株式会社 | Speech model learning method, noise suppression method, speech model learning system, noise suppression system, speech model learning program, and noise suppression program |
Non-Patent Citations (2)
Title |
---|
David P. Reichet and Thomas Serre,Neuronal Synchrony in Complex-Valued Deep Networks,arXiv.org,米国,Cornell University,2014年03月22日,pp.1-14,https://arxiv.org/pdf/1312.6115.pdf |
KyungHyun Cho, Tapani Raiko and Allexander Ilin,Gaussian-Bernoulli Deep Boltzmann Machine,The 2013 International Joint Conference on Neural Networks (IJCNN),米国,IEEE,2013年,pp.1-7,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6706831 |
Also Published As
Publication number | Publication date |
---|---|
JP2018142278A (en) | 2018-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7018659B2 (en) | Voice conversion device, voice conversion method and program | |
US10592800B2 (en) | Neural networks for transforming signals | |
US20170200446A1 (en) | Data augmentation method based on stochastic feature mapping for automatic speech recognition | |
EP1995723B1 (en) | Neuroevolution training system | |
JP4586577B2 (en) | Disturbance component suppression device, computer program, and speech recognition system | |
CN112634920A (en) | Method and device for training voice conversion model based on domain separation | |
JP7274184B2 (en) | A neural vocoder that implements a speaker-adaptive model to generate a synthesized speech signal and a training method for the neural vocoder | |
Pascual et al. | Time-domain speech enhancement using generative adversarial networks | |
Jang et al. | Learning statistically efficient features for speaker recognition | |
JP6543820B2 (en) | Voice conversion method and voice conversion apparatus | |
WO2017146073A1 (en) | Voice quality conversion device, voice quality conversion method and program | |
CN112213771A (en) | Seismic wave impedance inversion method and device | |
JP7019138B2 (en) | Coding device, coding method and program | |
Masuyama et al. | Online phase reconstruction via DNN-based phase differences estimation | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
JP2023545820A (en) | Generative neural network model for processing audio samples in the filter bank domain | |
JP6721165B2 (en) | Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program | |
Wu et al. | Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion. | |
JP7368827B2 (en) | Encoding and decoding devices, parameter learning devices, and programs | |
CN116959462A (en) | Room impulse response estimation method, apparatus, device and readable storage medium | |
Nakashika | Complex-Valued Variational Autoencoder: A Novel Deep Generative Model for Direct Representation of Complex Spectra. | |
JP6636973B2 (en) | Mask estimation apparatus, mask estimation method, and mask estimation program | |
Sarma et al. | Segmentation and classification of vowel phonemes of assamese speech using a hybrid neural framework | |
JP6912780B2 (en) | Speech enhancement device, speech enhancement learning device, speech enhancement method, program | |
JP7047665B2 (en) | Learning equipment, learning methods and learning programs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7019138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |