JP7019138B2 - Coding device, coding method and program - Google Patents

Coding device, coding method and program Download PDF

Info

Publication number
JP7019138B2
JP7019138B2 JP2017037640A JP2017037640A JP7019138B2 JP 7019138 B2 JP7019138 B2 JP 7019138B2 JP 2017037640 A JP2017037640 A JP 2017037640A JP 2017037640 A JP2017037640 A JP 2017037640A JP 7019138 B2 JP7019138 B2 JP 7019138B2
Authority
JP
Japan
Prior art keywords
coding
data
complex
rbm
hidden
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017037640A
Other languages
Japanese (ja)
Other versions
JP2018142278A (en
Inventor
亘 中鹿
信二 高木
順一 山岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
THE UNIVERSITY OF ELECTRO-COMUNICATINS
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
THE UNIVERSITY OF ELECTRO-COMUNICATINS
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by THE UNIVERSITY OF ELECTRO-COMUNICATINS, Inter University Research Institute Corp Research Organization of Information and Systems filed Critical THE UNIVERSITY OF ELECTRO-COMUNICATINS
Priority to JP2017037640A priority Critical patent/JP7019138B2/en
Publication of JP2018142278A publication Critical patent/JP2018142278A/en
Application granted granted Critical
Publication of JP7019138B2 publication Critical patent/JP7019138B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、符号化装置および符号化方法、並びに符号化方法を実行するプログラムに関する。 The present invention relates to a coding apparatus and a coding method, and a program for executing the coding method.

近年、ディープラーニングを用いた手法が飛躍的に高い精度を上げ、画像認識や音声認識など、幅広い分野において盛んに研究され、利用が進んでいる。これまでに数多くのディープラーニング手法が提案されているが、最も代表的なモデルとして、制限ボルツマンマシン(restricted Boltzmann machine:以下、「RBM」と称する)が用いられている。また、RBMを多層に積み重ねたDeep Belief Net (以下、「DBN」と称する) も用いられている。さらに、様々なRBMの拡張モデルも提案されている。 In recent years, methods using deep learning have dramatically improved accuracy, and have been actively researched and used in a wide range of fields such as image recognition and voice recognition. Although many deep learning methods have been proposed so far, the restricted Boltzmann machine (hereinafter referred to as "RBM") is used as the most representative model. In addition, Deep Belief Net (hereinafter referred to as "DBN") in which RBMs are stacked in multiple layers is also used. In addition, various RBM extensions have been proposed.

“Lending Direction to Neural Networks”:Neural Networks Vol.8. No4.pp503-512,1995(Richard S.Zemel,Christopher K.Williams,Michael C.Mozer)“Lending Direction to Neural Networks”: Neural Networks Vol.8. No4.pp503-512,1995 (Richard S. Zemel, Christopher K. Williams, Michael C. Mozer)

従来、RBMを利用した特徴量抽出処理としては、いずれのアプローチでも入力特徴量はバイナリまたは実数値が使用されていた。
例えば音声認識や音声合成などの音声処理を行う場合には、メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients :MFCC)、メルケプストラム特徴量、STRAIGHTスペクトルなどの振幅スペクトルに基づいた音響特徴量が利用されている。ところが、振幅スペクトルに基づいた音響特徴量抽出では、位相情報が欠落しており、元の複素数表現された音声データに対して少なからず情報の損失が存在する。
ここでは音声処理を例に説明したが、その他の複素数情報から特徴量抽出をする場合にも、情報の損失が存在するという問題があった。
Conventionally, as a feature amount extraction process using RBM, a binary or a real value has been used as an input feature amount in either approach.
For example, when performing speech processing such as speech recognition and speech synthesis, acoustic features based on amplitude spectra such as Mel-Frequency Cepstrum Coefficients (MFCC), Mel-Frequency Cepstrum Coefficients, and STRAIGHT spectra are used. ing. However, in the acoustic feature amount extraction based on the amplitude spectrum, the phase information is missing, and there is not a little loss of information with respect to the original complex-numbered voice data.
Here, speech processing has been described as an example, but there is a problem that information loss exists even when feature quantity extraction is performed from other complex number information.

なお、非特許文献1には、ボルツマンマシンで複素数を使って特徴量を抽出する技術が記載されているが、この技術は、上述したRBMやDBNを適用したものではないため、特徴量の抽出がより精度よく行うことができる手法の開発が望まれていた。 Note that Non-Patent Document 1 describes a technique for extracting a feature amount using a complex number with a Boltzmann machine, but since this technique does not apply the above-mentioned RBM or DBN, the feature amount is extracted. It has been desired to develop a method that can be performed more accurately.

本発明は、複素数に対してRBMを適用し、精度の良い特徴抽出を行うことで、その特徴量抽出に基づいた良好な符号化ができる符号化装置、符号化方法およびプログラムを提供することを目的とする。 The present invention provides a coding device, a coding method, and a program capable of performing good coding based on the feature extraction by applying RBM to a complex number and performing feature extraction with high accuracy. The purpose.

本発明の符号化装置は、パラメータ学習ユニットと符号化ユニットとを備える。
パラメータ学習ユニットは、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを適用して、学習用データに対して、隠れ素子および結合重みを推定する処理を行う。
符号化ユニットは、符号化用入力データに対して、パラメータ学習ユニットで推定した制限ボルツマンマシンによる確率モデルを適用して、隠れ素子を推定し、推定した隠れ素子を符号化データとして出力する。
ここで、学習用データおよび符号化用入力データは複素数データであり、制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれていることを特徴とする。
The coding device of the present invention includes a parameter learning unit and a coding unit.
The parameter learning unit applies a probabilistic model based on a restricted Boltzmann machine that assumes that there is a coupling weight between the visible element that represents the input data and the hidden element that represents the potential information, and applies it to the training data. Then, the process of estimating the hidden element and the coupling weight is performed.
The coding unit applies a probability model by the restricted Boltzmann machine estimated by the parameter learning unit to the coding input data, estimates hidden elements, and outputs the estimated hidden elements as coding data.
Here, the training data and the coding input data are complex number data, and are characterized in that the energy function of the probability model by the restricted Boltzmann machine includes a cross-term of a real part and an imaginary part .

また本発明の符号化方法は、パラメータ学習処理と符号化処理とを含む。
パラメータ学習処理は、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを適用して、学習用データに対して、隠れ素子および結合重みを推定する処理を行う。
符号化処理は、符号化用入力データに対して、パラメータ学習処理で推定した制限ボルツマンマシンによる確率モデルを適用して、隠れ素子を推定し、推定した隠れ素子を符号化データとして出力する。
ここで、パラメータ学習処理で得られる学習用データと符号化処理で得られる符号化用入力データは複素数データであり、制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれていることを特徴とする。
Further, the coding method of the present invention includes a parameter learning process and a coding process.
The parameter learning process applies a probabilistic model based on a restricted Boltzmann machine that assumes that there is a coupling weight between the visible element that represents the input data and the hidden element that represents the potential information, and applies the probability model to the training data. Then, the process of estimating the hidden element and the coupling weight is performed.
In the coding process, a stochastic model by the restricted Boltzmann machine estimated by the parameter learning process is applied to the coding input data to estimate the hidden element, and the estimated hidden element is output as the coded data.
Here, the training data obtained by the parameter learning process and the coding input data obtained by the coding process are complex number data, and the energy function of the probability model by the restricted Boltzmann machine includes the cross-term of the real part and the imaginary part. It is characterized by being.

また本発明のプログラムは、複素数データで構成される学習用データおよび符号化用入力データを入力として、上述した符号化方法のパラメータ学習処理を実行するステップと、符号化処理を実行するステップをコンピュータに実行させるものである。 Further, in the program of the present invention, a computer performs a step of executing the parameter learning process of the above-mentioned coding method and a step of executing the coding process by inputting the learning data and the coding input data composed of complex number data. Is to be executed.

本発明によると、制限ボルツマンマシン(RBM)を複素数に拡張した複素RBMによる特徴量の抽出を行うことができ、高い精度で入力データから特徴量を抽出して符号化することが可能になるので、効率の良い符号化が行えるようになる。 According to the present invention, it is possible to extract the feature amount by the complex RBM which is an extension of the restricted Boltzmann machine (RBM) to a complex number, and it is possible to extract and encode the feature amount from the input data with high accuracy. , Efficient coding will be possible.

本発明の一実施の形態例による符号化装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the coding apparatus by one Embodiment of this invention. 図1の符号化装置のハードウェア構成例を示すブロック図である。It is a block diagram which shows the hardware configuration example of the coding apparatus of FIG. 本発明の一実施の形態例に適用される確率モデルである、複素RBM(Restricted Boltzmann machine)を模式的に示す図である。It is a figure which shows typically the complex RBM (Restricted Boltzmann machine) which is the probability model applied to one Embodiment of this invention. 本発明の一実施の形態例によるパラメータ学習の流れを示すフローチャートである。It is a flowchart which shows the flow of parameter learning by one Embodiment of this invention. 本発明の一実施の形態例による符号化の流れを示すフローチャートである。It is a flowchart which shows the flow of coding by one Embodiment of this invention. 図4のステップS13の複素RBMの学習処理を示すフローチャートである。It is a flowchart which shows the learning process of the complex RBM of step S13 of FIG. 図5のステップS23の符号化処理を示すフローチャートである。It is a flowchart which shows the coding process of step S23 of FIG. 本発明の一実施の形態例により符号化されたデータを復号化する復号化装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the decoding apparatus which decodes the data encoded by one Embodiment of this invention. 本発明の一実施の形態例による復号化の流れを示すフローチャートである。It is a flowchart which shows the flow of decoding by one Embodiment of this invention. 図9のステップS52の復号化処理を示すフローチャートである。It is a flowchart which shows the decoding process of step S52 of FIG. オリジナルデータ(図11A)と、本発明の一実施の形態例を適用した符号化データ(図11B)との例を示す図である。It is a figure which shows the example of the original data (FIG. 11A), and the coded data (FIG. 11B) to which one Embodiment of this invention is applied. 本発明を適用した複素RBMによる再構築エラーと、従来例(GB-RBM)による再構築エラーとを比較した特性図である。It is a characteristic diagram which compared the reconstruction error by the complex RBM to which this invention was applied, and the reconstruction error by the conventional example (GB-RBM). 本発明の一実施の形態例に適用される複素RBMを多層化した例を模式的に示す図である。It is a figure which shows typically the example in which the complex RBM applied to one Embodiment of this invention is multi-layered.

以下、本発明の好適な一実施の形態例について説明する。 Hereinafter, an example of a preferred embodiment of the present invention will be described.

[1.符号化装置の構成例]
図1は、本発明の一実施の形態例にかかる符号化装置の構成例を示す図である。図1に示すように、コンピュータ(PC)等により構成される符号化装置1は、パラメータ学習ユニット11と符号化処理ユニット12とを備える。
パラメータ学習ユニット11は、符号化を行うデータと同じ種類のデータについて事前に学習処理を行い、符号化に必要なパラメータを得る。符号化処理ユニット12は、その学習処理で得たパラメータを使って、入力データ(符号化用データ)の符号化を行う。
符号化を行う入力データとしては、音声データ、画像データなど様々なデータが適用可能である。但し、後述するように本実施の形態例で扱う学習データおよび入力データは複素数データである。
[1. Configuration example of coding device]
FIG. 1 is a diagram showing a configuration example of a coding device according to an embodiment of the present invention. As shown in FIG. 1, the coding device 1 configured by a computer (PC) or the like includes a parameter learning unit 11 and a coding processing unit 12.
The parameter learning unit 11 performs learning processing in advance on the same type of data as the data to be encoded, and obtains the parameters required for encoding. The coding processing unit 12 encodes the input data (coding data) by using the parameters obtained in the learning processing.
As the input data to be encoded, various data such as voice data and image data can be applied. However, as will be described later, the learning data and the input data handled in this embodiment are complex number data.

パラメータ学習ユニット11は、複素数データ取得部111と前処理部112とパラメータ推定部113とを備える。複素数データ取得部111には、学習用複素数データが供給される。複素数データ取得部111で取得した学習用複素数データは、前処理部112で前処理が行われた後、パラメータ推定部113に供給される。
例えば、複素数データ取得部111で取得される学習用複素数データが音声データの場合には、前処理部112は、学習用の音声データを単位時間ごと(以下、フレームという)に切り出して、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算し、これを正規化する。なお、この前処理部112での処理で学習用データを複素数データに変換してもよい。
The parameter learning unit 11 includes a complex number data acquisition unit 111, a preprocessing unit 112, and a parameter estimation unit 113. The complex number data for learning is supplied to the complex number data acquisition unit 111. The learning complex number data acquired by the complex number data acquisition unit 111 is supplied to the parameter estimation unit 113 after being preprocessed by the preprocessing unit 112.
For example, when the learning complex number data acquired by the complex number data acquisition unit 111 is voice data, the preprocessing unit 112 cuts out the training voice data every unit time (hereinafter referred to as a frame) and MFCC (hereinafter referred to as a frame). Calculates and normalizes the spectral features of the audio signal for each frame, such as Mel-Frequency Cepstrum Coefficients) and Mel-Frequency Cepstrum features. The training data may be converted into complex number data by the processing in the preprocessing unit 112.

パラメータ推定部113は、可視素子推定部1131と隠れ素子推定部1132とによって構成される確率モデルを持つ。本実施の形態例では、可視素子推定部1131および隠れ素子推定部1132で構成される確率モデルとして、RBMを複素数に拡張した複素RBM(Complex RBM)を使用する。なお、複素RBMの確率モデルは、可視素子および隠れ素子の他に、素子間の結合重みの情報についても有し、パラメータ推定部113は、この結合重みの情報についても推定して持つ。この複素RBMの詳細については後述する。 The parameter estimation unit 113 has a probability model composed of a visible element estimation unit 1131 and a hidden element estimation unit 1132. In the present embodiment, a complex RBM (Complex RBM) obtained by extending RBM to a complex number is used as a probability model composed of the visible element estimation unit 1131 and the hidden element estimation unit 1132. In addition to the visible element and the hidden element, the probability model of the complex RBM also has information on the coupling weight between the elements, and the parameter estimation unit 113 also estimates and possesses the information on the coupling weight. The details of this complex RBM will be described later.

符号化処理ユニット12は、複素数データ取得部121と前処理部122と符号化部123とを備える。
複素数データ取得部121には、符号化用複素数データが供給される。複素数データ取得部121で取得された符号化用複素数データは、前処理部122で前処理が行われた後、符号化部123に供給される。
前処理部122は、パラメータ学習ユニット11の前処理部112と同じ構成である。この前処理部122における処理により、符号化用データを複素数データに変換してもよい。
The coding processing unit 12 includes a complex number data acquisition unit 121, a preprocessing unit 122, and a coding unit 123.
The complex number data acquisition unit 121 is supplied with the complex number data for coding. The complex number data for coding acquired by the complex number data acquisition unit 121 is supplied to the coding unit 123 after being preprocessed by the preprocessing unit 122.
The preprocessing unit 122 has the same configuration as the preprocessing unit 112 of the parameter learning unit 11. The coding data may be converted into complex number data by the processing in the preprocessing unit 122.

符号化部123は、パラメータ学習ユニット11のパラメータ推定部113と同じ構成であり、可視素子推定部1231で得た可視素子と隠れ素子推定部1232で得た隠れ素子とによって構成される複素RBMの確率モデルを備える。可視素子推定部1231および隠れ素子推定部1232で、可視素子および隠れ素子を推定する際には、パラメータ学習ユニット11のパラメータ推定部113で推定したパラメータが利用される。 The coding unit 123 has the same configuration as the parameter estimation unit 113 of the parameter learning unit 11, and is a complex RBM composed of a visible element obtained by the visible element estimation unit 1231 and a hidden element obtained by the hidden element estimation unit 1232. It has a probabilistic model. When the visible element estimation unit 1231 and the hidden element estimation unit 1232 estimate the visible element and the hidden element, the parameters estimated by the parameter estimation unit 113 of the parameter learning unit 11 are used.

符号化装置1は、符号化部123の隠れ素子推定部1232で推定された隠れ素子を、符号化データとして外部に出力する。
なお、図1に示す構成では、学習処理を行うパラメータ推定部113と、入力データの符号化処理を行う符号化部123を個別の構成としたが、パラメータ推定部113と符号化部123は、ほぼ同じ機能を有しており、パラメータ推定部113で符号化部123の処理を行うようにしてもよい。複素数データ取得部111,121や前処理部112,122についても共通化してもよい。
The coding device 1 outputs the hidden element estimated by the hidden element estimation unit 1232 of the coding unit 123 to the outside as coded data.
In the configuration shown in FIG. 1, the parameter estimation unit 113 that performs learning processing and the coding unit 123 that performs input data coding processing are individually configured, but the parameter estimation unit 113 and the coding unit 123 have different configurations. It has almost the same function, and the parameter estimation unit 113 may process the coding unit 123. The complex number data acquisition units 111 and 121 and the preprocessing units 112 and 122 may also be shared.

図2は、符号化装置1のハードウェア構成例を示す図である。ここでは、符号化装置1をコンピュータ(PC)で構成した例を示す。
図2に示すように、符号化装置1は、バス107を介して相互に接続されたCPU(中央制御ユニット:Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)/SSD(Solid State Drive)104、接続I/F(Interface)105、通信I/F106を備える。CPU101は、RAM103をワークエリアとしてROM102またはHDD/SSD104等に格納されたプログラムを実行することで、符号化装置1の動作を統括的に制御する。接続I/F105は、符号化装置1に接続される機器とのインターフェースである。通信I/Fは、ネットワークを介して他の情報処理機器と通信を行うためのインターフェースである。
FIG. 2 is a diagram showing a hardware configuration example of the coding device 1. Here, an example in which the coding device 1 is configured by a computer (PC) is shown.
As shown in FIG. 2, the coding apparatus 1 has a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, and a RAM (Random Access Memory) 103, which are connected to each other via a bus 107. , HDD (Hard Disk Drive) / SSD (Solid State Drive) 104, connection I / F (Interface) 105, communication I / F 106. The CPU 101 comprehensively controls the operation of the coding device 1 by executing a program stored in the ROM 102, the HDD / SSD 104, or the like with the RAM 103 as a work area. The connection I / F 105 is an interface with a device connected to the coding device 1. The communication I / F is an interface for communicating with other information processing devices via a network.

学習用データや符号化用データの入出力および設定は、接続I/F105または通信I/F106を介して行われる。図1で説明した符号化装置1の機能は、CPU101において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得してもよく、ネットワークを経由して取得してもよく、ROMに組み込んで使用してもよい。また、一般的なコンピュータとプログラムの組合せでなく、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの論理回路を組むことで、符号化装置1の構成を実現するためのハードウェア構成にしてもよい。 The input / output and setting of the learning data and the coding data are performed via the connection I / F 105 or the communication I / F 106. The function of the coding apparatus 1 described with reference to FIG. 1 is realized by executing a predetermined program in the CPU 101. The program may be acquired via a recording medium, may be acquired via a network, or may be incorporated into a ROM for use. In addition, hardware for realizing the configuration of the encoding device 1 by building a logic circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array) instead of a general computer and program combination. It may be configured.

[2.複素RBMの定義]
次に、パラメータ推定部113および符号化部123が持つ確率モデルである、複素RBMについて説明する。
RBMは、入力データを表現する可視素子と、潜在的な情報を表現する隠れ素子の間に双方向の接続重みが存在する(ただし可視素子間または隠れ素子間には接続はない)と仮定した確率モデルであり、複素RBMは、実部と虚部を持つ複素数にRBMを拡張したものである。
図3は、本実施の形態例の複素RBMのグラフ表現例を示す。
図3の例は、複素数となるI次元のデータz∈Cを可視素子とする複素RBMのモデルを示す。
図3において、zは可視素子、hは隠れ素子、W′は可視素子zと隠れ素子hとの間の双方向結合重みであり、b′は可視素子zのバイアス、cは隠れ素子hのバイアス、qは共役を示す。また、各符号の上に付けた線(オーバーライン)は複素共役を示す。
[2. Definition of complex RBM]
Next, the complex RBM, which is a probabilistic model of the parameter estimation unit 113 and the coding unit 123, will be described.
The RBM has assumed that there is a bidirectional connection weight between the visible element representing the input data and the hidden element representing the potential information (although there is no connection between the visible or hidden elements). It is a stochastic model, and the complex RBM is an extension of the RBM to a complex number having a real part and an imaginary part.
FIG. 3 shows a graph representation example of the complex RBM of the present embodiment.
The example of FIG. 3 shows a model of a complex RBM whose visible element is I -dimensional data z ∈ CI which is a complex number.
In FIG. 3, z is a visible element, h is a hidden element, W'is a bidirectional coupling weight between the visible element z and the hidden element h, b'is the bias of the visible element z, and c is the hidden element h. Bias, q indicates conjugation. The line (overline) attached above each sign indicates the complex conjugate.

この複素RBMは、次の[数1]式~[数4]式で定義される。ここでは、I次元のデータz∈Cを可視素子とし、確率モデルのパラメータの集合をθとし、上付きのHはエルミート転置を示す。 This complex RBM is defined by the following equations [Equation 1] to [Equation 4]. Here, the I -dimensional data z ∈ CI is a visible element, the set of parameters of the probability model is θ, and the superscript H indicates the Hermitian transpose.

Figure 0007019138000001
Figure 0007019138000001

Figure 0007019138000002
Figure 0007019138000002

Figure 0007019138000003
Figure 0007019138000003

Figure 0007019138000004
Figure 0007019138000004

また、[数3]式のΦは、[数5]式で定義され、[数5]式で定義される複素数Zの分散と疑似分散(共役複素数との共分散)を表すパラメータは、[数6]式で定義される。ただし、Δは入力されたベクトルが対角成分となる対角行列を返す関数である。 Further, Φ in the equation [Equation 3] is defined by the equation [Equation 5], and the parameter representing the variance and pseudo-variance (covariance with the conjugate complex number) of the complex number Z defined in the equation [Equation 5] is [. It is defined by the equation [Equation 6]. However, Δ is a function that returns a diagonal matrix in which the input vector is a diagonal component.

Figure 0007019138000005
Figure 0007019138000005

Figure 0007019138000006
Figure 0007019138000006

結局、複素RBMのパラメータは、θ={b、c、W、γ、δ}となる。ここで、[数7]式および[数8]式を導入する。但し、[数7]式および[数8]式において、分数線は要素除算を表す。 After all, the parameter of the complex RBM is θ = {b, c, W, γ, δ}. Here, the [Equation 7] equation and the [Equation 8] equation are introduced. However, in the [Equation 7] and [Equation 8] equations, the fractional line represents element division.

Figure 0007019138000007
Figure 0007019138000007

Figure 0007019138000008
Figure 0007019138000008

これより、[数9]式となる。 From this, it becomes the formula [Equation 9].

Figure 0007019138000009
Figure 0007019138000009

[数3]式で定義されるエネルギー関数は、[数10]式に書き直すことができる。Rは入力された複素数の実部を返す関数である。 The energy function defined by the equation [Equation 3] can be rewritten into the equation [Equation 10]. R is a function that returns the real part of the input complex number.

Figure 0007019138000010
Figure 0007019138000010

ここで、エネルギー関数は実数値となる。複素可視素子zの各次元は共役複素数との結合が存在するが、通常のRBM(複素でないRBM)のように次元間の結合は存在しないことが確認できる。さらに、次の[数11]式および[数12]式を用いることで、[数3]式は[数13]式となる。 Here, the energy function is a real value. It can be confirmed that each dimension of the complex visible element z has a coupling with a conjugate complex number, but there is no coupling between dimensions like a normal RBM (non-complex RBM). Further, by using the following [Equation 11] and [Equation 12] equations, the [Equation 3] equation becomes the [Equation 13] equation.

Figure 0007019138000011
Figure 0007019138000011

Figure 0007019138000012
Figure 0007019138000012

Figure 0007019138000013
Figure 0007019138000013

この[数13]式から、図3に示すように、zとh、z()とhの関係性は、互いに共役空間を挟んで鏡像の関係にあることが分かる。なお、本明細書中に示す「z()」の「()」は、複素共役を示すオーバーラインであり、本来は、図2に示すように「-」が「z」の上に付加されるものであるが、本明細書では記載上の制約から「z()」と記載することとする。他の記号に付加されるオーバーラインについても、本明細書では同様に記載する。
以上の定義から、隠れ素子が与えられたときの可視素子の条件付き確率、および可視素子が与えられたときの隠れ素子の条件付き確率は、それぞれ[数14]式および[数15]式で表すことができる。
From this equation [Equation 13], as shown in FIG. 3, it can be seen that the relationship between z and h and the relationship between z ( ) and h are mirror images of each other with the conjugate space in between. The "( - )" of "z ( - )" shown in the present specification is an overline indicating complex conjugate, and originally, "-" is above "z" as shown in FIG. Although it is added, in this specification, it is described as "z ( - )" due to the limitation of description. Overlines added to other symbols are described herein as well.
From the above definitions, the conditional probability of the visible element when the hidden element is given and the conditional probability of the hidden element when the visible element is given are given by the equations [Equation 14] and [Equation 15], respectively. Can be represented.

Figure 0007019138000014
Figure 0007019138000014

Figure 0007019138000015
Figure 0007019138000015

但し、CN(・;μ,Γ,C)は平均μ、分散共分散行列Γ、疑似分散共分散行列Cの多変量複素正規分布である[数16]式および[数17]式で定義される。B(・;π)は成功確率πの多次元ベルヌーイ分布を表す。f(・)は要素ごとのシグモイド関数を表す。Dはzの次元数である。 However, CN (・; μ, Γ, C) is defined by the [Equation 16] and [Equation 17] equations, which are multivariate complex normal distributions of the mean μ, the variance-covariance matrix Γ, and the pseudovariance-covariance matrix C. To. B (・; π) represents a multidimensional Bernoulli distribution with a success probability of π. f (・) represents a sigmoid function for each element. D is the number of dimensions of z.

Figure 0007019138000016
Figure 0007019138000016

Figure 0007019138000017
Figure 0007019138000017

[3.学習処理動作および符号化処理動作]
次に、本実施の形態例の複素RBMを適用して行われる符号化処理について説明する。
図4は、パラメータ学習ユニット11が行うパラメータ学習動作の流れを示すフローチャートである。
まず、複素数データ取得部111が学習用の複素数データを取得し(ステップS11)、前処理部112がその複素数データの前処理を実行する(ステップS12)。例えば、複素数データ取得部111は、学習用のデータが音声データである場合には、学習用音声データをフレームごと(例えば、5msecごと)に切り出し、切り出された学習用音声信号にFFT処理などを施すことでスペクトル特徴量(例えば、MFCCやメルケプストラム特徴量)を算出する。なお、この前処理にて学習用データを複素数データとしてもよい。
[3. Learning processing operation and coding processing operation]
Next, the coding process performed by applying the complex RBM of the present embodiment will be described.
FIG. 4 is a flowchart showing the flow of the parameter learning operation performed by the parameter learning unit 11.
First, the complex number data acquisition unit 111 acquires the complex number data for learning (step S11), and the preprocessing unit 112 executes the preprocessing of the complex number data (step S12). For example, when the learning data is voice data, the complex number data acquisition unit 111 cuts out the learning voice data for each frame (for example, every 5 msec), and performs FFT processing on the cut out learning voice signal. By applying, the spectral feature amount (for example, MFCC or mercepstrum feature amount) is calculated. In this preprocessing, the training data may be used as complex number data.

次に、前処理が施された複素数データがパラメータ推定部113に供給され、パラメータ推定部113は、複素数データのパラメータ学習処理を行う(ステップS13)。ステップS13で行われるパラメータ学習処理の詳細については後述する(図6)。
このパラメータ学習処理で複素RBMのモデルが持つ各パラメータが決定され、記憶される。そして、記憶されたパラメータが、パラメータを符号化部123に引き渡されて、符号化部123で符号化される(ステップS14)。
Next, the preprocessed complex number data is supplied to the parameter estimation unit 113, and the parameter estimation unit 113 performs the parameter learning process of the complex number data (step S13). The details of the parameter learning process performed in step S13 will be described later (FIG. 6).
In this parameter learning process, each parameter of the complex RBM model is determined and stored. Then, the stored parameter is passed to the coding unit 123 and encoded by the coding unit 123 (step S14).

図5は、符号化処理ユニット12が行う符号化処理の流れを示すフローチャートである。
まず、複素数データ取得部121が符号化用複素数データを取得し(ステップS21)、前処理部122がその複素数データの前処理を実行する(ステップS22)。ここでの前処理は、前処理部112が行うステップS12での前処理と同じである。なお、先に前処理部112の構成で述べたように、この前処理によって、入力データを複素数データとしてもよい。
FIG. 5 is a flowchart showing the flow of the coding process performed by the coding process unit 12.
First, the complex number data acquisition unit 121 acquires the complex number data for coding (step S21), and the preprocessing unit 122 executes the preprocessing of the complex number data (step S22). The pre-processing here is the same as the pre-processing in step S12 performed by the pre-processing unit 112. As described earlier in the configuration of the preprocessing unit 112, the input data may be converted into complex number data by this preprocessing.

前処理が施された複素数データは符号化部123に供給され、符号化部123は、ステップS14で引き渡された複素RBMのモデルが持つパラメータを使って隠れ素子を推定するとともに、符号化処理を行う(ステップS23)。ステップS23で行われる符号化処理の詳細については後述する(図7)。そして、符号化処理ユニット12は、ステップS23で得られた隠れ素子を符号化データとして出力する(ステップS24)。 The preprocessed complex number data is supplied to the coding unit 123, and the coding unit 123 estimates the hidden element using the parameters of the complex RBM model passed in step S14 and performs the coding process. (Step S23). Details of the coding process performed in step S23 will be described later (FIG. 7). Then, the coding processing unit 12 outputs the hidden element obtained in step S23 as coding data (step S24).

図6は、図4のステップS13で行われるパラメータ学習処理の詳細を示すフローチャートである。
まず、パラメータ推定部113は、複素RBMのモデルが持つパラメータとして任意の値を設定する(ステップS31)。次に、パラメータ推定部113の可視素子推定部1131に、前処理が施された学習用複素数データを入力する(ステップS32)。
その後、パラメータ推定部113は、複素RBMのモデルの隠れ素子の確率値を計算し、計算値をサンプリングする(ステップS33)。なお、ここで「サンプリングする」とは、条件付き確率密度関数に従うデータをランダムに1つ生成することをいい、以下、同じ意味で用いる。
FIG. 6 is a flowchart showing the details of the parameter learning process performed in step S13 of FIG.
First, the parameter estimation unit 113 sets an arbitrary value as a parameter of the complex RBM model (step S31). Next, the preprocessed complex number data for learning is input to the visible element estimation unit 1131 of the parameter estimation unit 113 (step S32).
After that, the parameter estimation unit 113 calculates the probability value of the hidden element of the complex RBM model and samples the calculated value (step S33). Here, "sampling" means randomly generating one piece of data according to the conditional probability density function, and is used hereinafter with the same meaning.

また、パラメータ推定部113は、複素RBMのモデルの可視素子の確率値を計算し、計算値をサンプリングし(ステップS34)、その後、複素RBMのモデルの隠れ素子の確率値を再度計算し、計算値を再サンプリングする(ステップS35)。そして、パラメータ推定部113は、ここまでの計算で得られた各種パラメータを、複素RBMのモデルを構成するパラメータとして更新し、更新値を記憶する(ステップS36)。 Further, the parameter estimation unit 113 calculates the probability value of the visible element of the complex RBM model, samples the calculated value (step S34), and then recalculates and calculates the probability value of the hidden element of the complex RBM model. The value is resampled (step S35). Then, the parameter estimation unit 113 updates the various parameters obtained by the calculations so far as parameters constituting the model of the complex RBM, and stores the updated values (step S36).

ステップS36でパラメータを更新した後、パラメータ推定部113は、パラメータ学習処理の終了条件を満足したか否か判断し(ステップS37)、終了条件を満足しないと判断した場合には(ステップS37のNO)、ステップS31に戻り、ここまでの処理を繰り返す。また、ステップS37で終了条件を満足したと判断した場合には(ステップS37のYES)、パラメータ推定部113は、パラメータ学習処理を終了する。なお、ステップS37での終了条件としては、例えば、これら一連のステップの繰り返し数が挙げられる。 After updating the parameters in step S36, the parameter estimation unit 113 determines whether or not the end condition of the parameter learning process is satisfied (step S37), and if it is determined that the end condition is not satisfied (NO in step S37). ), Return to step S31, and repeat the process up to this point. If it is determined in step S37 that the end condition is satisfied (YES in step S37), the parameter estimation unit 113 ends the parameter learning process. The end condition in step S37 includes, for example, the number of repetitions of these series of steps.

図7は、図5のステップS33で行われる符号化処理の詳細を示すフローチャートである。
まず、符号化部123は、パラメータ推定部113から引き渡されたパラメータを設定する(ステップS41)。次に、符号化部123の可視素子推定部1231に、前処理が施された符号化用複素数データを入力する(ステップS42)。
その後、符号化部123の隠れ素子推定部1232は、複素RBMのモデルの隠れ素子を計算し、推定した隠れ素子を符号化データとして出力する(ステップS43)。
FIG. 7 is a flowchart showing details of the coding process performed in step S33 of FIG.
First, the coding unit 123 sets the parameters passed from the parameter estimation unit 113 (step S41). Next, the preprocessed complex number data for coding is input to the visible element estimation unit 1231 of the coding unit 123 (step S42).
After that, the hidden element estimation unit 1232 of the coding unit 123 calculates the hidden element of the complex RBM model and outputs the estimated hidden element as coding data (step S43).

次に、具体的な学習処理および符号化処理で行われる、複素RBMのモデルのパラメータ推定処理を、数式を用いて説明する。
パラメータ推定では、次の[数18]式で示される、入力データ(可視データ)zの対数尤度L(θ)を最大化するように、複素RBMのパラメータを複素勾配法によって更新する。チルダ付きの変数は、チルダ無しの変数と区別するために導入した。
Next, the parameter estimation process of the complex RBM model, which is performed in the specific learning process and the coding process, will be described using mathematical formulas.
In the parameter estimation, the parameters of the complex RBM are updated by the complex gradient method so as to maximize the log-likelihood L (θ) of the input data (visible data) z represented by the following equation [Equation 18]. Variables with tildes were introduced to distinguish them from variables without tildes.

Figure 0007019138000018
Figure 0007019138000018

複素勾配法は、学習率α>0を用いて、[数19]式の計算を繰り返し実行することでパラメータを更新する。 In the complex gradient method, the parameters are updated by repeatedly executing the calculation of the equation [Equation 19] using the learning rate α> 0.

Figure 0007019138000019
Figure 0007019138000019

但し、[数19]式における複素数の偏微分は、[数20]式に示すウェルティンガーの微分である。ここでのiは、虚数単位である。[数20]式右辺第一項、第二項はそれぞれ、対数尤度Lの、パラメータθの実部に関する偏微分、虚部に関する偏微分を表す。 However, the partial derivative of the complex number in the equation [Equation 19] is the derivative of Weltinger shown in the equation [Equation 20]. Here, i is an imaginary unit. [Equation 20] The first and second terms on the right side of the equation represent the partial differential of the log-likelihood L with respect to the real part and the partial differential with respect to the imaginary part of the parameter θ, respectively.

Figure 0007019138000020
Figure 0007019138000020

各パラメータの偏微分には、観測データ(入力データ)に対する期待値およびモデルの期待値の項が含まれる。モデルの期待値は、計算困難であるため、従来のRBMで計算する場合と同様に、CD法(Contrastive Divergence法)を用いて近似計算する。
エネルギー関数に対するパラメータの偏微分は、解析的に求めることができ、それぞれ[数21]式~[数25]式に示すようになる。
The partial derivative of each parameter includes terms for the expected value for the observed data (input data) and the expected value of the model. Since the expected value of the model is difficult to calculate, it is approximately calculated using the CD method (Contrastive Divergence method) in the same manner as in the case of calculating with the conventional RBM.
The partial differential of the parameter with respect to the energy function can be obtained analytically, and is shown in the equations [Equation 21] to [Equation 25], respectively.

Figure 0007019138000021
Figure 0007019138000021

Figure 0007019138000022
Figure 0007019138000022

Figure 0007019138000023
Figure 0007019138000023

Figure 0007019138000024
Figure 0007019138000024

Figure 0007019138000025
Figure 0007019138000025

但し、○,|・|,・は、それぞれ要素ごとの積、絶対値、および二乗を表し、次の[数26]式および[数27]式で示される。 However, ◯, |, |, and 2 represent the product, the absolute value, and the square of each element, respectively, and are represented by the following equations [Equation 26] and [Equation 27].

Figure 0007019138000026
Figure 0007019138000026

Figure 0007019138000027
Figure 0007019138000027

分散および疑似分散の更新は、他のパラメータと比較してスケールが異なるため、安定して学習させるために、実際には、[数28]に示すように置き換え、rおよびsでパラメータ更新を行う。 Since the variance and pseudo-variance updates have different scales compared to other parameters, in order to train them stably, they are actually replaced as shown in [Equation 28], and the parameters are updated with r and s. ..

Figure 0007019138000028
Figure 0007019138000028

[4.復号化装置の構成および動作]
図8は、本発明の一実施形態例に係る符号化装置1に対応する復号化装置2の構成例を示したものである。
復号化装置2は、符号化装置1で得られた符号化データを復号化するものであり、例えばコンピュータで構成される。なお、復号化装置2は、符号化装置1と一体化してもよい。
復号化装置2は、パラメータ学習ユニット11と復号化処理ユニット13とを備える。
パラメータ学習ユニット11は、符号化装置1のパラメータ学習ユニット11と同じであり、パラメータ推定部113として、学習処理で得た可視素子および隠れ素子推定する可視素子推定部1131および隠れ素子推定部1132を備える。
[4. Decryptor configuration and operation]
FIG. 8 shows a configuration example of the decoding device 2 corresponding to the coding device 1 according to the embodiment of the present invention.
The decoding device 2 decodes the coded data obtained by the coding device 1, and is configured by, for example, a computer. The decoding device 2 may be integrated with the coding device 1.
The decoding device 2 includes a parameter learning unit 11 and a decoding processing unit 13.
The parameter learning unit 11 is the same as the parameter learning unit 11 of the coding device 1, and as the parameter estimation unit 113, the visible element estimation unit 1131 and the hidden element estimation unit 1132 for estimating the visible element and the hidden element obtained in the learning process are used. Be prepared.

復号化処理ユニット13には、符号化装置1で得られた符号化データが供給される。復号化処理ユニット13は、復号化部131を備える。復号化部131は、可視素子推定部1311と隠れ素子推定部1312とを有し、複素RBMのモデルのパラメータをパラメータ推定部113から取得する。
隠れ素子推定部1312は、入力した符号化データを隠れ素子とする。そして、可視素子推定部1311は、複素RBMのモデルのパラメータを使った演算により、可視素子の推定値を得る。この可視素子の推定値は、後処理部132に供給され、後処理部132で後処理が行われる。後処理部132では、例えば符号化装置1の前処理部122での前処理を元に戻す処理が行われる。
そして、出力部133は、後処理が行われた復号化データを出力する。
The coding data obtained by the coding device 1 is supplied to the decoding processing unit 13. The decoding processing unit 13 includes a decoding unit 131. The decoding unit 131 has a visible element estimation unit 1311 and a hidden element estimation unit 1312, and acquires the parameters of the complex RBM model from the parameter estimation unit 113.
The hidden element estimation unit 1312 uses the input coded data as a hidden element. Then, the visible element estimation unit 1311 obtains an estimated value of the visible element by an operation using the parameters of the complex RBM model. The estimated value of this visible element is supplied to the post-processing unit 132, and the post-processing unit 132 performs post-processing. In the post-processing unit 132, for example, a process of restoring the pre-processing in the pre-processing unit 122 of the coding device 1 is performed.
Then, the output unit 133 outputs the decrypted data after the post-processing.

図9は、復号化装置2での復号化の流れを示すフローチャートである。
復号化装置2は、復号化する符号化データを取得すると(ステップS51)、復号化処理ユニット13が復号化処理を行う。復号化処理の詳細は後述する(図10)。
復号化処理ユニット13での処理で得られたデータは、後処理部132に供給されて後処理が行われ(ステップS52)、後処理されたデータが出力部133から復号化データとして出力される(ステップS53)。
FIG. 9 is a flowchart showing the flow of decoding by the decoding device 2.
When the decoding device 2 acquires the coded data to be decoded (step S51), the decoding processing unit 13 performs the decoding process. Details of the decryption process will be described later (FIG. 10).
The data obtained by the processing in the decoding processing unit 13 is supplied to the post-processing unit 132 and post-processed (step S52), and the post-processed data is output as decryption data from the output unit 133. (Step S53).

図10は、図9のフローチャートのステップS52での復号化処理の詳細を示す。
まず、復号化部131は、パラメータ学習ユニット11から引き渡された複素RBMのモデルの各種パラメータを設定する(ステップS61)。ここでは、復号化する符号化データを符号化する際に用いたパラメータ(図1に示す符号化装置1での符号化時に使用したパラメータ)をパラメータ学習ユニット11から取得して設定する。そして、復号化部131の隠れ素子推定部1312に、符号化データを入力する(ステップS62)。そして、可視素子推定部1311が、複素RBMのモデルを使って可視素子(復号化データ)を推定する(ステップS63)。
このようにして、符号化とは逆の流れで、符号化データの復号化が可能となる。
FIG. 10 shows the details of the decoding process in step S52 of the flowchart of FIG.
First, the decoding unit 131 sets various parameters of the complex RBM model passed from the parameter learning unit 11 (step S61). Here, the parameters used when coding the coded data to be decoded (parameters used at the time of coding in the coding device 1 shown in FIG. 1) are acquired from the parameter learning unit 11 and set. Then, the coded data is input to the hidden element estimation unit 1312 of the decoding unit 131 (step S62). Then, the visible element estimation unit 1311 estimates the visible element (decoding data) using the model of the complex RBM (step S63).
In this way, the coded data can be decoded in the reverse flow of the coding.

[5.複素RBMと従来手法(GB-RBM)との相違]
複素数z=x+iyは、実部と虚部の連結ベクトルであるz′=[x∈R2Iを用いることで、従来手法の一つであるGB-RBM(Gaussian-Bernoulli RBM)で表現することもできる。GB-RBMは、次の[数29]式~[数32]式で示される。
[5. Differences between complex RBM and conventional method (GB-RBM)]
The complex number z = x + iy is GB-RBM (Gaussian-Bernoulli RBM), which is one of the conventional methods, by using z'= [x T y T ] T ∈ R 2I , which is a connecting vector of the real part and the imaginary part. It can also be expressed by. GB-RBM is represented by the following equations [Equation 29] to [Equation 32].

Figure 0007019138000029
Figure 0007019138000029

Figure 0007019138000030
Figure 0007019138000030

Figure 0007019138000031
Figure 0007019138000031

Figure 0007019138000032
Figure 0007019138000032

但し、Σ=Δ(σ ),Σ=Δ(σ )である。この場合、例えばエネルギー関数に対する実部および虚部のバイアスパラメータの偏微分はそれぞれ、[数33]式および[数34]式で示される。 However, Σ x = Δ (σ x 2 ) and Σ y = Δ (σ y 2 ). In this case, for example, the partial differentials of the bias parameters of the real part and the imaginary part with respect to the energy function are shown by the equations [Equation 33] and [Equation 34], respectively.

Figure 0007019138000033
Figure 0007019138000033

Figure 0007019138000034
Figure 0007019138000034

一方で、z=x+iy,b=b+ib,W=W+iW,q=q+iqとし、複素RBMのエネルギー関数([数3]式の右辺)を書き換えると、[数35]式となる。 On the other hand, if z = x + iy, b = b R + ib I , W = WR + iWI , q = q R + iq I , and the energy function of the complex RBM (the right side of the equation [Equation 3]) is rewritten, [Equation 35] ] Expression.

Figure 0007019138000035
Figure 0007019138000035

但し、次の[数36]式~[数42]式で示す条件を設定した。 However, the conditions shown in the following equations [Equation 36] to [Equation 42] were set.

Figure 0007019138000036
Figure 0007019138000036

Figure 0007019138000037
Figure 0007019138000037

Figure 0007019138000038
Figure 0007019138000038

Figure 0007019138000039
Figure 0007019138000039

Figure 0007019138000040
Figure 0007019138000040

Figure 0007019138000041
Figure 0007019138000041

Figure 0007019138000042
Figure 0007019138000042

ここで、[数31]式と[数35]式を比較すると、本実施の形態例による複素RBMによるモデル化では、xとyのクロスターム(xΣxy -1y)が含まれていることが分かる。すなわち、複素RBMでは、従来手法の1つであるGB-RBMによる複素表現に加えて、特徴量次元ごとに実部と虚部との関係性を考慮した拡張表現であると言える。
さらに、GB-RBMによる複素表現では、[数33]式,[数34]式で示されるように、観測データの実部と虚部のバイアスがそれぞれ独立して計算(例えば実部バイアスの更新では実部のみの情報が用いられ)されるのに対して、複素RBMのバイアスパラメータの更新式([数21]式)では、実部と虚部の両方が用いられて更新される。そのため、本実施の形態例による複素RBMによるモデル化では、複素数のデータ構造を保ったまま学習を行うことができる。
Here, when the equation [Equation 31] and the equation [Equation 35] are compared, the cross-term of x and y (x T Σ xy -1 y) is included in the modeling by the complex RBM according to the embodiment of the present embodiment. You can see that there is. That is, it can be said that the complex RBM is an extended expression that considers the relationship between the real part and the imaginary part for each feature dimension, in addition to the complex expression by GB-RBM, which is one of the conventional methods.
Furthermore, in the complex representation by GB-RBM, the biases of the real part and the imaginary part of the observed data are calculated independently (for example, updating the real part bias) as shown by the equations [Equation 33] and [Equation 34]. In (the information of only the real part is used), in the update formula of the bias parameter of the complex RBM ([Equation 21] formula), both the real part and the imaginary part are used and updated. Therefore, in the modeling by the complex RBM according to the embodiment of the present embodiment, the learning can be performed while maintaining the data structure of the complex number.

[6.実験例]
次に、本実施の形態例による複素RBMによるモデルの有効性を検証するために実験した例について説明する。
ここでは、本実施の形態例による複素RBMによるモデルの有効性を確認するため、音声データの符号化を行い、その符号化音声の品質評価実験を行った。具体的には、Repeated Harvard Sentence Prompts (REHASP)2コーパスを用いた再構築音声の品質評価実験を行い、同コーパスから1リピート分の音声(30センテンス,約20秒,サンプリングレート16kHz)を使用した。そして、窓幅256,64サンプルオーバーラップの短時間フーリエ変換を施した複素スペクトル(129次元)を可視素子として、隠れ素子数200の複素RBMを学習させた。この際、学習率0.01、モーメント係数0.1、バッチサイズ100、繰り返し回数100の確率的勾配法を用いた。また、比較手法として、同じ複素スペクトルデータの実部と虚部を連結したベクトルを可視素子としたGB-RBM(隠れ素子数は200)を、同様の条件で学習させた。
[6. Experimental example]
Next, an example experimented to verify the validity of the model by the complex RBM according to the present embodiment will be described.
Here, in order to confirm the validity of the model by the complex RBM according to the embodiment of the present embodiment, voice data was coded and a quality evaluation experiment of the coded voice was performed. Specifically, we conducted a quality evaluation experiment of reconstructed speech using the Repeated Harvard Sentence Prompts (REHASP) 2 corpus, and used one repeat of speech (30 sentences, about 20 seconds, sampling rate 16 kHz) from the corpus. .. Then, a complex RBM having 200 hidden elements was trained using a complex spectrum (129 dimensions) subjected to a short-time Fourier transform with a window width of 256,64 sample overlap as a visible element. At this time, a stochastic gradient descent method with a learning rate of 0.01, a moment coefficient of 0.1, a batch size of 100, and a number of repetitions of 100 was used. Further, as a comparison method, GB-RBM (the number of hidden elements is 200) in which a vector connecting the real part and the imaginary part of the same complex spectrum data is used as a visible element was trained under the same conditions.

図11は、符号化前のオリジナルの振幅スペクトル(図11A)と、本実施の形態例による複素RBMによるモデルによって復元されたスペクトル(図11B)とを比較した図である。図11において、それぞれ縦軸は周波数、横軸は時間を示す。この図11から分かるように、本実施の形態例による複素RBMによるモデルによって復元されたスペクトルは、オリジナルのスペクトルに近く、本実施の形態例による複素RBMは、高い精度で音声スペクトルのエンコードおよびデコードが可能であることが確認できる。 FIG. 11 is a diagram comparing the original amplitude spectrum before coding (FIG. 11A) with the spectrum restored by the model by the complex RBM according to the embodiment of the present embodiment (FIG. 11B). In FIG. 11, the vertical axis represents frequency and the horizontal axis represents time. As can be seen from FIG. 11, the spectrum restored by the model by the complex RBM according to the present embodiment is close to the original spectrum, and the complex RBM according to the present embodiment encodes and decodes the voice spectrum with high accuracy. Can be confirmed to be possible.

図12は、本実施の形態例による複素RBM(Comp RBM)と、従来のRBM(GB-RBM)とを、学習中の再構築エラーによって比較した様子を示し、縦軸は再構築エラーの数、横軸は時系列の変化を示す。「Adam」または「Ada Grad」は最適化手法にそれぞれAdamまたはAda Gradを使用した場合の結果であり、表記のないものは最適化手法に確率的勾配法を用いた場合の結果を示す。
図12では、複素RBM(Comp RBM)を単独で適用した例と、他の方式と組み合わせた例(Comp RBM+Ada Grad、Comp RBM+Adam)と、従来のRBMを単独で適用した例と、他の方式と組み合わせた例(RBM+Ada Grad、RBM+Adam)との6つの例を示す。
例えば、複素RBMにAdamを組み合わせた例[Comp RBM+Adam:太い実線]の特性は、従来のRBMにAdamを組み合わせた例[RBM+Adam:細い実線]の特性よりも早く収束し、収束時のエラーも低いことが分かる。複素RBMのみを適用した例[Comp RBM:2点鎖線]の特性についても、従来のRBMのみを適用した例[RBM:1点鎖線]の特性よりも早く収束し、収束時のエラーも低いことが分かる。
FIG. 12 shows a comparison between the complex RBM (Comp RBM) according to the present embodiment and the conventional RBM (GB-RBM) based on the reconstruction error during learning, and the vertical axis indicates the number of reconstruction errors. , The horizontal axis shows the change over time. "Adam" or "Ada Grad" is the result when Adam or Ada Grad is used as the optimization method, respectively, and the one without notation shows the result when the stochastic gradient descent method is used as the optimization method.
In FIG. 12, an example in which a complex RBM (Comp RBM) is applied alone, an example in which it is combined with another method (Comp RBM + Ada Grad, Comp RBM + Adam), an example in which a conventional RBM is applied alone, and another method are shown. Six examples with combined examples (RBM + Ada Grad, RBM + Adam) are shown.
For example, the characteristics of the example of combining Adam with complex RBM [Comp RBM + Adam: thick solid line] converge faster than the characteristics of the example of combining Adam with conventional RBM [RBM + Adam: thin solid line], and the error at the time of convergence is low. You can see that. The characteristics of the example [Comp RBM: two-dot chain line] to which only the complex RBM is applied also converge faster than the characteristics of the example [RBM: one-dot chain line] to which only the conventional RBM is applied, and the error at the time of convergence is low. I understand.

[7.変形例]
なお、図3に示す複素RBMのモデルは、1層のRBMの構成を示したが、RBMを多層に積み重ねたDBN(Deep Belief Net) に、本発明の複素RBMを適用してもよい。
図13は、複素RBMを3層化した例を示す。
実部は、可視素子zから1層目の隠れ符号hと、その隠れ素子hのバイアスcを得る。虚部は、可視素子z()から1層目の隠れ符号hと、その隠れ素子hのバイアスcを得る。W′およびW′()は、可視素子zと隠れ素子hとの間の双方向結合重みである。
1層目の実部の隠れ符号hおよびバイアスcから、2層目の隠れ符号hおよびバイアスcを得、1層目の実部の隠れ符号hおよびバイアスcから、2層目の隠れ符号hおよびバイアスcを得る。W′およびW′()は隠れ素子hと隠れ素子hとの間の双方向結合重みである。
さらに、2層目の実部の隠れ符号hおよびバイアスcから、3層目の隠れ符号hおよびバイアスcを得、2層目の実部の隠れ符号hおよびバイアスcから、3層目の隠れ符号hおよびバイアスcを得る。W′およびW′()は隠れ素子hと隠れ素子hとの間の双方向結合重みである。
このように、多層化した複素RBMによっても、同様に符号化および復号化ができるようになる。
[7. Modification example]
Although the model of the complex RBM shown in FIG. 3 shows the configuration of a single layer RBM, the complex RBM of the present invention may be applied to a DBN (Deep Belief Net) in which RBMs are stacked in multiple layers.
FIG. 13 shows an example in which the complex RBM is three-layered.
The real part obtains the hidden code h 1 of the first layer from the visible element z and the bias c 1 of the hidden element h. The imaginary portion obtains the hidden code h 1 of the first layer from the visible element z ( ) and the bias c 1 of the hidden element h. W 1 ′ and W 1 ′ ( ) are bidirectional coupling weights between the visible element z and the hidden element h 1 .
From the hidden sign h 1 and the bias c 1 of the real part of the first layer, the hidden sign h 2 and the bias c 2 of the second layer are obtained, and from the hidden sign h 1 and the bias c 1 of the real part of the first layer, 2 The hidden sign h 2 and the bias c 2 of the layer are obtained. W 2 ′ and W 2 ′ ( ) are bidirectional coupling weights between the hidden element h 1 and the hidden element h 2 .
Further, from the hidden code h 2 and the bias c 2 of the real part of the second layer, the hidden code h 3 and the bias c 3 of the third layer are obtained, and from the hidden code h 2 and the bias c 2 of the real part of the second layer. The hidden sign h 3 and the bias c 3 of the third layer are obtained. W 3 ′ and W 3 ′ ( ) are bidirectional coupling weights between the hidden element h 2 and the hidden element h 3 .
In this way, even with the multi-layered complex RBM, coding and decoding can be performed in the same manner.

また、上述した実施の形態例では、実験例として音声データに適用した場合を説明したが、本発明による複素RBMは、他の様々の信号の符号化および復号化に適用が可能である。例えば画像データの符号化および復号化に本発明による複素RBMを適用してもよい。さらに、本発明による複素RBMは、音声データや画像データ以外のデータの符号化および復号化に適用してもよい。 Further, in the above-described embodiment, the case of applying to voice data has been described as an experimental example, but the complex RBM according to the present invention can be applied to coding and decoding of various other signals. For example, the complex RBM according to the present invention may be applied to the coding and decoding of image data. Further, the complex RBM according to the present invention may be applied to coding and decoding of data other than audio data and image data.

1・・・符号化装置、2・・・復号化装置、11・・・パラメータ学習ユニット、12・・・符号化処理ユニット、13・・・復号化処理ユニット、101・・・CPU(中央制御ユニット)、102・・・ROM、103・・・RAM、104・・・HDD/SDD、105・・・接続I/F、106・・・通信I/F、111,121・・・複素数データ取得部、112,122・・・前処理部、113・・・パラメータ推定部、123・・・符号化部、131・・・復号化部、132・・・後処理部、133・・・出力部、1131,1231,1311・・・可視素子推定部、1132,1232,1312・・・隠れ素子推定部
1 ... Coding device, 2 ... Decoding device, 11 ... Parameter learning unit, 12 ... Coding processing unit, 13 ... Decoding processing unit, 101 ... CPU (central control) Unit), 102 ... ROM, 103 ... RAM, 104 ... HDD / SDD, 105 ... Connection I / F, 106 ... Communication I / F, 111, 121 ... Complex number data acquisition Units 112, 122 ... Pre-processing unit, 113 ... Parameter estimation unit, 123 ... Encoding unit, 131 ... Decoding unit, 132 ... Post-processing unit, 133 ... Output unit , 1131, 1231, 1311 ... Visible element estimation unit, 1132, 1232, 1312 ... Hidden element estimation unit

Claims (5)

入力データを表現する可視素子と、潜在的な情報を表現する隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを適用して、学習用データに対して、前記隠れ素子および前記結合重みを推定する処理を行うパラメータ学習ユニットと、
符号化用入力データに対して、前記パラメータ学習ユニットで推定した前記制限ボルツマンマシンによる確率モデルを適用して、前記隠れ素子を推定し、推定した前記隠れ素子を符号化データとして出力する符号化ユニットとを備え、
前記学習用データおよび前記符号化用入力データは複素数データであり、前記制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれている
符号化装置。
The hidden element is applied to the learning data by applying a probabilistic model by a restricted Boltzmann machine assuming that there is a coupling weight between the visible element representing the input data and the hidden element expressing the potential information. And a parameter learning unit that performs processing to estimate the connection weight,
A coding unit that estimates the hidden element by applying the probability model by the restricted Boltzmann machine estimated by the parameter learning unit to the input data for coding, and outputs the estimated hidden element as coding data. And with
The training data and the coding input data are complex number data, and the energy function of the probability model by the restricted Boltzmann machine includes a cross-term of a real part and an imaginary part.
Coding device.
前記制限ボルツマンマシンによる確率モデルは、I次元のデータz∈CIで構成される可視素子zと隠れ素子hを持ち、モデルのパラメータ集合をθ、そのパラメータ集合θを構成するパラメータをb、c、W、γ、およびδ、可視素子のバイアスをb∈CI、隠れ素子のバイアスをc∈RJ、可視素子と隠れ素子との間の複素結合重みをW∈CI×J、各符号のオーバーラインを複素共役、Hはエルミート転置としたとき、以下の式によって定義される
Figure 0007019138000043

請求項1に記載の符号化装置。
The probability model by the restricted Boltsman machine has a visible element z composed of I-dimensional data z ∈ CI and a hidden element h, the parameter set of the model is θ, and the parameters constituting the parameter set θ are b, c, and so on. W, γ, and δ, the bias of the visible element is b ∈ CI, the bias of the hidden element is c ∈ RJ, the complex conjugate weight between the visible element and the hidden element is W ∈ CI × J, and the overline of each sign is Complex conjugate, H is defined by the following equation when it is Hermitian translocation.
Figure 0007019138000043

The coding device according to claim 1.
さらに、前記符号化ユニットで得られた符号化データを復号化する復号化処理ユニットを備えた
請求項1~2のいずれか1項に記載の符号化装置。
The coding device according to any one of claims 1 to 2, further comprising a decoding processing unit for decoding the coded data obtained by the coding unit.
入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを適用して、学習用データに対して、前記隠れ素子および前記結合重みを推定する処理を演算処理部が実行するパラメータ学習処理と、
符号化用入力データに対して、前記パラメータ学習処理で推定した前記制限ボルツマンマシンによる確率モデルを適用して、前記隠れ素子を推定する処理を演算処理部が実行し、推定した前記隠れ素子を符号化データとして出力する符号化処理と、
を含み、
前記パラメータ学習処理で得られる前記学習用データと前記符号化処理で得られる前記符号化用入力データは複素数データであり、前記制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれている
符号化方法。
The hidden element is applied to the learning data by applying a probabilistic model by a restricted Boltzmann machine assuming that there is a coupling weight between the visible element representing the input data and the hidden element expressing the potential information. And the parameter learning process in which the arithmetic processing unit executes the process of estimating the join weight, and
The arithmetic processing unit executes the process of estimating the hidden element by applying the probability model by the restricted Boltzmann machine estimated by the parameter learning process to the input data for coding, and the estimated hidden element is coded. Coding processing to output as conversion data and
Including
The learning data obtained by the parameter learning process and the coding input data obtained by the coding process are complex number data, and the cross-term of the real part and the imaginary part in the energy function of the probability model by the restricted Boltzmann machine. It is included
Coding method.
入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを適用して、前記入力データに対して、前記隠れ素子および前記結合重みを推定する処理を行い、複素数データである学習用データを得るパラメータ学習ステップと、
前記入力データに対して、前記パラメータ学習ステップで推定した制限ボルツマンマシンによる確率モデルを適用して、前記隠れ素子を推定し、推定した前記隠れ素子を、複素数データである符号化データとして出力する符号化ステップとを、含み、
前記制限ボルツマンマシンによる確率モデルのエネルギー関数に実部と虚部のクロスタームが含まれている
前記各ステップをコンピュータに実行させるプログラム。
The hidden element is applied to the input data by applying a probabilistic model by a restricted Boltzmann machine assuming that there is a coupling weight between the visible element representing the input data and the hidden element expressing the potential information. And the parameter learning step of obtaining the training data which is the complex number data by performing the process of estimating the connection weight.
A code that estimates the hidden element by applying a probability model by the restricted Boltzmann machine estimated in the parameter learning step to the input data, and outputs the estimated hidden element as coded data which is complex data. Including the conversion step,
The energy function of the stochastic model by the restricted Boltzmann machine contains the cross-term of the real part and the imaginary part.
A program that causes a computer to execute each of the above steps.
JP2017037640A 2017-02-28 2017-02-28 Coding device, coding method and program Active JP7019138B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017037640A JP7019138B2 (en) 2017-02-28 2017-02-28 Coding device, coding method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017037640A JP7019138B2 (en) 2017-02-28 2017-02-28 Coding device, coding method and program

Publications (2)

Publication Number Publication Date
JP2018142278A JP2018142278A (en) 2018-09-13
JP7019138B2 true JP7019138B2 (en) 2022-02-15

Family

ID=63526747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017037640A Active JP7019138B2 (en) 2017-02-28 2017-02-28 Coding device, coding method and program

Country Status (1)

Country Link
JP (1) JP7019138B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102180617B1 (en) * 2017-12-07 2020-11-19 한국과학기술원 Apparatus and system for machine learning using coding technique
JP7368827B2 (en) * 2019-08-20 2023-10-25 国立大学法人電気通信大学 Encoding and decoding devices, parameter learning devices, and programs

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015148189A2 (en) 2014-03-24 2015-10-01 Qualcomm Incorporated Differential encoding in neural networks
JP2016143043A (en) 2015-02-05 2016-08-08 日本電信電話株式会社 Speech model learning method, noise suppression method, speech model learning system, noise suppression system, speech model learning program, and noise suppression program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07111714B2 (en) * 1991-02-01 1995-11-29 工業技術院長 Neural network and signal processing method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015148189A2 (en) 2014-03-24 2015-10-01 Qualcomm Incorporated Differential encoding in neural networks
JP2016143043A (en) 2015-02-05 2016-08-08 日本電信電話株式会社 Speech model learning method, noise suppression method, speech model learning system, noise suppression system, speech model learning program, and noise suppression program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
David P. Reichet and Thomas Serre,Neuronal Synchrony in Complex-Valued Deep Networks,arXiv.org,米国,Cornell University,2014年03月22日,pp.1-14,https://arxiv.org/pdf/1312.6115.pdf
KyungHyun Cho, Tapani Raiko and Allexander Ilin,Gaussian-Bernoulli Deep Boltzmann Machine,The 2013 International Joint Conference on Neural Networks (IJCNN),米国,IEEE,2013年,pp.1-7,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6706831

Also Published As

Publication number Publication date
JP2018142278A (en) 2018-09-13

Similar Documents

Publication Publication Date Title
JP7018659B2 (en) Voice conversion device, voice conversion method and program
US10592800B2 (en) Neural networks for transforming signals
US20170200446A1 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
EP1995723B1 (en) Neuroevolution training system
JP4586577B2 (en) Disturbance component suppression device, computer program, and speech recognition system
CN112634920A (en) Method and device for training voice conversion model based on domain separation
JP7274184B2 (en) A neural vocoder that implements a speaker-adaptive model to generate a synthesized speech signal and a training method for the neural vocoder
Pascual et al. Time-domain speech enhancement using generative adversarial networks
Jang et al. Learning statistically efficient features for speaker recognition
JP6543820B2 (en) Voice conversion method and voice conversion apparatus
WO2017146073A1 (en) Voice quality conversion device, voice quality conversion method and program
CN112213771A (en) Seismic wave impedance inversion method and device
JP7019138B2 (en) Coding device, coding method and program
Masuyama et al. Online phase reconstruction via DNN-based phase differences estimation
JP5881454B2 (en) Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal
JP2023545820A (en) Generative neural network model for processing audio samples in the filter bank domain
JP6721165B2 (en) Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
JP7368827B2 (en) Encoding and decoding devices, parameter learning devices, and programs
CN116959462A (en) Room impulse response estimation method, apparatus, device and readable storage medium
Nakashika Complex-Valued Variational Autoencoder: A Novel Deep Generative Model for Direct Representation of Complex Spectra.
JP6636973B2 (en) Mask estimation apparatus, mask estimation method, and mask estimation program
Sarma et al. Segmentation and classification of vowel phonemes of assamese speech using a hybrid neural framework
JP6912780B2 (en) Speech enhancement device, speech enhancement learning device, speech enhancement method, program
JP7047665B2 (en) Learning equipment, learning methods and learning programs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210907

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220125

R150 Certificate of patent or registration of utility model

Ref document number: 7019138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150