JP6704585B2 - Information processing equipment - Google Patents

Information processing equipment Download PDF

Info

Publication number
JP6704585B2
JP6704585B2 JP2018206370A JP2018206370A JP6704585B2 JP 6704585 B2 JP6704585 B2 JP 6704585B2 JP 2018206370 A JP2018206370 A JP 2018206370A JP 2018206370 A JP2018206370 A JP 2018206370A JP 6704585 B2 JP6704585 B2 JP 6704585B2
Authority
JP
Japan
Prior art keywords
information
learning
neural network
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018206370A
Other languages
Japanese (ja)
Other versions
JP2020071755A (en
Inventor
可直 佐藤
可直 佐藤
成満 池田
成満 池田
真人 藤野
真人 藤野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fairy Devices Inc
Original Assignee
Fairy Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fairy Devices Inc filed Critical Fairy Devices Inc
Priority to JP2018206370A priority Critical patent/JP6704585B2/en
Publication of JP2020071755A publication Critical patent/JP2020071755A/en
Application granted granted Critical
Publication of JP6704585B2 publication Critical patent/JP6704585B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、様々な情報、系列情報、時系列情報を処理し、予測、識別、実行が可能なニューラルネットワーク系情報処理装置に関する。特に、時系列データ、例えば、文章、音声、音楽、動画等の処理に適した情報処理装置に関する。 The present invention relates to a neural network system information processing apparatus capable of processing various information, series information, and time series information and performing prediction, identification, and execution. In particular, the present invention relates to an information processing apparatus suitable for processing time-series data such as text, voice, music, and moving images.

深層学習(Deep Learning)は、機械学習の一種であるニューラルネットワーク(Neural Network)の階層を深めた、生物の脳の神経細胞(ニューロン、Neuron)モデルとしたアルゴリズムで、1940年代から研究が行われてきた歴史のあるアルゴリズムである。ニューラルネットワークの基本的な構造は、入力層、複数の隠れ層、出力層を備え、各層に含まれる複数のノード(ユニット)をエッジで接続する構造となっており、隠れ層の層数が多いものを深層学習と呼んでいる。そして、各層は活性化関数を、エッジは結合荷重を有し、各ノードの値は、そのノードと接続する前の層のノードの値、エッジの結合荷重の値、及び、層が有する活性化関数から計算され、ノード接続方法、計算方法には様々なものが開発されており、近年急速な進化を遂げ、画像認識、音声認識等の様々な分野で実用化されている。 Deep Learning is an algorithm that uses a model of neural cells (neurons) of a living organism, which has deepened the hierarchy of a neural network (Neural Network), which is a type of machine learning, and has been studied since the 1940s. It is an algorithm with a long history. The basic structure of a neural network is that it has an input layer, multiple hidden layers, and an output layer, and connects multiple nodes (units) included in each layer with edges, and the number of hidden layers is large. Things are called deep learning. Then, each layer has an activation function, an edge has a connection weight, and the value of each node is the value of the node of the layer before connecting to that node, the value of the edge connection weight, and the activation that the layer has. It is calculated from a function, and various node connection methods and calculation methods have been developed. In recent years, it has made rapid progress and has been put to practical use in various fields such as image recognition and voice recognition.

このような深層学習で、画像処理の分野で実績があるのは、CNN(Convolution Neural Network)やGAN(Generative Adversarial Network)である(非特許文献1)。CNNでは、隠れ層において、入力画像の特徴を維持しながら画像を縮小処理して画像を抽象化し、この抽象画された画像を用いて、入力される画像の分類及び認識をするものである。現在では、更に、教師画像を学習して教師画像と近似した生成画像を生み出すネットワーク構造が開発され、この生成器(Generator)と教師画像と生成画像を識別するネットワーク構造である識別器(Discriminator)の二つのニューラルネットワークで構成されたネットワーク構造であるGANの有効性に注目が注がれている。 In such deep learning, CNN (Convolution Natural Network) and GAN (General Adversary Network) have a track record in the field of image processing (Non-Patent Document 1). In the CNN, in the hidden layer, the image is reduced while preserving the features of the input image to abstract the image, and the input image is classified and recognized using the abstracted image. At present, a network structure for learning a teacher image to generate a generated image similar to the teacher image has been developed. This generator (Generator) and a discriminator (Discriminator) which is a network structure for discriminating the teacher image and the generated image. Attention is focused on the effectiveness of GAN, which is a network structure composed of two neural networks.

画像処理は二次元の矩形データで固定長の系列データしか取り扱わない一方、音声データ等の可変長の時系列データを扱うことが可能なネットワーク構造として、RNN(Recurrent Neural Network)が開発された(非特許文献2)。これは、隠れ層の値を再び隠れ層に入力するネットワーク構造したことに特徴があるが、通常、誤差逆伝播法BPTT(Backproagation Through Time)という学習方法を適用するため、過去に遡った全ての時系列データが学習に必要で、長時間のデータを処理する場合、隠れ層が増加するにつれ、勾配損失及び過学習等が生じると共に、莫大な演算量となり、短時間のデータしか処理できないという問題があった。そのため、RPROP(Resilient Backpropagation)やRTRL(Real Time Recurrent Leaning)等の学習方法が検討されてきたが、上記課題の解決には至っていない。 While image processing handles only fixed-length series data in two-dimensional rectangular data, RNN (Recurrent Natural Network) has been developed as a network structure capable of handling variable-length time series data such as voice data ( Non-Patent Document 2). This is characterized by a network structure in which the value of the hidden layer is input to the hidden layer again, but since a learning method called error backpropagation method BPTT (Backpropagation Through Time) is usually applied, all the methods traced back to the past The time-series data of is required for learning, and when processing long-term data, as the hidden layer increases, gradient loss and over-learning etc. occur, and the amount of calculation becomes enormous and only short-time data can be processed. There was a problem. Therefore, learning methods such as RPROP (Resilient Backpropagation) and RTRL (Real Time Recurring Learning) have been studied, but the above problems have not been solved.

このようなRNNの課題を解決するネットワーク構造として、1997年に開発された、長時間前のデータが関連付けて記録されるデータ貯蔵部を有するLSTM(Long Short−Term Memory)が注目されているが、勾配損失を解消する技術であり、学習方法として基本的にはBPTTを適用しており、大量の教師あり学習が必要であるということに変わりはなく、演算に必要な多大な時間と労力を低減することは困難であり、極めてコストが高いという問題を内在している(非特許文献1)。 As a network structure for solving such a problem of the RNN, an LSTM (Long Short-Term Memory), which has been developed in 1997 and has a data storage unit in which data for a long time before is associated and recorded, is attracting attention. , It is a technique to eliminate gradient loss, and basically applies BPTT as a learning method, and it still requires a large amount of supervised learning, which requires a large amount of time and effort required for calculation. It is difficult to reduce, and there is an inherent problem that the cost is extremely high (Non-Patent Document 1).

近年、このような時系列データを扱うRNNやLSTMの課題を解決する新しいニューラルネットワーク構造として、リザバー計算(RC、Reservoir Computing)が提案されている(非特許文献3及び4)。RCは、入力層、リザバー層(隠れ層)、出力層の三層で構成されているRNNの一種であるが、入力層とリザバー層間、リサバー層内のエッジにおける結合荷重は初期値のまま変更することはなく、リザバー層と出力層と結合するエッジにおいてのみ結合荷重を調整して学習するという点に特徴がある。リザバー層は、ノードが規則性なくエッジで結合されており、入力されてきた情報を教師なし学習で学習しつつ、その学習された情報を蓄積していく機能を有していると考えられる。 In recent years, reservoir computation (RC, Reservoir Computing) has been proposed as a new neural network structure that solves the problems of RNN and LSTM that handle such time-series data (Non-Patent Documents 3 and 4). RC is a kind of RNN composed of three layers of an input layer, a reservoir layer (hidden layer), and an output layer, but the coupling load at the edges of the input layer, the reservoir layer, and the reservoir layer is changed to the initial value. The feature is that learning is performed by adjusting the connection weight only at the edge connecting the reservoir layer and the output layer. The reservoir layer is considered to have a function of accumulating the learned information while learning the input information by unsupervised learning in which nodes are connected by edges without regularity.

このようなRCの範疇に属するアルゴリズムには、ESN(Echo State Network)及びLSM(Liquid State Machine)等があり、いずれも、演算に掛かる負担が少なく、時系列データを扱うことができ、RNN等と遜色ない学習結果を得ることができる(非特許文献5及び6)。代表例として、ESNの構造を図1に示す。また、RCのリザバー層と出力層との結合における特徴的な学習方法として、FORCE(First Order Reduced and Controlled Error)やBPDC(Backpropagation−Decorrelation)等が提案されている(非特許文献7及び8)。しかしながら、RCに高い性能を付与するためには、リザバー層にタスク実行に必要となる活性化関数群が存在しなければならないという問題がある。 Algorithms belonging to the category of such RC include ESN (Echo State Network) and LSM (Liquid State Machine), etc., and all of them have a small calculation load and can handle time-series data. It is possible to obtain a learning result comparable to that (Non-patent documents 5 and 6). As a typical example, the structure of ESN is shown in FIG. Further, FORCE (First Order Reduced and Controlled Error), BPDC (Backpropagation-Decoration), and the like have been proposed as characteristic learning methods in the connection between the reservoir layer and the output layer of RC (Non-Patent Documents 7 and 8). .. However, there is a problem that a group of activation functions necessary for task execution must exist in the reservoir layer in order to give high performance to RC.

一方、教師なし学習の代表例で、RCと同様演算に掛かる負担が少ない深層学習として注目されているのが、1982年、Kohonenによって提案された、入力された情報が自己組織的に分類される自己組織化マップ(SOM、Self−Organizing Map)である(非特許文献9及び10)。これは、入力層と競合層があり、入力層のノードと入力層よりも多い競合層のノードとが全てエッジで結合されており、エッジの結合荷重は当初適当に与えられるが、Kohonennのアルゴリズムによって、学習するごとに結合の荷重が更新され、入力された情報が精度よく分類される。このようなSOMは、多次元データを扱うことができ、複雑な計算が必要なく、視覚的な結果得られることから、遺伝子解析、音声認識、画像解析、ロボット制御等への応用が期待されている。これとほとんど相違ないアルゴリズムとして、ART(Adaptive Resonance Theory Model)及びLVQ(Learning Vector Quantization)等がある。代表例として、SOMの構造を図2に示す。 On the other hand, in the typical example of unsupervised learning, attention is paid to deep learning, which is similar to RC and has a small calculation load, and the input information proposed by Kohonen in 1982 is classified in a self-organizing manner. It is a self-organizing map (SOM, Self-Organizing Map) (Non-Patent Documents 9 and 10). This is because there are an input layer and a competition layer, and all the nodes in the input layer and the nodes in the competition layer that are larger than the input layers are all connected by edges, and the edge connection weight is given appropriately at first. By this, the weight of connection is updated every time learning is performed, and the input information is classified with high accuracy. Such SOM can handle multi-dimensional data, without complex calculations, since the visual results are obtained, genetic analysis, speech recognition, image analysis, applied to the robot control and the like are expected ing. Algorithms that are almost the same as the above include ART (Adaptive Resonance Theory Model) and LVQ (Learning Vector Quantization). As a typical example, the structure of the SOM is shown in FIG.

しかしながら、このようなデータクラスタリング(Data Clustering)的なニューラルネットワーク構造では、繰り返し学習が必要であり、データ数が大きい場合、繰り返し学習の回数とデータ数に比例して演算量が膨大になるという問題がある。また、初期の結合荷重や繰り返し学習の回数が適切でない場合、安定した性能が得られないという問題もある。 However, in such a data clustering-like neural network structure, iterative learning is required, and when the number of data is large, the amount of calculation becomes enormous in proportion to the number of repeated learning and the number of data. There is. There is also a problem that stable performance cannot be obtained when the initial connection weight or the number of repeated learnings is not appropriate.

特に、時系列データが音声の場合、音声認識システムとして、機械学習(Machine Learning)が有効であることが認識されており、そのシステムは、主として、音声情報の特徴の抽出、抽出された特徴量のモデル化、モデル化されたパラメータを推定する評価基準、最適化アルゴリズムから構成される。特に、音声情報の特徴量をモデル化する方法が重要で、生成モデル、識別モデル、因子分析モデル等が提案されてきた。例えば、生成モデルとしては、GMM−UBM(Gaussian Mixture Mode−Universal Backroud)やGMM-SV(Super Vector)、識別モデルとしては、SVM(Super Vector Machine)、因子分析モデルとしては、i−vector等である(非特許文献11及び12)。その結果、現在の最高水準のモデルであるi−vector/PLDA(Probabilistic Linear Discriminant Analysis)に至っている。この最高水準のモデルを利用しても、学習、識別データが少ない場合、性能が著しく劣化するという問題がある。 In particular, when the time-series data is voice, it has been recognized that machine learning is effective as a voice recognition system, and the system mainly extracts the features of voice information and extracts the extracted feature amount. , The evaluation criteria for estimating the modeled parameters, and the optimization algorithm. In particular, a method of modeling a feature amount of voice information is important, and a generation model, a discrimination model, a factor analysis model, etc. have been proposed. For example, the generation model is GMM-UBM (Gaussian Mixture Mode-Universal Background) or GMM-SV (Super Vector), the identification model is SVM (Super Vector Machine), and the factor analysis model is i-vect. (Non-patent documents 11 and 12). As a result, the current highest level model, i-vector/PLDA (Probabilistic Linear Discriminant Analysis) has been reached. Even if this highest-level model is used, there is a problem that the performance is significantly deteriorated when the learning and identification data are small.

特許第4093858号公報Japanese Patent No. 4093858

「やさしい機械学習」、http://gagbot.net/machine-learning."Easy Machine Learning", http://gagbot.net/machine-learning. 「ニューラルネットワークで時系列データの予測を行う」, https://qiita.com/icoxfog417/items/2791ee878deee0d0fd9c."Predict time series data with neural network", https://qiita.com/icoxfog417/items/2791ee878deee0d0fd9c. 「ちょっと変わったニューラルネットワークReservoir Computing」, https://qiita.com/kazoo04/items/71b659ced9dc0342a2b0."A little strange neural network Reservoir Computing", https://qiita.com/kazoo04/items/71b659ced9dc0342a2b0. B. Schrauwen,D. Verstraeten, and J. V. Campenhout,“An overview of reservoir computing: theory,applications and implementations”, ESANN'2007 proceedings - European Symposiumon Artificial Neural Networks Bruges (Belgium), 25-27 April 2007, d-sidepubli., ISBN 2-930307-07-2, pp.471-482.B. Schrauwen, D. Verstraeten, and JV Campenhout, “An overview of reservoir computing: theory, applications and implementations”, ESANN'2007 proceedings-European Symposiumon Artificial Neural Networks Bruges (Belgium), 25-27 April 2007, d-sidepubli ., ISBN 2-930307-07-2, pp.471-482. H. Jaeger,“Echo state network”, Scholarpedia, 2(9):2330(2007), http://www. Scholar-pedia.org/article/Echo_state_network.H. Jaeger, “Echo state network”, Scholarpedia, 2(9):2330(2007), http://www. Scholar-pedia.org/article/Echo_state_network. S. Kok,“Liquid State Machine Optimization”, https://pdfs.semanticscholar. org/379d/135c7ac1a5bded34100b98d04712e2473ec4.pdf.S. Kok, “Liquid State Machine Optimization”, https://pdfs.semanticscholar.org/379d/135c7ac1a5bded34100b98d04712e2473ec4.pdf. D. Sussillo andL.F. Abbott, “GeneratingCoherent Patterns of Activity from Chaotic Neural Networks”, Neuron 63, 544-557,August 27, 2009.D. Sussillo and L.F.Abbott, “GeneratingCoherent Patterns of Activity from Chaotic Neural Networks”, Neuron 63, 544-557, August 27, 2009. J. J. Steil,“Backpropagation-Decorrelation:onlinerecurrent learning with 0(N)complexity”,http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.161.9279&rep=rep1& type=pdf.J. J. Steil, “Backpropagation-Decorrelation:onlinerecurrent learning with 0(N)complexity”, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.161.9279&rep=rep1& type=pdf. T. Kohonen,“Self-OrganizedFormation of Topologically Correct Feature Maps”, Biol. Cybern., 43, 59-69(1982).T. Kohonen, “Self-OrganizedFormation of Topologically Correct Feature Maps”, Biol. Cybern., 43, 59-69 (1982). A. K. Jain, M. N. Murty, and P. J. Flynn,“Data Clustering : A Review”,ACM Computing Surveys, Vol. 31, No. 3, September 1999, pp.264-323.A. K. Jain, M. N. Murty, and P. J. Flynn, “Data Clustering :A Review”, ACM Computing Surveys, Vol. 31, No. 3, September 1999, pp.264-323. 越仲孝文, 篠田浩一, 「話者認識の国際動向」,日本音響学会誌, 69巻, 7号(2013), pp.342-348.Kobunaka Takafumi, Shinoda Koichi, "International trend of speaker recognition", Journal of Acoustical Society of Japan, Volume 69, No. 7 (2013), pp.342-348. 小川哲司, 松井知子, 「話者認識で用いる機械学習」, 日本音響学会誌, 69巻, 7号(2013),pp.349-356.Tetsuji Ogawa, Tomoko Matsui, "Machine Learning Used for Speaker Recognition," Journal of Acoustical Society of Japan, Volume 69, No. 7 (2013), pp.349-356.

ニューラルネットワーク系情報処理技術は、次のような課題がある。RNN等の教師あり学習は、大量の教師あり学習で、学習方法としてBPTTを使用するため、莫大な演算量が必要であると共に、勾配損失及び過学習の問題がある。ESN等のリザバー層から出力層の結合荷重をチューニングするRCは、演算量は抑制されるが、高い性能を要求する場合、リザバー層にタスク実行に必要となる関数群が存在しなければならない。また、SOM等のクラスタリング的な教師なし学習は、構造上スタティックな情報のみしか扱えないこと、繰り返し学習が必要な為、その回数とデータ数に比例して演算量が膨大になること、また、初期の結合荷重や繰り返し学習の回数が適切でない場合、安定した性能が得られないという問題がある。 Neural network information processing technology has the following problems. Supervised learning such as RNN is a large amount of supervised learning and uses BPTT as a learning method. Therefore, a huge amount of calculation is required and there are problems of gradient loss and overlearning. RC, which tunes the coupling weight from the reservoir layer to the output layer, such as ESN, suppresses the amount of computation, but if high performance is required, the reservoir layer must have a function group necessary for task execution. Further, clustering-like unsupervised learning such as SOM can handle only static information structurally, and iterative learning is required, resulting in an enormous amount of calculation in proportion to the number of times and the number of data. There is a problem that stable performance cannot be obtained when the initial connection weight or the number of repeated learning is not appropriate.

特に、音声処理技術においては、現在の最高水準であるi−vector/PLDAモデリングを用いた音声識別システムでも、学習、識別データが少ない場合、性能が著しく劣化するという課題がある。そのため、音声認識システムへのニューラルネットワーク系情報処理技術の適用が検討されているが、当然、音声認識システムにRNN、ESNやLSM等のRC、及び、SOM、ART、LVQ等のクラスタリング的な教師なし学習を適用する場合にも、上述したようなそれぞれ固有の課題が生起する。 In particular, in the voice processing technology, even the voice identification system using the current highest level i-vector/PLDA modeling has a problem that the performance is significantly deteriorated when the amount of learning and identification data is small. Therefore, application of neural network type information processing technology to a voice recognition system is being considered, but naturally, RC such as RNN, ESN and LSM, and clustering teachers such as SOM, ART and LVQ are applied to the voice recognition system. Even when the none learning is applied, each unique problem as described above occurs.

本発明は、上記課題を解決した単純なニューラルネットワーク構造であって、演算が容易で少ないにもかかわらず、性能に優れた情報処理装置及び情報識別装置、特に、時系列データにも対応可能な情報処理装置及び情報識別装置を提供することを目的とする。 INDUSTRIAL APPLICABILITY The present invention is a simple neural network structure that solves the above problems, and is capable of handling information processing devices and information identifying devices with excellent performance, particularly time-series data, even though the number of operations is small and easy. An object is to provide an information processing device and an information identification device.

本発明者らは、ESN、LSM、及び、SOM等のニューラルネットワーク構造及びそれらを実行するアルゴリズムを詳細に検討した結果、RCにおいて、リザバー層に入力する情報の特徴を予め抽出し、事前学習することによって、上述した課題を解決できることを見出すと共に、リザバー層と出力層との結合における学習方法を最適化することによって更に性能が向上することを見出し、本発明の完成に至った。 As a result of detailed study of neural network structures such as ESN, LSM, and SOM and algorithms for executing them, the present inventors have extracted in advance features of information to be input to the reservoir layer in RC and pre-learned. As a result, it has been found that the above-mentioned problems can be solved, and further, the performance is further improved by optimizing the learning method in the connection of the reservoir layer and the output layer, and the present invention has been completed.

すなわち、本発明は、少なくとも、情報入力部と、前記情報入力部に入力した情報を空間情報に埋め込む教師なし構造学習を行う特徴抽出部と、この特徴抽出部で教師なし構造学習された情報を教師なし学習で更に学習を行うネットワーク中に導入してその構造学習された情報を学習しつつ蓄積する情報蓄積部と、この情報蓄積部で蓄積された情報から教師あり学習によって解答を抽出する情報読出部とを備えるニューラルネットワーク系情報処理装置を提供するものであって、この順に直接接続されることが効率的で好ましい。 That is, at least an information input unit, a feature extraction unit that performs unsupervised structure learning that embeds information input to the information input unit in spatial information, and information that is unsupervised structure learning by the feature extraction unit. Information that is introduced into a network that performs further learning by unsupervised learning, and an information storage unit that stores the structure-learned information while learning, and information that extracts answers by supervised learning from the information stored in this information storage unit The present invention provides a neural network type information processing apparatus including a reading unit, and direct connection in this order is efficient and preferable.

更に、情報の種類、質、及び、量等に応じて、本発明の情報処理装置の前に、情報収集部及び情報処理部を備えることが好ましい。一方、本発明の情報処理装置の後には、情報処理の結果の扱い方に応じて、様々な方法のマン・マシン・インターフェースとしての出力部を設けることが好ましい。 Furthermore, it is preferable to provide an information collecting unit and an information processing unit before the information processing apparatus of the present invention, depending on the type, quality, quantity, and the like of information. On the other hand, after the information processing apparatus of the present invention, it is preferable to provide an output unit as a man-machine interface of various methods depending on how to handle the result of information processing.

本発明の情報処理装置を構成する情報入力部、特徴抽出部、情報蓄積部、及び、情報読出部は、特に限定されるものではない。ただし、特徴抽出部が、時系列データも扱うことができ、入力した情報を空間情報に埋め込む教師なし構造学習を行うことができるデータクラスタリング的なニューラルネットワーク構造であって、情報蓄積部も、時系列データも扱うことができ、入力した情報を教師なし学習で学習しつつ、その学習された情報を蓄積することができるRC的なニューラルネットワーク構造であることが求められる。 The information input unit, the feature extraction unit, the information storage unit, and the information reading unit that form the information processing apparatus of the present invention are not particularly limited. However, the feature extraction unit is a data clustering-like neural network structure that can handle time-series data and can perform unsupervised structure learning that embeds input information in spatial information. It is required to have an RC neural network structure capable of handling series data and learning the input information by unsupervised learning while accumulating the learned information.

具体的には、特徴抽出部として、SOM、ART、及び、LVQ等の情報入力部と特徴抽出部とが二層で接続され、その層間で教師なしの繰返し競合学習が行われる新しいニューラルネットワーク構造全体又はその一部を利用することができる。また、従来の教師なし学習で次元圧縮を主として行うPCA(Principal Component Analysis)、Auto−encorder、及び、GTM(Generative Topograhic Map)等の手法も利用できる。また、情報蓄積部は、既存のRCであるESN(Echo State Network)、LSM(Liquid State Machine)等の教師なし学習が行われる情報蓄積部と、その学習された情報を教師あり学習で読み出す情報読出部とが接続している新しいニューラルネットワーク構造全体又は一部を利用することができる。更に、情報読出部では、RCに適用可能な学習方法であるFORCE又はBPDCを適用することもできる。 Specifically, as a feature extraction unit, a new neural network structure in which an information input unit such as SOM, ART, and LVQ and a feature extraction unit are connected in two layers and unsupervised iterative competitive learning is performed between the layers. The whole or a part thereof can be used. Further, methods such as PCA (Principal Component Analysis), Auto-encoder, and GTM (Generic Topographic Map) which mainly perform dimension reduction by conventional unsupervised learning can also be used. In addition, the information storage unit is an existing RC, which is an information storage unit that performs unsupervised learning such as ESN (Echo State Network) and LSM (Liquid State Machine), and information that reads the learned information by supervised learning. All or part of the new neural network structure to which the readout is connected can be used. Further, in the information reading unit, FORCE or BPDC which is a learning method applicable to RC can be applied.

特に、情報入力部と特徴抽出部とが接続した、SOM、ART、及び、LVQのいずれかと、情報蓄積部と情報読出部とが接続したESN又はLSMのどちらかとを接続することが、従来にない新たなニューラルネットワーク構造を構築する必要がなく、簡便な方法でありながら、演算量が少なく、性能に優れた情報処理装置を低価格で提供することができ、特に、SOMとESNの組合せが最も好ましい。 In particular, it has been conventional to connect any one of SOM, ART, and LVQ in which the information input unit and the feature extraction unit are connected to either ESN or LSM in which the information storage unit and the information reading unit are connected. There is no need to construct a new neural network structure, and it is possible to provide an information processing device that has a small amount of calculation and excellent performance at a low price while it is a simple method. In particular, the combination of SOM and ESN Most preferred.

更に、情報入力部及び特徴抽出部は、SOM、ART、及び、LVQ(Learning Vector Quantization)のいずれかを適用するが、情報蓄積部は、ESN又はLSMのリザバー層を活用するが、情報読出部では、FORCE又はBPDCのESN又はLSMと異なる学習方法を適用することもできる。この場合、音声、動画、文章等情報の種類、質、及び、量等に応じて使い分けることが好ましい。 Furthermore, the information input unit and the feature extraction unit apply any one of SOM, ART, and LVQ (Learning Vector Quantization), while the information storage unit uses the reservoir layer of ESN or LSM, but the information reading unit. Then, a learning method different from the ESN or LSM of FORCE or BPDC can also be applied. In this case, it is preferable to use properly according to the type, quality, quantity, etc. of information such as voice, moving images, and sentences.

特徴抽出部として、PCA、Auto−encorder、及び、GTMのいずれかのアルゴリズムで実行されるニューラルネットワーク構造を適用し、情報蓄積部及び情報読出部には、ESN又はLSMを適用することも可能である。更に、この場合、情報蓄積部として、ESN又はLSMのリザバー層を活用し、情報読出部として、FORCE又はBPDCを適用することもできる。 It is also possible to apply a neural network structure executed by any of the algorithms of PCA, Auto-encoder, and GTM as the feature extraction unit, and apply ESN or LSM to the information storage unit and the information reading unit. is there. Further, in this case, the reservoir layer of ESN or LSM can be utilized as the information storage unit, and FORCE or BPDC can be applied as the information reading unit.

このように、本発明の情報処理装置は、従来のニューラルネットワーク構造全体又は一部を多種多様な構造に組み換えて構築されることによって創造された、全く新しいニューラルネットワーク構造を応用した情報処理装置であるという大きな特徴がある。 As described above, the information processing apparatus of the present invention is an information processing apparatus applying a completely new neural network structure created by recombining the whole or a part of the conventional neural network structure into various structures. There is a big feature that there is.

本発明の情報処理装置は、時系列データに対応可能なニューラルネットワーク構造で構成されているが、それに限定されることはなく、系列データの情報処理にも対応可能なニューラルネットワーク構造である。特に、本発明の情報処理装置は、莫大な情報から演算量を増やすことなく精度の高い情報処理が可能な為、動画、音声、文章、及び、言語等の抽出、認識、判断、及び、診断等の識別、並びに、自動車の自動運転等に代表される表現、行動、作業等の実行に適している。中でも、音声の情報処理に適しており、音声認識、話者識別、音声合成、感情把握、情報判断等に適している。 The information processing apparatus of the present invention has a neural network structure capable of handling time-series data, but is not limited to this, and has a neural network structure capable of handling information processing of series data. In particular, since the information processing apparatus of the present invention can perform highly accurate information processing from an enormous amount of information without increasing the amount of calculation, extraction, recognition, judgment, and diagnosis of moving images, voices, sentences, languages, etc. It is suitable for identifying such things as well as performing expressions, actions, tasks, etc., represented by automatic driving of automobiles. Among them, it is suitable for voice information processing, and is suitable for voice recognition, speaker identification, voice synthesis, emotional grasping, information judgment, and the like.

本発明の情報処理装置は、情報入力部と、前記情報入力部に入力した情報を空間情報に埋め込む教師なし構造学習を行う特徴抽出部と、前記特徴抽出部で教師なし構造学習された情報を教師なし学習で更に学習を行うネットワーク中に導入して前記構造学習された情報を学習しつつ蓄積する情報蓄積部と、前記情報蓄積部で蓄積された情報から教師あり学習によって解答を抽出する情報読出部とを備えていることを特徴としている。より具体的には、本発明は、入力層、リザバー層、出力層から構成されるリザバー層における教師なし学習とリザバー層と出力層との接続における結合荷重のみ調整する教師あり学習とを実行して情報処理を行うことができるESNやLSM等のRCの入力層に入力する情報が、クラスタリング的なニューラルネットワーク構造で教師なし構造学習された情報とすることを特徴とする情報処理装置である。このことによって、莫大な情報量であっても、演算量の増加を招くことなく、従来技術以上の高い性能を発揮することができるようになり、演算コストを大きく削減することができる。更に、本発明の情報処理装置は、従来にない新たなニューラルネットワーク構造を構築する必要がなく、既存のニューラルネットワーク構造を情報の種類、質、及び、量等に応じて様々な構造に組換えることによって創造された、全く新しいニューラルネットワーク構造を応用したものであるため、簡便な構造で容易に製造可能であり、装置コストも大きく削減することができる。特に、音声識別システムにおいては、本発明の情報処理装置は、現在最高水準のモデルであるi−vector/PLDAを用いた音声識別システム以上に高い識別能力を有する。更に、本発明の情報処理装置は、時系列データに対して最小限の遅延のみで、リアルタイムに出力結果を得ることができる。 An information processing apparatus according to the present invention includes an information input unit, a feature extraction unit that performs unsupervised structure learning that embeds information input to the information input unit in spatial information, and information that is unsupervised structure learned by the feature extraction unit. An information storage unit that is introduced into a network for further learning by unsupervised learning and stores the structure-learned information while learning, and information that extracts an answer by supervised learning from the information accumulated in the information storage unit. And a reading unit. More specifically, the present invention performs unsupervised learning in a reservoir layer composed of an input layer, a reservoir layer, and an output layer, and supervised learning that adjusts only the connection weight in the connection between the reservoir layer and the output layer. The information processing apparatus is characterized in that the information input to the input layer of the RC such as ESN or LSM capable of performing information processing by means is information that has undergone unsupervised structure learning by a clustering neural network structure. As a result, even with a huge amount of information, it is possible to achieve higher performance than that of the conventional technique without increasing the amount of calculation, and it is possible to greatly reduce the calculation cost. Further, the information processing apparatus of the present invention does not need to construct a new neural network structure which has not been available in the past, and recombines the existing neural network structure into various structures according to the type, quality, quantity, etc. of information. Since it is an application of a completely new neural network structure created by the above, it can be easily manufactured with a simple structure and the device cost can be greatly reduced. Particularly, in the voice identification system, the information processing apparatus of the present invention has a higher identification ability than the voice identification system using the i-vector/PLDA, which is the highest level model at present. Furthermore, the information processing apparatus of the present invention can obtain the output result in real time with a minimum delay with respect to the time series data.

RCの代表例であるESNのニューラルネットワーク構造を示す模式図である。It is a schematic diagram which shows the neural network structure of ESN which is a typical example of RC. データクラスタリング的な深層学習の代表例であるSOMのニューラルネットワーク構造を示す模式図である。It is a schematic diagram which shows the neural network structure of SOM which is a typical example of deep learning like data clustering. 本発明のニューラルネットワーク構造を備えた情報処理装置の概念を示す模式図である。It is a schematic diagram which shows the concept of the information processing apparatus provided with the neural network structure of this invention. 本発明の一実施形態に係るROM(Reservoir with self−organized Mapping)の構造を示す模式図である。It is a schematic diagram which shows the structure of ROM(Reservoir with self-organized Mapping) which concerns on one Embodiment of this invention.

本発明の情報処理装置について、音声認識装置に利用する場合を想定し、複数の固有の特性を有する音声が、複数の源から発せられる話者音声情報を用いた話者識別に関する実施形態を詳細に説明するが、本発明の情報処理装置が扱うことが可能な音声情報、また、本発明の情報処理装置が応用可能な音声認識装置はこれに限定されるものではない。更に、ここでは本技術の一実施例として、音声情報を扱うことを想定した一実施形態を取り上げたが、本発明の情報処理装置が扱うことができる情報は音声だけに限定されるものではなく、静止画、動画、文章等、系列データ及び時系列データを問わず幅広く取り扱うことができる上、本発明の情報処理装置の構成もこれに限定されるものではなく、本発明の主旨を逸脱しない範囲内で種々変更して実施することが可能であり、特許請求の範囲に記載した技術思想によってのみ限定されるものである。 Regarding the information processing apparatus of the present invention, assuming that the information processing apparatus is used as a voice recognition apparatus, an embodiment relating to speaker identification using speaker voice information generated from a plurality of sources for voices having a plurality of unique characteristics will be described in detail. However, the voice information that can be handled by the information processing apparatus of the present invention and the voice recognition apparatus to which the information processing apparatus of the present invention can be applied are not limited to this. Furthermore, here, as an example of the present technology, an embodiment on the assumption that voice information is handled is taken up, but the information that the information processing apparatus of the present invention can handle is not limited to voice. It is possible to handle a wide range of series data and time series data such as still images, moving pictures, sentences, etc., and the configuration of the information processing apparatus of the present invention is not limited to this, and does not depart from the gist of the present invention. The present invention can be variously modified and implemented within the scope, and is limited only by the technical idea described in the claims.

本発明の一実施形態である音声認識装置は、図4に示すように、情報入力部4−1、特徴抽出部4−2、 情報蓄積部4−3、及び、情報読出部4−4から構成され、それぞれ、SOMの入力層、SOMの競合層、ESNのリザバー層、ESNの出力層を適用したもので、ESNにおける入力層(図1における1−1)に、SOMの入力層4−1及び競合層4−2(4−12)(図2における2−1及び2−2)が組み込まれ、新しいニューラルネットワーク構造が創出されており、ROM(Reservoir with self−organized Mapping)と命名し、話者識別装置に適用した。このように、本発明の技術思想を具体的に説明するため、本発明の一実施形態としてROMを取り上げ、音声を扱う情報処理装置に応用しているが、情報は、音声に限定されるものではなく、静止画、動画、音楽、文章等あらゆる情報の処理装置に応用可能である。 As shown in FIG. 4, the voice recognition device according to the embodiment of the present invention includes an information input unit 4-1, a feature extraction unit 4-2, an information storage unit 4-3, and an information reading unit 4-4. The SOM input layer, the SOM competition layer, the ESN reservoir layer, and the ESN output layer are applied to the SOM input layer (1-1 in FIG. 1) and the SOM input layer 4-, respectively. 1 and a competitive layer 4-2 (4-12) (2-1 and 2-2 in FIG. 2) are incorporated to create a new neural network structure, which is named ROM (Reservoir with self-organized Mapping). , Applied to the speaker identification device. As described above, in order to specifically explain the technical idea of the present invention, the ROM is taken as one embodiment of the present invention and applied to an information processing device that handles voice, but the information is limited to voice. Instead, it can be applied to a processing device for all kinds of information such as still images, moving images, music, and sentences.

この実施形態では、情報入力部4−1に音声情報を入力することになるが、情報入力部4−1には、話者識別に適した音声情報とする必要がある。そのため、(図4には図示していない)図3に示したような従来技術を用いた情報収集部や情報処理部を適宜設けた。具体的には、情報収集部にはマイクロフォン等の音声入力デバイスを、情報処理部には、マイクロフォンから入力された音声信号を話者識別に適した前処理を行う高速フーリエ変換(FFT、Fast Fourier Transform)アナライザーを設けた。ただし、情報処理方法は、音声信号から話者の特徴量を抽出する方法であれば、これに限定されることなく適用できる。例えば、あらかじめ決められた特徴量を数学的に計算して求める方法や、ルールベースによる処理で特徴量を抽出する方法、フォルマント等を適用してもよい。 In this embodiment, voice information is input to the information input unit 4-1, but the information input unit 4-1 needs to be voice information suitable for speaker identification. Therefore, an information collecting unit and an information processing unit using the conventional technique as shown in FIG. 3 (not shown in FIG. 4) are appropriately provided. Specifically, the information collecting unit is a voice input device such as a microphone, and the information processing unit is a fast Fourier transform (FFT, Fast Fourier) that performs preprocessing suitable for speaker identification on a voice signal input from the microphone. A Transform analyzer was provided. However, the information processing method is not limited to this as long as it is a method of extracting the feature amount of the speaker from the audio signal. For example, a method of mathematically calculating a predetermined feature amount, a method of extracting the feature amount by a rule-based process, a formant, or the like may be applied.

一方、情報読出部4−4には、識別結果が出力されるが、話者識別装置としても利用の仕方に応じて、(図4には図示していない)図3に示したような出力部3−7として、スピーカーやディスプレイ等既存の出力装置を備えることが好ましい。 On the other hand, although the identification result is output to the information reading unit 4-4, it is output as shown in FIG. 3 (not shown in FIG. 4) depending on the usage as a speaker identification device. It is preferable that the unit 3-7 includes an existing output device such as a speaker or a display.

このような本発明の一実施形態である話者識別装置は、情報収集部及び情報処理部から情報入力部4−1に音声情報を入力された後、特徴抽出部4−2、情報蓄積部4−3、情報読出部4−4を経由して、識別結果が出力され、その結果が出力部で公開される。例えば、話者が5人の場合(話者1、話者2、話者3、話者4、話者5)、話者2が発話していれば、識別結果として話者2が出力される。 In such a speaker identification device according to an embodiment of the present invention, after the voice information is input from the information collection unit and the information processing unit to the information input unit 4-1, the feature extraction unit 4-2 and the information storage unit. The identification result is output via the 4-3 and the information reading unit 4-4, and the result is disclosed in the output unit. For example, when there are five speakers (speaker 1, speaker 2, speaker 3, speaker 4, speaker 5), if speaker 2 is speaking, speaker 2 is output as the identification result. It

次いで、本発明の一実施形態である図4に示す話者識別装置4の学習方法や動作を説明するが、上述したように、話者識別に適した音声情報を入力する必要があるため、情報収集部で集められた音声情報に対して情報処理部でFFTを行ったので、簡単に説明する。 Next, the learning method and operation of the speaker identification device 4 shown in FIG. 4, which is an embodiment of the present invention, will be described. However, as described above, it is necessary to input voice information suitable for speaker identification. has performed an FFT in an information processing unit with respect to the audio information collected by the information collection unit will be briefly described.

音声信号は連続信号であり、発話が全て終わってからFFTを行うのでは実用性に欠けるため、音声信号を一定時間に区切る時間窓を設定し、時間窓内の音声波形に対してFFTを行った。通常、時間窓は、矩形波状やハミングウィンドウ等の窓関数を設定するが、両端の不連続性が問題になることを考慮してハミングウィンドウの窓関数を用いた。 Since the voice signal is a continuous signal, it is not practical to perform FFT after all the utterances are completed. Therefore, a time window that divides the voice signal into a certain time is set, and FFT is performed on the voice waveform in the time window. It was Usually, a window function such as a rectangular wave shape or a Hamming window is set as the time window, but the window function of the Hamming window was used in consideration of the fact that discontinuity at both ends becomes a problem.

次いで、情報入力部4−1と特徴抽出部4−2において行われる教師なし学習について説明する。この情報入力部4−1と特徴抽出部4−2は、それぞれ、図2の模式図に示したフィードフォワードニューラルネットワークであるSOM2の入力層2−1及び競合層2−2に対応している。ここでは、以下、図4の新しく構築されたニューラルネットワーク構造の符号及びその説明を使用して説明する。 Next, the unsupervised learning performed in the information input unit 4-1 and the feature extraction unit 4-2 will be described. The information input unit 4-1 and the feature extraction unit 4-2 respectively correspond to the input layer 2-1 and the competitive layer 2-2 of the SOM2 which is the feedforward neural network shown in the schematic diagram of FIG. .. Here, the description will be given below using the symbols of the newly constructed neural network structure of FIG. 4 and the description thereof.

特徴抽出部4−2は、一般的には、ノードが一次元に配置したアレイ又は二次元に配置したマップであるが、ここでは、二次元のマップとし、情報収集部及び情報処理部を経由して情報入力部4−1に入力された高次元の情報を二次元の空間パターンとして特徴抽出部4−2に出力する教師なし競合学習が行われた。この教師なし競合学習における結合荷重wは、次のようにして更新された。情報処理部でFFTが行われた情報入力部4−1への入力情報xに対し、最初は、初期化された結合荷重wを用いた式(1)により学習されたノードiを得るが、それ以後、情報入力部4−1への入力情報xに対して、結合荷重wに最も近い値で、ノードiの近傍のノードとなるように、式(1)及び(2)に従って次々と更新される。 The feature extraction unit 4-2 is generally an array in which nodes are arranged in one dimension or a map in which nodes are arranged in two dimensions, but here, it is a two-dimensional map, and is passed through the information collection unit and the information processing unit. Then, unsupervised competitive learning is performed in which the high-dimensional information input to the information input unit 4-1 is output to the feature extraction unit 4-2 as a two-dimensional spatial pattern. The connection weight w i in this unsupervised competitive learning was updated as follows. For the input information x to the information input unit 4-1, which has been FFT-processed by the information processing unit, initially, the node i * learned by the equation (1) using the initialized connection weight w i is obtained. After that, with respect to the input information x to the information input unit 4-1, the equation (1) and (2) are set so as to be a node that is the closest value to the connection weight w i and is in the vicinity of the node i *. Will be updated one after another.

Figure 0006704585
Figure 0006704585

ここで、dは距離関数、γ(n)は学習回数nで減衰する学習率、N(i,j;n)は、ノードiとjの間の距離D(i,j)と共に減少する近接関数であり、本発明の一実施形態では、学習率及び近接関数は、式(5)、(6)、及び(7)によって求めた。γ及びλは、それぞれ、初期学習率及び学習減衰因子である。このようにして、全ての結合荷重が正規化され、似通った入力データが特徴抽出部4−2に密接したノードとして投影される。 Here, d is a distance function, γ(n) is a learning rate that decreases with the number of learning times n, and N(i,j;n) is a proximity that decreases with the distance D(i,j) between the nodes i and j. Function, and in one embodiment of the present invention, the learning rate and the proximity function are obtained by the equations (5), (6), and (7). γ 0 and λ are the initial learning rate and the learning attenuation factor, respectively. In this way, all the connection weights are normalized, and similar input data is projected as a node close to the feature extraction unit 4-2.

Figure 0006704585
Figure 0006704585

そして、この教師なし競合学習によって得られた、一種のクラスタリングされた情報が、情報蓄積部4−3の入力情報となり、更に情報蓄積層4−3において、教師なし学習が行われつつ情報が蓄積される。最後に、この蓄積された情報に基づき、情報蓄積部4−3と情報読出部4−4との間において教師あり学習が行われ、話者が識別された結果情報読出部に出力され、需要に応じた方法で出力部から公開される。 Then, a kind of clustered information obtained by this unsupervised competitive learning becomes the input information of the information storage unit 4-3, and further, in the information storage layer 4-3, the information is stored while the unsupervised learning is performed. To be done. Finally, based on this accumulated information, supervised learning is performed between the information accumulating section 4-3 and the information reading section 4-4, and the result is output to the information reading section where the speaker is identified, and the demand is calculated. It will be published from the output section according to the method.

これは、図1に示したESN1の模式図では、特徴抽出部4−2の出力情報が、入力層1−1に与えられ、リザバー層1−2において、教師なし学習が行われつつ情報が蓄積され、リザバー層1−2と出力層1−3との間で教師あり学習が行われることと対応している。すなわち、図4の新しく構築されたニューラルネットワーク構造は、情報入力部4−1と特徴抽出部4−2とをまとめて、情報蓄積部4−3及び情報読出部4−4の情報入力部4−12と考えれば、図1の模式図に示したフィードバックニューラルネットワークで、RNNの一種であるESN1の入力層1−1、リザバー層1−2、出力層1−3と対応している。ここでは、以下、図4の新しく構築されたニューラルネットワーク構造の符号及びその説明を使用して説明する。 This is because in the schematic diagram of the ESN 1 shown in FIG. 1, the output information of the feature extraction unit 4-2 is given to the input layer 1-1, and the information is transmitted while the unsupervised learning is performed in the reservoir layer 1-2. This corresponds to the fact that the information is stored and supervised learning is performed between the reservoir layer 1-2 and the output layer 1-3. That is, in the newly constructed neural network structure of FIG. 4, the information input unit 4-1 and the feature extraction unit 4-2 are combined to form the information input unit 4 of the information storage unit 4-3 and the information reading unit 4-4. Considering -12, the feedback neural network shown in the schematic diagram of FIG. 1 corresponds to the input layer 1-1, the reservoir layer 1-2, and the output layer 1-3 of the ESN 1 which is a kind of RNN. Here, the description will be given below using the symbols of the newly constructed neural network structure of FIG. 4 and the description thereof.

ESNは、RNNの一種であるが、前の時刻の隠れ層の出力を次の時刻の隠れ層の入力としてBPTT等の学習方法を用いるRNNと全く異なり、少量の教師あり学習で複雑な時系列のダイナミックスを学習できる。これは、図4の情報蓄積部4−3が、RNNの結合Wを持った一つの隠れ層から構成されており、その一つの隠れ層の内部にRNNの隠れ層に相当するノードが不規則に結合されていると共に、各結合荷重が不規則で固定されていることに起因している。 ESN is a kind of RNN, but unlike the RNN that uses a learning method such as BPTT as the output of the hidden layer at the previous time as the input of the hidden layer at the next time, it is a complicated time series with a small amount of supervised learning. You can learn the dynamics of. This is because the information storage unit 4-3 in FIG. 4 is composed of one hidden layer having a coupling W of the RNN, and the nodes corresponding to the hidden layer of the RNN are irregular inside the one hidden layer. It is due to the fact that each coupling load is irregularly fixed as well as being coupled to.

本発明の実施形態では、特徴抽出部4−2から情報蓄積部4−3への結合を書込みWinと呼び、情報蓄積部4−3から情報読出部への結合を読出しWoutと呼び、出力y(t)は、式(7)のように計算される。このy(t)は、話者数の次元を持つベクトルであり、各次元が各話者に対応する。そして、話者の登録時には、y(t)が、フレームtにおける話者のワン・ホットベクトル(発話を行っている話者に対応する要素が1、その他の要素は0に設定されたベクトル)に設定され、Woutはこのような出力を与えるように学習される。一方、話者の認識時には、y(t)は、各話者のスコア(その話者が発話を行っている尤もらしさ)を与える。なお、時間ステップtにおける情報蓄積(リザバー)状態s(t)は式(6)で計算され、x(t)は入力ベクトル、ε(t)はノイズ、αは入力スケールファクターである。 In an embodiment of the present invention, referred to as coupling write W in from the feature extraction unit 4-2 to the information storage unit 4-3, the coupling from the information storage unit 4-3 to the information reading section is referred to as read W out, The output y(t) is calculated as in Expression (7). This y(t) is a vector having dimensions of the number of speakers, and each dimension corresponds to each speaker. Then, when the speaker is registered, y(t) is a one-hot vector of the speaker in frame t (the element corresponding to the speaker who is uttering is 1 and the other elements are set to 0). , And W out is learned to give such an output. On the other hand, when a speaker is recognized, y(t) gives the score of each speaker (likelihood that the speaker is speaking). The information storage (reservoir) state s(t) at the time step t is calculated by the equation (6), x(t) is an input vector, ε(t) is noise, and α is an input scale factor.

Figure 0006704585
Figure 0006704585

ここで、本発明の一実施形態における特徴抽出部4−2の一組のノードと情報蓄積部4−3の一組のノードとは同一であり、特徴抽出部4−2の一組のノードの二次元空間パターンというトポロジーは情報蓄積部4−3において無視される。 Here, the set of nodes of the feature extraction unit 4-2 and the set of nodes of the information storage unit 4-3 in one embodiment of the present invention are the same, and the set of nodes of the feature extraction unit 4-2 are the same. The information storage unit 4-3 ignores the topology of the two-dimensional space pattern.

さて、本発明の一実施形態においては、初期化において、RNN結合Wの各コンポーネントは、確率pを0とする、すなわち、スパース化するか、又は、[−1,1]の一様分布から選ばれ、RNN結合Wの全てのコンポーネントは、同じファクターを用いてそのスペクトル半径rが1より小さくなるように調整された。初期化後は、このニューラルネットワークの特徴であるように、Wの全てのコンポーネントが固定された。 Now, in one embodiment of the present invention, at initialization, each component of the RNN connection W has a probability p w of 0, that is, is sparsified, or has a uniform distribution of [−1,1]. All components of the RNN coupling W were tuned such that their spectral radius r w is less than 1 using the same factors. After initialization, all components of W were fixed, as is characteristic of this neural network.

これは、初期化の設定の一例であり、次のように様々な選択肢がある。例えば、読出しWoutの学習(話者登録時)及び識別・分類(話者識別)時において、1)ゼロベクトルに設定する、2)SOMの学習に使用したデータ(音声)を、全て又は部分的に入力した後のリザバー状態に設定する、3)Woutの学習(話者登録)用の音声を、全て又は部分的に入力した後のリザバー状態に設定する、4)上記の音声を組み合わせて入力した後のリザバー状態に設定する等の方法がある。 This is an example of initialization setting, and there are various options as follows. For example, at the time of learning read-out W out (during speaker registration) and identification/classification (speaker identification), 1) set to a zero vector, and 2) all or part of the data (voice) used for SOM learning set to reservoir state after entering, the 3) the speech for learning (speaker registration) of W out, is set to reservoir state after entering all or partially, 4) a combination of the above audio There is a method such as setting the reservoir state after inputting.

また、このニューラルネットワークは、情報蓄積部4−3から情報読出部への結合を読出しWoutにおいてのみ、教師あり学習が実行される。このステップは、本発明の一実施形態においては、エンロールメント(登録)といい、少量のデータの教師あり学習によって十分な精度の高い学習が行われることができる。これは、情報蓄積部4−3が大容量で、入力データのダイナミクスをモデル化することができる能力があるためである。ただし、本発明の一実施形態のエンロールメントは、従来のi−vector系システムと異なり、話者のある1グループに対して行われ、個々の話者に対して行われるものではない。そのため、識別結果としては、各登録された話者の発話の可能性が情報読出部4−4から得られる。 Further, in this neural network, the supervised learning is executed only in Wout by reading the connection from the information storage unit 4-3 to the information reading unit. This step is called enrollment (registration) in one embodiment of the present invention, and learning with sufficient accuracy can be performed by supervised learning of a small amount of data. This is because the information storage unit 4-3 has a large capacity and is capable of modeling the dynamics of input data. However, unlike the conventional i-vector system, the enrollment of one embodiment of the present invention is performed for one group of speakers and not for each speaker. Therefore, as the identification result, the possibility of the utterance of each registered speaker is obtained from the information reading unit 4-4.

更に、本発明の一実施形態では、話者識別装置に応用しているため、読出しマトリックス(行列)が、情報蓄積(リザバー)状態空間における話者と想像されるベクトルの集合であると解釈される。本発明の一実施形態では、x(t)を無視し、Woutの列ベクトルを用いて、式(7)の右辺を簡略化し、式(8)に書き換えることにした。ここで、Pは,話者の個体数、ωoutはコサイン類似度を示している。この式は、話者pであることの可能性が、コサイン類似度ωoutと抽出される情報蓄積(リザバー)状態s(t)によって与えられ、発話から抽出されることを示している。従って、コサイン類似度ωoutが情報蓄積(リザバー)状態空間における話者ベクトルを表出していると見なすことができ、話者識別装置として機能することができる。 Further, in one embodiment of the present invention, since it is applied to the speaker identification device, the read matrix is interpreted as a set of vectors that can be imagined as the speaker in the information storage (reserve) state space. It In the embodiment of the present invention, x(t) is ignored and the column vector of W out is used to simplify the right side of Expression (7) and rewrite it as Expression (8). Here, P is the number of speakers, and ω out is the cosine similarity. This expression indicates that the possibility of being the speaker p is given by the cosine similarity ω out and the information storage (reserver) state s(t) to be extracted, and is extracted from the utterance. Therefore, it can be considered that the cosine similarity ω out represents the speaker vector in the information storage (reservation) state space, and can function as a speaker identification device.

Figure 0006704585
Figure 0006704585

以上、本発明の一実施形態である話者識別装置は、SOMとESNの構造及びアルゴリズムを詳細に検討した結果、図4の模式図に示すように、ESNの入力層としてSOMを結合させ、情報入力部4−1から情報蓄積部4−3までの式(1)〜(7)に示した教師なし学習方法を用い、話者識別に適した式(8)の教師あり学習を工夫することによって実現することができた。 As described above, as a result of detailed examination of the structure and algorithm of the SOM and ESN, the speaker identification device according to the embodiment of the present invention, as shown in the schematic diagram of FIG. 4, connects the SOM as an input layer of the ESN, Using the unsupervised learning method shown in the equations (1) to (7) from the information input section 4-1 to the information storage section 4-3, devise the supervised learning of the equation (8) suitable for speaker identification. Could be realized by

そこで、本発明の一実施形態である話者識別装置の性能を明らかにするために、短い発話に関し、認識時の発声内容が登録時の発声内容によらないテキスト独立型話者識別に関する実験を行うと共に、現在の音声から抽出された特徴量のモデル化として最高水準のi−vector/PLDAを用いた話者識別装置の識別精度と比較した。この実験では、登録と識別に使った全ての発話は明瞭で短いものであり、話者の全てが既知であるクローズドセット話者識別に的を絞った。換言すれば、存在しない人の発話は用いられない。 Therefore, in order to clarify the performance of the speaker identification device according to an embodiment of the present invention, an experiment relating to text-independent speaker identification in which a utterance content at the time of recognition does not depend on a utterance content at the time of registration regarding a short utterance is described. In addition, the comparison was performed with the identification accuracy of the speaker identification device using the highest level i-vector/PLDA as a model of the feature amount extracted from the current voice. In this experiment, all utterances used for registration and identification were clear and short, and we focused on closed-set speaker identification, where all speakers were known. In other words, the utterance of a person who does not exist is not used.

この実験では、日本語話し言葉コーパス(CSJ)と多数の話者のATR音声データベース、特に音素バランス文を読み上げ発生したもの(ATR/APP−BLA)の二つのコーパスを用いた。 In this experiment, we used two corpus of Japanese spoken language corpus (CSJ) and ATR speech database of many speakers, especially those generated by reading phoneme balance sentences (ATR/APP-BLA).

CSJは、日本語の自発音声データの収集であり、16kHzで、1,395名の話者の661時間の話し言葉が含まれており、その約90%はモノローグ音声で、残り約10%は対話、朗読、再朗読の音声である。このコーパスは、i−vector音声抽出器の学習のために用いられ、そのコーパスから無作為に選択された一部がROMの情報入力部4−1及び特徴抽出部4−2における事前学習、すなわち、情報蓄積部4−3への構造学習された入力情報を生成するために用いられた。 CSJ is a collection of spontaneous speech data in Japanese, which contains 661 hours of spoken language of 1,395 speakers at 16 kHz, about 90% of which is monologue and about 10% of which is dialogue. , Read aloud and read aloud again. This corpus is used for learning of the i-vector speech extractor, and a part randomly selected from the corpus is pre-learned in the information input unit 4-1 and the feature extraction unit 4-2 of the ROM, that is, , Used to generate the structurally learned input information to the information storage unit 4-3.

ATR/APP−BLAは、CSJと同じ音声データの収集で、3,700名の話者によって読み上げられた音素バランス文の約100,000件の朗読であり、総朗読時間は128時間であるが、平均発話時間は4秒であり、話者は一度しか声に出して読み上げない。そして、このコーパスも、多数の話者による明瞭で短い朗読ある。このコーパスから、本発明の一実施形態の話者識別装置のエンロールメント(登録)と識別のための発話を以下に記載される方法で選択した。 ATR/APP-BLA is the same voice data collection as CSJ, and is about 100,000 readings of phoneme balance sentences read by 3,700 speakers, and the total reading time is 128 hours. , The average utterance time is 4 seconds, and the speaker speaks only once aloud. Then, this corpus is also a clear and short readings by the large number of speakers. From this corpus, utterances for enrollment (registration) and identification of the speaker identification device according to the embodiment of the present invention were selected by the method described below.

6人、50人、100人からなる話者群pの一つのグループ内における話者を識別するために、数多くの試験を行った。最初に、話者群pのある一つの話者グループGpが、ある一セットが50である単文を朗読した1596人の話者から無作為に選択された。それから、グループGp、0.5秒、1秒、2秒、及び、5秒からなる登録時間de、並びに、0.5秒、1秒、2秒、及び、5秒からなる識別時間drの各組合せを求めるための四つの単文が無作為に選択された。その後、単文と話者の各ペアに対し、必要に応じて、上記四つの単文以外の単文を切り取り、繋ぎ合わせることによって、登録時間de及び識別時間drの発話を抽出した。最後に、登録のために、グループGpの全ての話者のための一つの単文、すなわち、各話者のための一つの発話が選択され、識別のために残っている発話が選択された。登録のための単文の選択を変えながら、この手順が4回繰り返された。言い換えれば、四つの発話から登録のための一つの発話が提供されたのである。それゆえ、登録は、Gp、de、dr、及び、i(発話が提供される回数)の組合せに対して一回だけ必要とされる。発話グループGの無作為な選択は、p=6人、50人、100人それぞれに対して、NGp=150回、20回、10回繰り返される。従って、試験は、p、de、及び、drによって決定される条件の下で、p×NGp×3(発話内容)×4(四つの単文から一つの単文を提供)回行われる。 Numerous tests were performed to identify speakers within one group of speaker groups p of 6, 50 and 100 people. First, one speaker group Gp of speaker group p was randomly selected from 1596 speakers who read a single sentence of which a set was 50. Then, the group Gp, the registration time de consisting of 0.5 seconds, 1 second, 2 seconds, and 5 seconds, and the identification time dr consisting of 0.5 seconds, 1 second, 2 seconds, and 5 seconds, respectively. Four simple sentences for finding combinations were randomly selected. After that, for each pair of simple sentence and speaker, simple sentences other than the above-mentioned four simple sentences were cut out and connected to each other to extract the utterance of the registration time de and the identification time dr. Finally, for registration, one sentence was selected for all speakers in the group Gp, one utterance for each speaker, and the remaining utterances were selected for identification. This procedure was repeated four times, changing the choice of simple sentences for enrollment. In other words, four utterances provided one utterance for registration. Therefore, registration is required only once for the combination of Gp, de, dr, and i (the number of times the utterance is provided). The random selection of utterance group G is repeated N Gp =150 times, 20 times, and 10 times for p=6 people, 50 people, and 100 people, respectively. Therefore, the test is performed p×N Gp ×3 (speech content)×4 (providing one simple sentence from four simple sentences) times under the conditions determined by p, de, and dr.

上述したように、CSJによって学習されたi−vector/PLDAを用いたシステムを基準とした。音声認識でよく使用され音声の特徴表現の代表例である、デルタ及びデルタ−デルタ特徴量が追加された20次元のMFCCs(Mel−Frequency Cepstral Coefficients)を用いて、60次元の音響的特徴が形成された。FFTを実施する時間窓のフレーム幅及びフレームシフトは、それぞれ、20ms及び10msである。この音響的特徴から、事前に学習しておいた事前分布として256混合の完全共分散行列GMM−UBM(Gaussian Mixture Model−Universal Background Model)を用いて、一般的な話者の音響的特徴(UBM)からの差として話者の音響的特徴を表現する100次元のi−vectorを抽出する。更に、次のように話者内の変動要因を低減する。すなわち、このようにして抽出したi−vectorに対してホワイトニング及び長さの規格化を行った後、LDA(Linear Discriminant Analysis)により50次元に圧縮し、更に、WCCN(Within−Class Covariance Nomarization)を行い話者内の変動要因を低減する。そして、PLDAモデルにより話者のスコアを算出した。 As described above, the system using i-vector/PLDA learned by CSJ was used as a reference. A 60-dimensional acoustic feature is formed using 20-dimensional MFCCs (Mel-Frequency Cepstral Coefficients) to which delta and delta-delta feature amounts are added, which is a typical example of a feature expression of voice often used in speech recognition. Was done. The frame width and frame shift of the time window for performing FFT are 20 ms and 10 ms, respectively. From this acoustic characteristic, a general co-acoustic characteristic (UBM) of a general speaker is used by using a complete covariance matrix GMM-UBM (Gaussian Mixture Model-Universal Background Model) of 256 mixture as a prior distribution learned in advance. ), a 100-dimensional i-vector expressing the acoustic characteristics of the speaker is extracted. Furthermore, the fluctuation factors in the speaker are reduced as follows. That is, after whitening and normalizing the length of the i-vector thus extracted, the i-vector is compressed into 50 dimensions by LDA (Linear Discriminant Analysis), and further, WCCN (Within-Class Covariance Nomalization) is applied. Performs to reduce the fluctuation factors in the speaker. Then, the score of the speaker was calculated by the PLDA model.

本発明の一実施形態である話者識別装置では、次のような条件で話者識別を行った。入力される音響的特徴は、1025次元の対数パワースペクトルである。FFTを実施する情報処理部3−6の時間窓のフレーム幅及びフレームシフトは、それぞれ、100ms及び25msとした。また、本発明の一実施形態の実験では、ROM4に表1に示すパラメータを設定した。これらのパラメータは、ATR/APP−BLAの選択されなかったデータを用いて決定され、評価には使用されていない。情報入力部4−1及び特徴抽出部4−2における事前学習には、CSJから10,000フレームの話し言葉が用いられた。 In the speaker identification device which is one embodiment of the present invention, the speaker identification is performed under the following conditions. The input acoustic feature is a 1025-dimensional logarithmic power spectrum. The frame width and frame shift of the time window of the information processing unit 3-6 that implements FFT are set to 100 ms and 25 ms, respectively. Further, in the experiment of the embodiment of the present invention, the parameters shown in Table 1 were set in the ROM 4. These parameters were determined using unselected data for ATR/APP-BLA and have not been used for evaluation. For the pre-learning in the information input unit 4-1 and the feature extraction unit 4-2, the spoken language of 10,000 frames from CSJ was used.

このようにして得られた結果をi−vector/PLDAの結果と比較するために、次のような手順で音声全体に対する話者識別結果を定める。各フレームにおける話者のスコアを表す出力ベクトルy(t)にソフト・マックス関数を適用し、識別対象の音声全体で和取った結果が最大となる話者を識別結果として採用する。
In order to compare the result thus obtained with the result of i-vector/PLDA, the speaker identification result for the entire voice is determined by the following procedure. The soft-max function is applied to the output vector y(t) representing the speaker's score in each frame, and the speaker having the maximum sum of the speech to be classified is adopted as the classification result.

Figure 0006704585
Figure 0006704585

表2に、本発明の一実施形態であるROM4及びi−vector/PLDAを用いたシステムについて、結果として得られた話者識別の精度を示す。表から明らかなように、登録時間de及び識別時間drが十分に長く、話者群Gpの人数が少ない場合、両者に有意差が認められないが、登録時間de及び識別時間drが短くなるにつれ、また、話者群Gpの人数が多くなるにつれ、本発明の一実施形態であるROM4を用いたシステムの話者識別精度が、i−vector/PLDAを用いたシステムのそれよりも高いという結果が得られた。すなわち、本発明の実施形態であるROM4を用いたシステムは、世界最高水準の話者識別精度を有していることが明らかとなった。 Table 2 shows the accuracy of the resulting speaker identification for the system using the ROM 4 and i-vector/PLDA, which is an embodiment of the present invention. As is clear from the table, when the registration time de and the identification time dr are sufficiently long and the number of speakers Gp is small, there is no significant difference between the two, but as the registration time de and the identification time dr become shorter. Further, as the number of speakers in the group Gp increases, the speaker identification accuracy of the system using the ROM 4 according to the embodiment of the present invention is higher than that of the system using i-vector/PLDA. was gotten. That is, it was revealed that the system using the ROM 4 which is the embodiment of the present invention has the highest level of speaker identification accuracy in the world.

Figure 0006704585
Figure 0006704585

このような結果は、短い発話で登録及び識別が行え、話者の負担が極めて軽く、精度の高い音声認識装置を構築できる上、演算コストが低く、低価格の音声認識装置を提供できることを示している。更に、上記一実施形態の話者識別装置から分かるように、本発明の情報処理装置は、出力結果をフレームごとに与えることができる。これは、出力結果を時間ステップごとに与えることができることを意味しているので、本発明が、時系列データに対して最小限の遅延のみで、リアルタイムに出力結果を得ることができる情報処理装置であることを示している。 These results indicate that registration and identification can be performed with a short utterance, the burden on the speaker is extremely light, and a highly accurate voice recognition device can be constructed, and the calculation cost is low and a low-priced voice recognition device can be provided. ing. Further, as can be seen from the speaker identifying apparatus of the above-described one embodiment, the information processing apparatus of the present invention can give the output result for each frame. This means that the output result can be given for each time step, so that the present invention can obtain the output result in real time with a minimum delay with respect to the time series data. Is shown.

本発明の情報処理装置は、莫大な情報から演算量を増やすことなく精度の高い情報処理が可能であり、実施例では、音声認識において優れた性能を発現することを示した。しかし、ニューラルネットワークの実用化が最も進んでいる、売上需要動向、商品トレンド・レコメンド等の予測の分野に適用できることはいうまでもなく、更に高度な情報処理が必要とされる識別及び実行の分野に適している。識別の分野では、言語、画像、音楽等の判断、仕分け、及び、検索等、並びに、音声、画像、及び、動画等の識別、認証、及び、感情把握等、並びに、故障、異常、及び、潜在顧客等の予知、検出、及び、発見等に適用することができ、また、実行の分野では、自動運転車、Q&A対応、及び、苦情処理対応等の作業の自動化、並びに、文章の要約、作成、及び、翻訳等の表現生成、並びに、ゲーム攻略、配送経路の最適化等の行動の最適化に適用することができ、幅広い産業分野に利用可能である。特に、時系列データに対して最小限の遅延のみで、リアルタイムに出力結果を得ることができる情報処理装置に適している。 The information processing apparatus of the present invention is capable of highly accurate information processing from an enormous amount of information without increasing the amount of calculation, and in the examples, it has been shown that excellent performance is exhibited in speech recognition. However, it goes without saying that it can be applied to the fields of forecasting sales demand trends, product trends, recommendations, etc., where neural networks are most practically applied, and fields of identification and execution that require more advanced information processing. Suitable for In the field of identification, judgment, sorting, search, etc. of language, image, music, etc., identification, authentication, emotional recognition, etc. of voice, image, video, etc., and failure, abnormality, and It can be applied to prediction, detection, discovery, etc. of potential customers, and in the field of execution, automated work such as self-driving cars, Q&A support, and complaint handling support, and text summarization, The present invention can be applied to creation and expression generation such as translation, and action optimization such as game capture and delivery route optimization, and can be used in a wide range of industrial fields. In particular, it is suitable for an information processing device that can obtain an output result in real time with a minimum delay with respect to time series data.

1 ESN
1−1 入力層
1−2 リザバー層
1−3 出力層
2 SOM
2−1 入力層
2−2 出力層(競合層)
3 情報処理装置
3−1 情報入力部
3−2 特徴抽出部
3−3 情報蓄積部
3−4 情報読出部
3−5 情報収集部
3−6 情報処理部
3−7 出力部
4 ROM(Reservoir with self−organized Mapping)
4−1 情報入力部/SOMの入力層
4−2 特徴抽出部/SOMの出力層(競合層)
4−12 SOM(ESNの入力層に相当)
4−3 情報蓄積部/ESNのリザバー層
4−4 情報読出部/ESNの出力層
1 ESN
1-1 Input layer 1-2 Reservoir layer 1-3 Output layer 2 SOM
2-1 Input layer 2-2 Output layer (competition layer)
3 Information processing device 3-1 Information input unit 3-2 Feature extraction unit 3-3 Information storage unit 3-4 Information reading unit 3-5 Information collection unit 3-6 Information processing unit 3-7 Output unit 4 ROM (Reservoir with) self-organized Mapping)
4-1 Information input unit/SOM input layer 4-2 Feature extraction unit/SOM output layer (competition layer)
4-12 SOM (equivalent to ESN input layer)
4-3 Information Storage Unit/ESN Reservoir Layer 4-4 Information Reading Unit/ESN Output Layer

Claims (9)

情報入力部と、
前記情報入力部に入力された情報を空間パターンとして空間情報に埋め込む教師なし構造学習を行う特徴抽出部と、
教師なし学習で更に学習するネットワーク中に前記特徴抽出部で教師なし構造学習された空間パターンとしての情報を導入して前記構造学習された情報をさらに教師なし学習で学習しつつ蓄積するリザバー層と、
前記リザバー層で蓄積された情報から教師あり学習によって解答を抽出する情報読出部と
を備えるニューラルネットワーク系情報処理装置。
Information input section,
A feature extraction unit that performs unsupervised structure learning in which the information input to the information input unit is embedded in the spatial information as a spatial pattern ;
Reservoir layer by introducing information as spatial pattern wherein is unsupervised structural learning by the feature extraction unit in the network to accumulate while learning in further unsupervised learning the structure learning information further learning unsupervised When,
A neural network system information processing apparatus, comprising: an information reading unit that extracts an answer by learning with a teacher from information accumulated in the reservoir layer .
前記情報入力部及び前記特徴抽出部はSOM(Self−Organizing Map)、ART(Adaptive Resonance Theory Model)、及び、LVQ(Learning Vector Quantization)のいずれかのアルゴリズムで実行され、
前記リザバー層及び前記情報読出部はESN(Echo State Network)又はLSM(Liquid State Machine)のアルゴリズムで実行される
ことを特徴とする請求項1に記載のニューラルネットワーク系情報処理装置。
The information input unit and the feature extraction unit are executed by one of SOM (Self-Organizing Map), ART (Adaptive Resonance Theory Model), and LVQ (Learning Vector Quantization) algorithms .
The reservoir layer and the information reading unit are executed by an ESN (Echo State Network) or LSM (Liquid State Machine) algorithm.
The neural network system information processing apparatus according to claim 1, wherein
前記情報入力部及び前記特徴抽出部はSOM(Self−Organizing Map)、ART(Adaptive Resonance Theory Model)、及び、LVQ(Learning Vector Quantization)のいずれかのアルゴリズムで実行され、
前記リザバー層はESN(Echo State Network)又はLSM(Liquid State Machine)のアルゴリズムで実行され、
前記情報読出部はFORCE(First Order Reduced andControlled Error)又はBPDC(Backpropagation Decorrelation)のアルゴリズムで実行される
ことを特徴とする請求項1に記載のニューラルネットワーク系情報処理装置。
The information input unit and the feature extraction unit are executed by one of SOM (Self-Organizing Map), ART (Adaptive Resonance Theory Model), and LVQ (Learning Vector Quantization) algorithms .
The reservoir layer is executed by an ESN (Echo State Network) or LSM (Liquid State Machine) algorithm .
The information reading unit is implemented by a FORCE (First Order Reduced and Controlled Error) or a BPDC (Backpropagation Decoration) algorithm.
The neural network system information processing apparatus according to claim 1, wherein
前記特徴抽出部はPCA(Principal Component Analysis)、Auto−encorder、及び、GTM(Generative Topograhic Map)のいずれかのアルゴリズムで実行され、
前記リザバー層及び前記情報読出部はESN(Echo State Network)又はLSM(Liquid State Machine)のアルゴリズムで実行される
ことを特徴とする請求項1に記載のニューラルネットワーク系情報処理装置。
The feature extracting unit is executed by any one of PCA (Principal Component Analysis), Auto-encoder, and GTM (Generic Topographic Map) ,
The reservoir layer and the information reading unit are executed by an ESN (Echo State Network) or LSM (Liquid State Machine) algorithm.
The neural network system information processing apparatus according to claim 1, wherein
前記特徴抽出部はPCA(Principal Component Analysis)、Auto−encorder、及び、GTM(Generative Topograhic Map)のいずれかのアルゴリズムで実行され、
前記リザバー層はESN(Echo State Network)又はLSM(Liquid State Machine)のアルゴリズムで実行され、
前記情報読出部はFORCE(First Order Reduced andControlled Error)又はBPDC(Backpropagation Decorrelation)のアルゴリズムで実行される
ことを特徴とする請求項1に記載のニューラルネットワーク系情報処理装置。
The feature extracting unit is executed by any one of PCA (Principal Component Analysis), Auto-encoder, and GTM (Generic Topographic Map) ,
The reservoir layer is executed by an ESN (Echo State Network) or LSM (Liquid State Machine) algorithm .
The information reading unit is implemented by a FORCE (First Order Reduced and Controlled Error) or a BPDC (Backpropagation Decoration) algorithm.
The neural network system information processing apparatus according to claim 1, wherein
前記情報が系列情報である請求項1〜5のいずれか一項に記載のニューラルネットワーク系情報処理装置。 The neural network type information processing device according to claim 1, wherein the information is sequence information. 前記情報が時系列情報である請求項1〜5のいずれか一項に記載のニューラルネットワーク系情報処理装置。 The neural network type information processing device according to claim 1, wherein the information is time series information. 前記情報が時系列データである請求項1〜5のいずれか一項に記載のニューラルネットワーク系情報識別装置。 The neural network system information identification device according to claim 1, wherein the information is time series data. 前記情報が音声である請求項1〜5のいずれか一項に記載のニューラルネットワーク系音声識別装置。 The neural network system voice identification device according to claim 1, wherein the information is voice.
JP2018206370A 2018-11-01 2018-11-01 Information processing equipment Active JP6704585B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018206370A JP6704585B2 (en) 2018-11-01 2018-11-01 Information processing equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018206370A JP6704585B2 (en) 2018-11-01 2018-11-01 Information processing equipment

Publications (2)

Publication Number Publication Date
JP2020071755A JP2020071755A (en) 2020-05-07
JP6704585B2 true JP6704585B2 (en) 2020-06-03

Family

ID=70547883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018206370A Active JP6704585B2 (en) 2018-11-01 2018-11-01 Information processing equipment

Country Status (1)

Country Link
JP (1) JP6704585B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229926A1 (en) * 2020-05-15 2021-11-18 ソニーグループ株式会社 Information processing device, information processing method, computer program, and imaging device
CN117461040A (en) * 2021-06-17 2024-01-26 东京毅力科创株式会社 Substrate processing apparatus, data processing method, and data processing program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1063634A (en) * 1996-04-05 1998-03-06 Nec Corp Method and device for time sequential prediction/ classification
WO2002031764A2 (en) * 2000-10-13 2002-04-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A method for supervised teaching of a recurrent artificial neural network
US11188813B2 (en) * 2017-03-01 2021-11-30 Stc.Unm Hybrid architecture system and method for high-dimensional sequence processing

Also Published As

Publication number Publication date
JP2020071755A (en) 2020-05-07

Similar Documents

Publication Publication Date Title
US10559225B1 (en) Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items
Ghosh et al. Representation learning for speech emotion recognition.
Mohamed et al. Understanding how deep belief networks perform acoustic modelling
Ghahabi et al. Deep learning backend for single and multisession i-vector speaker recognition
Jermsittiparsert et al. Pattern recognition and features selection for speech emotion recognition model using deep learning
Zhou et al. Deep learning based affective model for speech emotion recognition
Asemi et al. Adaptive neuro-fuzzy inference system for evaluating dysarthric automatic speech recognition (ASR) systems: a case study on MVML-based ASR
JP6704585B2 (en) Information processing equipment
Chattopadhyay et al. Optimizing speech emotion recognition using manta-ray based feature selection
Gupta et al. Speech emotion recognition using svm with thresholding fusion
Sadeghi et al. Optimal MFCC features extraction by differential evolution algorithm for speaker recognition
Trivedi Introduction to various algorithms of speech recognition: hidden Markov model, dynamic time warping and artificial neural networks
Al Anazi et al. A machine learning model for the identification of the holy quran reciter utilizing k-nearest neighbor and artificial neural networks
Gupta et al. Gender specific emotion recognition through speech signals
Goyal et al. Gender and age group predictions from speech features using multi-layer perceptron model
Wu et al. The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge.
Kamaruddin et al. Features extraction for speech emotion
Elbarougy Speech emotion recognition based on voiced emotion unit
Roy et al. Pathological voice classification using deep learning
Joshi et al. Speech controlled robotics using artificial neural network
Abumallouh et al. Deep neural network combined posteriors for speakers' age and gender classification
Mandal et al. Is attention always needed? a case study on language identification from speech
Dasgupta et al. Voiceprint analysis for Parkinson's disease using MFCC, GMM, and instance based learning and multilayer perceptron
Gupta et al. Speech based Emotion Recognition using Machine Learning
Gupta et al. Speaker Identification Based Proxy Attendance Detection System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190827

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190827

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200330

R150 Certificate of patent or registration of utility model

Ref document number: 6704585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250