JP2019120841A - Speech chain apparatus, computer program, and dnn speech recognition/synthesis cross-learning method - Google Patents
Speech chain apparatus, computer program, and dnn speech recognition/synthesis cross-learning method Download PDFInfo
- Publication number
- JP2019120841A JP2019120841A JP2018001538A JP2018001538A JP2019120841A JP 2019120841 A JP2019120841 A JP 2019120841A JP 2018001538 A JP2018001538 A JP 2018001538A JP 2018001538 A JP2018001538 A JP 2018001538A JP 2019120841 A JP2019120841 A JP 2019120841A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- data
- voice
- unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、自動音声認識(ASR: Automatic Speech Recognition)および自動音声合成(TTS: Text-To-Speech synthesis)に関し、特にディープニューラルネットワーク(DNN: Deep Neural Network)で構築された音声認識部および音声合成部を相互に学習させる技術に関する。 The present invention relates to automatic speech recognition (ASR) and automatic text-to-speech synthesis (TTS), and in particular, to a speech recognition unit and a speech constructed with Deep Neural Network (DNN). The present invention relates to a technology to make a synthesis unit learn from each other.
近年、ASRおよびTTSによる音声言語情報処理技術が発達し、機械と人間が音声を通じてコミュニケーションできるようになりつつある。ASRについて言えば、これまで、動的時間伸縮法(DTW: dynamic time warping)によるテンプレートベースのスキームや、隠れマルコフ混合ガウスモデル(HMM-GMM: hidden Markov model - Gaussian mixture model)といった厳格な統計モデルによるデータ駆動手法といった音響音声学に基づくアプローチが試みられてきた。TTSについて言えば、波形符号化および分析合成方式によるルールベースのシステムから、波形素片接続手法や隠れセミマルコフ混合ガウスモデル(HSMM-GMM: hidden semi-Markov model - GMM)を用いたより自由度のある手法へとシフトしつつある。 In recent years, speech and language information processing technology by ASR and TTS has been developed, and machines and humans can communicate through speech. As far as ASR is concerned, strict statistical models such as template-based schemes by dynamic time warping (DTW) and hidden Markov mixed Gaussian models (HMM-GMM) Approaches based on acoustic phonetics have been tried, such as data driven methods by. Speaking of TTS, from rule-based system by waveform coding and analysis synthesis method, there is more freedom by using waveform segment connection method and hidden semi Markov mixed Gaussian model (HSMM-GMM: hidden semi-Markov model-GMM) It is shifting to the method.
そして、近年のコンピュータハードウェアの著しい性能向上によりDNNがさまざまな分野で実用可能となり、ASRおよびTTSにもDNNを用いたディープラーニングが取り入れられつつある(例えば、下記非特許文献1、2を参照)。
And, due to significant performance improvement of computer hardware in recent years, DNN can be put into practical use in various fields, and deep learning using DNN is being adopted in ASR and TTS (see, for example, Non-Patent
人は自分の声を聞きながら言葉を発している。すなわち、人間の脳は耳から聞こえる自分の声の音量や音調や明瞭さなどに基づいて次にどのような発声をするのか決定して発声器官に指示を出している。このように人の音声認識および音声発話では聴覚器菅、脳および発声器官からなる閉ループであるスピーチチェインが非常に重要な役割を果たしている。例えば、聴覚を失った子供はスピーチチェインが機能しなくなることによってうまく喋れなくなることが知られている。このように人の音声認識と音声発話は互いに密接に関連し合うにもかかわらず、ASRおよびTTSの研究・開発はそれぞれ独自に進展してきた。 People utter words while listening to their own voices. That is, based on the volume, tone and clarity of the voice of the human being heard from the ear, the human brain decides what kind of utterance to make next and gives instructions to the vocal organs. Thus, in human speech recognition and speech speech, a speech chain that is a closed loop consisting of a hearing organ, a brain and a vocal organ plays a very important role. For example, it is known that children who have deafened can not cope well by the inability of the speech chain. Thus, although human speech recognition and speech utterance are closely related to each other, research and development of ASR and TTS have independently advanced.
ASTとTTSの分離はDNNを用いたディープラーニングが取り入れられてからも変わっていない。そして、ASRとTTSとが分離されていることにより次のような問題が生じる。
1.ASRおよびTTSをそれぞれ十分なレベルにまで学習させるために音声とテキストのペアからなる教師ありデータを大量に用意する必要がある。教師ありデータは人手で作成しなければならないため大変な労力とコストがかかってしまう。
2.実際の推論段階ではオンラインで入力される信号にノイズが混入するため、それが原因で学習済みのASRおよびTTSの出力誤差が大きくなったりあるいは出力が得られなくなったりすることがある。そこでオンライン入力された信号に基づいてASRおよびTTSの再学習が必要になるが、そもそもオンライン入力される信号は教師なしデータであり、教師なしデータを用いてASRおよびTTSを学習させる仕組みが確立されていない。
The separation of AST and TTS has not changed since deep learning using DNN. And, the following problems occur because ASR and TTS are separated.
1. It is necessary to prepare a large amount of supervised data consisting of speech and text pairs in order to train ASR and TTS to sufficient levels respectively. Since supervised data must be created manually, it takes a great deal of effort and cost.
2. In the actual inference stage, noise is mixed into the signal input on-line, which may result in increase in output error of learned ASR and TTS or inability to obtain an output. Therefore, it is necessary to re-learn ASR and TTS based on the signal input online, but the signal input online is originally unsupervised data, and a mechanism for learning ASR and TTS using unsupervised data is established. Not.
上記問題に鑑み、本発明は、人間のスピーチチェインのメカニズムを機械で再現するスピーチチェイン装置を提供することを目的とする。 SUMMARY OF THE INVENTION In view of the above problems, the present invention aims to provide a speech chain device that reproduces the mechanism of human speech chain by machine.
本発明の一局面に従うと、音声特徴系列データを入力とし文字系列データを出力とするディープニューラルネットワークで構築された音声認識部と、文字系列データを入力とし音声特徴系列データを出力とするディープニューラルネットワークで構築された音声合成部と、入力された音声を処理して、前記音声認識部に入力される前記音声特徴系列データを生成する音声特徴抽出部と、前記音声認識部から出力される前記文字系列データに基づいて、前記音声特徴抽出部に入力された音声に対応するテキストを生成するテキスト生成部と、入力されたテキストを処理して、前記音声合成部に入力される前記文字系列データを生成するテキスト特徴抽出部と、前記音声合成部から出力される前記音声特徴系列データに基づいて、前記テキスト特徴抽出部に入力されたテキストに対応する音声を生成する音声生成部と、前記音声合成部から出力された前記音声特徴系列データを学習データとして前記音声認識部に入力し、前記テキスト特徴抽出部によって生成された前記文字系列データを教師データとして用いて前記音声認識部を学習させる第1の学習制御部と、前記音声認識部から出力された前記文字系列データを学習データとして前記音声合成部に入力し、前記音声特徴抽出部によって生成された前記音声特徴系列データを教師データとして用いて前記音声合成部を学習させる第2の学習制御部と、を備えたスピーチチェイン装置が提供される。 According to one aspect of the present invention, a speech recognition unit constructed of a deep neural network which receives speech feature series data as an input and outputs character series data, and a deep neural network which receives character series data as an input and outputs speech feature series data A speech synthesis unit constructed on a network, a speech feature extraction unit processing the inputted speech to generate the speech feature series data input to the speech recognition unit, and the speech output from the speech recognition unit A text generation unit that generates a text corresponding to the voice input to the voice feature extraction unit based on the character sequence data; and the text sequence data input to the voice synthesis unit by processing the input text A text feature extraction unit for generating the text feature, and the text feature extraction unit based on the voice feature series data output from the voice synthesis unit. A voice generation unit that generates a voice corresponding to the text input to the extraction unit; and the voice feature series data output from the voice synthesis unit as learning data to the voice recognition unit, the text feature extraction unit A first learning control unit that causes the voice recognition unit to learn using the generated character sequence data as teacher data, and the character sequence data output from the voice recognition unit is input to the voice synthesis unit as learning data And a second learning control unit for learning the voice synthesis unit using the voice feature series data generated by the voice feature extraction unit as training data.
具体的には、前記音声認識部に入力される前記音声特徴系列データがメルスペクトル特徴量であってもよく、前記音声合成部から出力される前記音声特徴系列データがリニアスペクトル特徴量およびメルスペクトル特徴量であってもよく、前記音声特徴抽出部が、前記音声特徴系列データとして、前記音声特徴抽出部に入力された音声のリニアスペクトル特徴量およびメルスペクトル特徴量を生成するものであってもよく、前記第2の学習制御部が、前記音声特徴抽出部によって生成された前記リニアスペクトル特徴量および前記メルスペクトル特徴量を教師データとして用いて前記音声合成部を学習させるものであってもよい。 Specifically, the speech feature series data input to the speech recognition unit may be a mel spectrum feature quantity, and the speech feature series data output from the speech synthesis unit may be a linear spectrum feature quantity and a mel spectrum The feature amount may be used, and the voice feature extraction unit may generate, as the voice feature sequence data, linear spectral feature amounts and mel spectral feature amounts of the voice input to the voice feature extraction unit. Preferably, the second learning control unit may learn the speech synthesis unit using the linear spectrum feature and the mel spectrum feature generated by the speech feature extraction unit as training data. .
また、具体的には、前記音声合成部が、発話の終端の確率を表す出力レイヤを有するものであってもよく、前記第2の学習制御部が、さらに発話の終端の確率を教師データとして用いて前記音声合成部を学習させるものであってもよい。 Also, specifically, the speech synthesis unit may have an output layer representing the probability of termination of the utterance, and the second learning control unit further uses the probability of termination of the utterance as teacher data. It may be used to learn the speech synthesis unit.
また、具体的には、前記音声合成部が、話者の識別情報が入力される入力レイヤを有するものであってもよい。 Also, specifically, the voice synthesis unit may have an input layer to which speaker identification information is input.
本発明の別の一局面に従うと、上記スピーチチェイン装置の各構成要素をコンピュータに実現させるためのコンピュータプログラムが提供される。 According to another aspect of the present invention, there is provided a computer program for causing a computer to realize each component of the speech chain device.
本発明のさらに別の一局面に従うと、音声特徴系列データを入力とし文字系列データを出力とするディープニューラルネットワークで構築された音声認識部および文字系列データを入力とし音声特徴系列データを出力とするディープニューラルネットワークで構築された音声合成部を相互に学習させるDNN音声認識・合成相互学習方法であって、教師ありデータとして音声とテキストのペアが与えられた場合、当該音声の音声特徴系列データを学習データとして前記音声認識部に入力し、当該テキストの文字系列データを教師データとして用いて前記音声認識部を学習させるとともに、当該テキストの文字系列データを学習データとして前記音声合成部に入力し、当該音声の音声特徴系列データを教師データとして用いて前記音声合成部を学習させる第1のステップと、教師なしデータとして音声のみが与えられた場合、前記音声認識部に当該音声の音声特徴系列データを入力して前記音声認識部から出力された文字系列データを学習データとして前記音声合成部に入力し、当該音声の音声特徴系列データを教師データとして用いて前記音声合成部を学習させる第2のステップと、教師なしデータとしてテキストのみが与えられた場合、前記音声合成部に当該テキストの文字系列データを入力して前記音声合成部から出力された音声特徴系列データを学習データとして前記音声認識部に入力し、当該テキストの文字系列データを教師データとして用いて前記音声認識部を学習させる第3のステップと、を備えたDNN音声認識・合成相互学習方法が提供される。 According to still another aspect of the present invention, a speech recognition unit constructed of a deep neural network that receives speech feature series data as an input and character series data as an output, and character series data as an input takes speech feature series data as an output. A DNN speech recognition / synthesizing mutual learning method for mutually learning a speech synthesis unit constructed by a deep neural network, wherein when speech / text pairs are given as supervised data, speech feature series data of the speech is The voice recognition unit is input as learning data, and the voice recognition unit is trained using character series data of the text as teacher data, and character series data of the text is input as learning data to the voice synthesis unit. The speech synthesis unit is operated using speech feature series data of the speech as teacher data. In the first step to learn and when only voice is given as unsupervised data, voice feature series data of the voice is inputted to the voice recognition unit, and character sequence data outputted from the voice recognition unit is learned data The second step of learning the speech synthesis unit using the speech feature series data of the speech as teacher data, and the speech synthesis when only the text is given as unsupervised data The character sequence data of the text is input to the unit, and the voice feature sequence data output from the voice synthesis unit is input as learning data to the voice recognition unit, and the character sequence data of the text is used as teacher data A third step of training a recognition unit is provided. A DNN speech recognition / synthesis mutual learning method is provided.
上記DNN音声認識・合成相互学習方法は、音声とテキストのペア、テキストのみおよび音声のみの3種類のデータが混在するデータセットから各種類のデータを一定量ずつ取り出す第4のステップと、前記データセットから取り出した各種類のデータを用いて前記第1のステップないし前記第3のステップを順に繰り返して前記音声認識部および前記音声合成部のバッチ学習を行う第5のステップと、をさらに備えてもよい。 The DNN speech recognition and synthesis mutual learning method includes a fourth step of extracting a certain amount of each type of data from a data set in which three types of data of speech and text, text only and speech only are mixed, and the data And a fifth step of performing batch learning of the speech recognition unit and the speech synthesis unit by sequentially repeating the first step to the third step using each type of data extracted from a set. It is also good.
本発明によると人間のスピーチチェインのメカニズムを機械で再現することができる。これにより、音声認識用に入力された音声および音声合成用に入力されたテキストを教師なしデータとして用いて音声合成および音声認識のオンライン学習を行うことができるようになり、教師ありデータとしての音声とテキストのペアを大量に用意する労力とコストを削減することができる。さらに、本発明に係るスピーチチェイン装置は、音声認識装置および音声合成装置として使えば使うほど学習が進んで音声認識および音声合成の精度が向上する。 According to the present invention, the mechanism of the human speech chain can be reproduced on a machine. As a result, online learning of speech synthesis and speech recognition can be performed using speech input for speech recognition and text input for speech synthesis as unsupervised data, and speech as supervised data can be obtained. You can reduce the effort and cost of preparing a large number of text pairs. Furthermore, as the speech chain device according to the present invention is used as a speech recognition device and a speech synthesis device, learning progresses and the accuracy of speech recognition and speech synthesis improves as it is used.
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。 Hereinafter, embodiments will be described in detail with reference to the drawings as appropriate. However, more detailed description than necessary may be omitted. For example, detailed description of already well-known matters and redundant description of substantially the same configuration may be omitted. This is to avoid unnecessary redundancy in the following description and to facilitate understanding by those skilled in the art.
なお、発明者らは、当業者が本発明を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。 It is noted that the inventors provide the attached drawings and the following description so that those skilled in the art can fully understand the present invention, and intend to limit the subject matter described in the claims by these is not.
また、本明細書において単に「音声」と言う場合、それは音声波形信号を指すことに留意されたい。 Also, it should be noted that when simply referred to herein as "voice", it refers to a voice waveform signal.
1.マシンスピーチチェイン(Machine Speech Chain)
図1は、本発明に係るスピーチチェイン装置のベースとなるマシンスピーチチェインのアーキテクチャを示す図である。マシンスピーチチェイン1は、上述した人間のスピーチチェインのメカニズムを機械で再現するものであり、音声xを受けてそれをテキストy^に変換する音声認識部(以下、単に「ASR」と称することがある。)10と、テキストyを受けてそれを音声x^に変換する音声合成部(以下、単に「TTS」と称することがある。)20とを備えている。マシンスピーチチェイン1においてASR10およびTTS20は、ASR10の出力(テキストy^)がTTS20に入力されるとともにTTS20の出力(音声x^)がASR10に入力されるように互いに接続されて閉ループを形成している。
1. Machine Speech Chain
FIG. 1 shows the architecture of the machine speech chain on which the speech chain device according to the invention is based. The
ASR10およびTTS20はいずれも系列(sequence)データが入出力されるsequence-to-sequence型モデルとして構成されている。具体的には、ASR10は、音声特徴系列データを入力とし文字系列データを出力とするモデルとして、TTS20は、文字系列データを入力とし音声特徴系列データを出力とするモデルとしてそれぞれ構成されている。このようにASR10およびTTS20をいずれもsequence-to-sequence型モデルとして構成したことにより、ASR10およびTTS20間で一方の出力を他方に入力することが可能になっている。
Both ASR 10 and TTS 20 are configured as a sequence-to-sequence type model in which sequence data are input / output. Specifically, the ASR 10 is configured as a model having voice feature series data as an input and character series data as an output, and the TTS 20 is configured as a model having character series data as an input and voice feature series data as an output. By configuring both the
また、マシンスピーチチェイン1においてASR10およびTTS20の閉ループを形成したことで、一方のモデルの出力を他方のモデルの学習データとして用いて各モデルを学習させることができるようになる。例えば、音声合成処理の過程でTTS20から出力される音声x^をASR10の学習データとして用いてASR10を学習させることができ、逆に音声認識処理の過程でASR10から出力されるテキストy^をTTS20の学習データとして用いてTTS20を学習させることができる。
Further, by forming the closed loop of
図2は、マシンスピーチチェイン1においてASR10の出力をTTS20の学習データとして用いてTTS20を学習させる様子を示す模式図である。図2に示したように、マシンスピーチチェイン1において音声認識処理が行われる場合、ASR10は、音声xを受けてそれをテキストy^に変換する。TTS20は、ASR10によって変換されたテキストy^を受けてそれを音声x^に再変換する。このとき、ASR10によって変換されたテキストy^を学習データ、ASR10に入力された元の音声xを教師データとして用いて、TTS20の出力(音声x^)と教師データ(音声x)との誤差が小さくなるように(損失関数LostTTS(x,x^)の値が小さくなるように)TTS20のパラメータ調整、すなわちディープラーニングが行われる。
FIG. 2 is a schematic diagram showing how the
図3は、マシンスピーチチェイン1においてTTS20の出力をASR10の学習データとして用いてASR10を学習させる様子を示す模式図である。図3に示したように、マシンスピーチチェイン1において音声合成処理が行われる場合、TTS20は、テキストyを受けてそれを音声x^に変換する。ASR10は、TTS20によって変換された音声x^を受けてそれをテキストy^に再変換する。このとき、TTS20によって変換された音声x^を学習データ、TTS20に入力された元のテキストyを教師データとして用いて、ASR10の出力(テキストy^、より詳細にはy^を構成する各文字の発生確率py)と教師データ(テキストy)との誤差が小さくなるように(損失関数LostASR(y,py)の値が小さくなるように)ASR10のパラメータ調整、すなわちディープラーニングが行われる。
FIG. 3 is a schematic diagram showing how the output of the
従来のように音声認識モデルと音声合成モデルとが相互接続されていなければ、教師ありデータとして音声とテキストのペアを用意してそれぞれのモデルをオフラインで学習(音声認識モデルの学習には音声が学習データ、テキストが教師データとして用いられ、音声合成モデルの学習にはテキストが学習データ、音声が教師データとして用いられる。)させる必要がある。一方、マシンスピーチチェイン1は、教師ありデータを用いてASR10およびTTS20をそれぞれ教師強制(teacher-forcing)モードでオフライン学習させることができるのはもちろん、音声認識用にオンライン入力された音声を用いてTTS20を学習させ、また、音声合成用にオンライン入力されたテキストを用いてASR10を学習させることができる。すなわち、マシンスピーチチェイン1は、音声認識または音声合成をしながらASR10およびTTS20をオンライン学習させることができる。
If the speech recognition model and the speech synthesis model are not interconnected as in the conventional case, a pair of speech and text is prepared as supervised data, and each model is learned offline (the speech is for speech recognition model learning) Learning data and text are used as teacher data, and for speech synthesis model learning, text needs to be used as learning data and speech is used as teacher data. On the other hand,
2.DNN音声認識・合成モデル
次に、マシンスピーチチェイン1を構成するASR10およびTTS20の詳細について説明する。本発明の実施形態ではASR10およびTTS20はいずれもディープニューラルネットワーク(DNN)で構築される。
2. DNN Speech Recognition / Synthesis Model Next, the details of the
まず、DNN音声認識モデルについて説明する。図4は、一例に係るDNN音声認識モデルの模式図である。ASR10は、音声xを長さSの音声特徴系列データ(すなわちx=[x1,…,xS])、テキストyを長さTの文字系列データ(すなわちy=[y1,…,yT])としたときの条件付き確率p(y|x)を求めるsequence-to-sequence型モデルとして構成される。具体的には、ASR10は、再帰型ニューラルネットワーク(RNN: Recurrent Neural Network)を応用したオートエンコーダとして構築することができる。音声特徴系列データの各要素xsはD次元の実数値ベクトルである。文字系列データの各要素ytは音素(phoneme)または書記素(grapheme)である。
First, the DNN speech recognition model will be described. FIG. 4 is a schematic view of a DNN speech recognition model according to an example. In the
より詳細には、ASR10は、エンコーダ11と、デコーダ12と、アテンション13とを備えている。エンコーダ11は、3層の双方向LSTM(Bi-LSTM: Bidirectional Long Short-Term Memory)レイヤ111、112、113を備えている。エンコーダ11において、初段の双方向LSTMレイヤ111に対数メルスペクトル特徴量で表される音声特徴系列データx1,…,xSが入力されて最終段の双方向LSTMレイヤ113から中間層ベクトルhe s(s=1,…,S)が出力される。
More specifically, the
デコーダ12は、文字埋め込み(Char Emb.: Character Embed)レイヤ121と、LSTMレイヤ122とを備えている。デコーダ12において、文字埋め込みレイヤ121に文字系列データy0,…,yT−1が入力されてLSTMレイヤ122から文字系列データy1,…,yTが出力される。デコーダ12の入力である文字系列データytは音素または書記素そのものではなく音素または書記素のidまたはインデックス番号である。時刻tにおけるデコーダ12の出力ytは、LSTMレイヤ122から出力される中間層ベクトルhd tとアテンション13によって計算されるコンテキストベクトルctとを連結したベクトルを所定の線型作用素で重み付けし、さらにそれを所定の活性化関数に入力することにより算出される。図示していないが、LSTMレイヤ122から出力される文字系列データy1,…,yTはsoftmax関数によって各文字の発生確率py1,…,pyTとして正規化される。
The
アテンション13は、コンテキストベクトルctを計算するモジュールである。より詳細には、アテンション13は、デコーダ12のLSTMレイヤ122から出力される時刻tにおける中間層ベクトルhd tとエンコーダ11の双方向LSTMレイヤ113が保持している中間層ベクトルhe 1,…,he Sから値atを計算し、さらに値atと中間層ベクトルhe 1,…,he Sからコンテキストベクトルctを計算する。なお、値atおよびコンテキストベクトルctの計算式は周知であるのでここでの説明は省略する。
ASR10のパラメータは、次の損失関数の値が最小になるように確率的勾配降下法や誤差逆伝播法などを用いて調整される。
ここで、Cは出力クラスの数であり、yは正解(ground truth)のテキストである。
The parameters of the
Here, C is the number of output classes and y is the text of the ground truth.
オフライン学習時に教師ありデータとして音声とテキストのペアが与えられる場合、当該音声の音声特徴系列データを学習データ、当該テキストの文字系列データを教師データとして用いてASR10の学習を行うことができる。一方、教師なしデータとしてテキストのみが与えられる場合、例えば、音声合成用にオンライン入力されたテキストを使用する場合、図3を参照して説明したように、TTS20から出力される音声特徴系列データを学習データ、音声合成用にオンライン入力されたテキストの文字系列データを教師データとして用いてASR10の学習を行うことができる。
When a pair of voice and text is given as supervised data at the time of offline learning, learning of
次に、DNN音声合成モデルについて説明する。図5は、一例に係るDNN音声合成モデルの模式図である。TTS20は、テキストyを長さTの文字系列データ(すなわちy=[y1,…,yT])、音声xを長さSの音声特徴系列データ(すなわちx=[x1,…,xS])としたときの条件付き確率p(x|y)を求めるsequence-to-sequence型モデルとして構築される。具体的には、TTS20は、再帰型ニューラルネットワークを応用したオートエンコーダとして構築することができる。音声特徴系列データの各要素xsはD次元の実数値ベクトルである。文字系列データの各要素ytは音素または書記素である。
Next, the DNN speech synthesis model will be described. FIG. 5 is a schematic view of a DNN speech synthesis model according to an example.
より詳細には、TTS20は、エンコーダ21と、デコーダ22と、アテンション23とを備えている。エンコーダ21は、文字埋め込みレイヤ211と、全結合(FC: Fully Connected)レイヤ212と、CBHG(1-D Convolution Bank + Highway network + bidirectional GRU)213とを備えている。エンコーダ21において、文字埋め込みレイヤ211に文字系列データy1,…,yTが入力されてCBHG213から中間層ベクトルhe t(t=1,…,T)が出力される。エンコーダ21の入力である文字系列データytは音素または書記素そのものではなく音素または書記素のidまたはインデックス番号である。
More specifically, the
デコーダ22は、全結合レイヤ221と、LSTMレイヤ222と、CBHG223と、全結合レイヤ224とを備えている。デコーダ22において、全結合レイヤ221に対数メルスペクトル特徴量で表される音声特徴系列データxM 0,…,xM S−1が入力されてLSTMレイヤ222から対数メルスペクトル特徴量で表される音声特徴系列データxM 1,…,xM Sが出力される。また、デコーダ22において、LSTMレイヤ222から出力される音声特徴系列データxM 1,…,xM SがCBHG223に入力されて全結合レイヤ224からリニアスペクトル特徴量で表される音声特徴系列データxR s(s=1,…,S)が出力される。CBHG223の入力xM sは、LSTMレイヤ222から出力される中間層ベクトルhd sとアテンション23によって計算されるコンテキストベクトルcsとを連結したベクトルを所定の線型作用素で重み付けし、さらにそれを所定の活性化関数に入力することにより算出される。図示していないが、全結合レイヤ224から出力される音声特徴系列データxR s(s=1,…,S)はGriffin-Limアルゴリズムに従って処理されて音声が再構築される。
The
デコーダ22は、さらに、出力レイヤ225と、入力レイヤ226とを備えている。出力レイヤ225は、発話の終端の確率を出力するレイヤである。出力レイヤ225を設けた理由は、デコーダ22から出力される音声特徴系列データ音声特徴系列データxM sおよびxR s(s=1,…,S)はいずれも実数値ベクトルであり、それらからは発話の終端が判断できないからである。もし出力レイヤ225がなければ発話の終端が判断できないためTTS20から出力される音声特徴系列データが所定の長さになったところで強制的に音声合成を終了させることとなり語尾が不自然になるおそれがある。一方、出力レイヤ225を設けたことによって発話の終端が判断できるようになり、音声特徴系列データを所定の長さで強制的に打ち切ることなく発話終端で音声合成を終了させることができ、自然な語尾の音声を合成が実現できる。
The
入力レイヤ226には話者の識別情報が入力される。話者の識別情報として話者のidを用いることができる。入力レイヤ226に入力された話者のidは埋め込み(embed)関数に入力されて実数値ベクトルによる分散表現に変換されてLSTMレイヤ222、224などに入力される。未知の話者にも対応可能にするために、話者のidを話者認識用のi-vectorにマッピングするようにしてもよい。このように話者の識別情報が入力される入力レイヤ226を設けたことで、TTS20は当該話者の声に似た音声を合成できるようになる。
The
上述したようにASR10のオンライン学習ではTTS20から出力される音声特徴系列データが学習データとして用いられるが、このとき音声認識用に入力された音声とTTS20によって合成された音声の声質が異なっているとASR10の学習が正しく進まなくなるおそれがある。そこで入力レイヤ226を設けて話者の声に似た音声を合成できるようにすることでASR10のオンライン学習の質を向上させることができる。特にマシンスピーチチェイン1が複数の話者の音声を認識しなければならないような場合には入力レイヤ226を設けることが望ましい。
As described above, in the online learning of
アテンション23は、コンテキストベクトルcsを計算するモジュールである。より詳細には、アテンション23は、デコーダ22のLSTMレイヤ222から出力される時刻sにおける中間層ベクトルhd sとエンコーダ21のCBHG213が保持している中間層ベクトルhe 1,…,he Tから値asを計算し、さらに値asと中間層ベクトルhe 1,…,he Tからコンテキストベクトルcsを計算する。なお、値asおよびコンテキストベクトルcsの計算式は周知であるのでここでの説明は省略する。
The
TTS20のパラメータは、次の損失関数の値が最小になるように確率的勾配降下法や誤差逆伝播法などを用いて調整される。
ここで、x^M、x^R、b^はそれぞれTTS20から出力される対数メルスペクトル特徴量、リニアスペクトル特徴量、発話終端確率であり、xM、xR、bはそれぞれそれらの正解(ground truth)である。
The parameters of
Here, x ^ M , x ^ R and b ^ are the log mel spectral feature, linear spectral feature and speech termination probability output from
オフライン学習時に教師ありデータとして音声とテキストのペアが与えられる場合、当該テキストの文字系列データを学習データ、当該音声の音声特徴系列データ(対数メルスペクトル特徴量およびリニアスペクトル特徴量)を教師データとして用いてTTS20の学習を行うことができる。一方、教師なしデータとして音声のみが与えられる場合、例えば、音声認識用にオンライン入力された音声を使用する場合、図2を参照して説明したように、ASR10から出力される文字系列データを学習データ、音声認識用にオンライン入力された音声の音声特徴系列データ(対数メルスペクトル特徴量およびリニアスペクトル特徴量)を教師データとして用いてTTS20の学習を行うことができる。
When a pair of speech and text is given as supervised data during offline learning, character series data of the text is learned data, and speech feature series data of the speech (log mel spectral feature quantity and linear spectrum feature quantity) is taken as teaching data It can be used to learn
3.実施形態
次に、本発明の一実施形態に係るスピーチチェイン装置の構成を説明する。図6は、本発明の一実施形態に係るスピーチチェイン装置100のブロック図である。スピーチチェイン装置100は、音声認識部(ASR)10と、音声合成部(TTS)20と、音声特徴抽出部30と、テキスト生成部40と、テキスト特徴抽出部50と、音声生成部60と、ASR学習制御部70と、TTS学習制御部80とを備えている。スピーチチェイン装置100を構成するこれら要素はハードウェアまたはソフトウェアまたはそれらの組み合わせとして実現することができる。例えば、パソコンやスマートフォンなどのコンピュータ装置に専用のコンピュータソフトウェアをインストールすることで当該コンピュータ装置をスピーチチェイン装置100として機能させることができる。例えば、スピーチチェイン装置100は、クラウド上のサーバーに実装してSaaS(software as a service)として実施することもできる。また、スピーチチェイン装置100の各構成要素を複数のコンピュータ装置に分散配置し、電気通信ネットワークを介して各構成要素を互いに接続することによってスピーチチェイン装置100を実現することもできる。大量の計算が必要なASR10およびTTS20はGPU(Graphics Processing Unit)などの専用のプロセッサで処理し、それ以外の構成要素はCPU(Central Processing Unit)で処理させるとよい。
3. Embodiment Next, the configuration of a speech chain apparatus according to an embodiment of the present invention will be described. FIG. 6 is a block diagram of a
次に、スピーチチェイン装置100の各構成要素の詳細について説明する。なお、ASR10およびTTS20については上述した通りであるため、繰り返しの説明は省略する。
Next, details of each component of the
音声特徴抽出部30は、入力された音声を処理して、ASR10に入力される音声特徴系列データ(x=[x1,…,xS])を生成するモジュールである。テキスト生成部40は、ASR10から出力される文字系列データ(y^=[y1,…,yT])に基づいて、音声特徴抽出部30に入力された音声に対応するテキストを生成するモジュールである。音声特徴抽出部30には、図略のマイクロフォンで集音した音声をリアルタイムに入力できる他、図略のストレージ装置やメモリ装置に保持された録音音声などを入力することもできる。テキスト生成部40から出力されるテキストは、図略の表示装置にリアルタイムに表示できる他、図略のストレージ装置やメモリ装置に保存することもできる。
The audio
図7は、音声特徴抽出部30によって実施される音声特徴系列データ生成処理のフローチャートである。スピーチチェイン装置100に音声が入力されると(S11)、音声特徴抽出部30は、入力された音声に対してプリエンファシス処理を施し(S12)、その後さらに短時間フーリエ変換を施す(S13)。こうして音声特徴抽出部30は、入力された音声からそのリニアスペクトル特徴量を計算し(S14)、それを出力する(S15)。出力されたリニアスペクトル特徴量は図略のメモリ装置などに一時保存される。さらに、音声特徴抽出部30は、リニアスペクトル特徴量から対数メルスペクトル特徴量を計算し(S16)、それを出力する(S17)。出力された対数メルスペクトル特徴量は図略のメモリ装置などに一時保存される。
FIG. 7 is a flowchart of the voice feature series data generation process performed by the voice
図6へ戻り、テキスト特徴抽出部50は、入力されたテキストを処理して、TTS20に入力される文字系列データ(y=[y1,…,yT])を生成するモジュールである。音声生成部60は、TTS20から出力される音声特徴系列データ(x^=[x1,…,xS])に基づいて、テキスト特徴抽出部50に入力されたテキストに対応する音声を生成するモジュールである。テキスト特徴抽出部50には、図略の入力デバイスを通じて入力されたテキストやOCR(Optical Character Recognition)装置などで読み取られたテキストをリアルタイムに入力できる他、図略のストレージ装置やメモリ装置に保持された文書中のテキストなどを入力することもできる。音声生成部60から出力される音声は、図略のスピーカからリアルタイムに出音できる他、図略のストレージ装置やメモリ装置に保存することもできる。
Returning to FIG. 6, the text
図8は、テキスト特徴抽出部50によって実施される文字系列データ生成処理のフローチャートである。スピーチチェイン装置100にテキストが入力されると(S21)、テキスト特徴抽出部50は、当該入力されたテキストに含まれる文字、記号、数字の正規化処理を行う(S22)。具体的には、テキスト特徴抽出部50は、大文字をすべて小文字に変換し、ダブルクオーテーションなどの一部の記号をシングルクオーテーションなどの別の記号に置き換え、数字をその読みを表すテキストに変換(例えば、“5”→“five”)する。その後、テキスト特徴抽出部50は、正規化されたテキストを各文字に切り分ける(S23)(例えば、“five”→“f”,“i”,“v”,“e”)。その後、テキスト特徴抽出部50は、各文字をインデックスに変換し(S24)(例えば、 “f”→6,“i”→9,“v”→22,“e”→5)、正規化テキストと文字インデックスを出力する(S25)。出力された正規化テキストと文字インデックスは図略のメモリ装置などに一時保存される。
FIG. 8 is a flowchart of the character series data generation process performed by the text
図6へ戻り、ASR学習制御部70は、ASR10の学習を制御するモジュールである。ASR10には音声特徴抽出部30によって生成された音声特徴系列データxおよびTTS20から出力された音声特徴系列データx^のいずれか一方が選択的に入力されるようになっている。スピーチチェイン装置100にテキストが入力されてスピーチチェイン装置100が音声合成装置として動作するとき、ASR学習制御部70は、TTS20によって生成された音声特徴系列データx^を学習データとしてASR10に入力し、テキスト特徴抽出部50によって生成された文字系列データyを教師データとして用いて、上述した方法でASR10のパラメータを調整する。
Returning to FIG. 6, the ASR
TTS学習制御部80は、TTS20の学習を制御するモジュールである。TTS20にはテキスト特徴抽出部50によって生成された文字系列データyおよびASR10から出力された文字系列データy^のいずれか一方が選択的に入力されるようになっている。スピーチチェイン装置100に音声が入力されてスピーチチェイン装置100が音声認識装置として動作するとき、TTS学習制御部80は、ASR10によって生成された文字系列データy^を学習データとしてTTS20に入力し、音声特徴抽出部30によって生成された音声特徴系列データxを教師データとして用いて、上述した方法でTTS20のパラメータを調整する。
The TTS
図9は、スピーチチェイン装置100において実施されるDNN音声認識・合成相互学習の全体フローチャートである。スピーチチェイン装置100にデータが入力され(S31)、それが音声とテキストのペアであれば(S32でYES)、音声特徴抽出部30が、当該入力された音声から音声特徴系列データxを生成し、テキスト特徴抽出部50が、当該入力されたテキストから文字系列データyを生成する(S33)。音声特徴系列データおよび文字系列データの生成処理について図7および図8を参照して説明した通りである。これら系列データが生成されると、ASR学習制御部70が、音声特徴系列データxを学習データとしてASR10に入力し、文字系列データyを教師データとして用いてASR10を学習させるとともに、TTS学習制御部80が、文字系列データyを学習データとしてTTS20に入力し、音声特徴系列データxを教師データとして用いてTTS20を学習させる(S34)。
FIG. 9 is an overall flowchart of DNN speech recognition and synthesis mutual learning implemented in
このように、音声とテキストのペアという教師ありデータが与えられた場合、ASR学習制御部70およびTTS学習制御部80は、その教師ありデータを用いてASR10およびTTS20をそれぞれ教師強制モードでオフライン学習させることができる。
Thus, when supervised data of a voice and text pair is given, the ASR
スピーチチェイン装置100に入力されたデータが音声のみであれば(S32でNO、S35でYES)、音声特徴抽出部30が当該入力された音声から音声特徴系列データxを生成し(S36)、ASR10がそれを受けて音声認識を行う(S37)。そして、TTS学習制御部80が、ASR10から出力された文字系列データy^を学習データとしてTTS20に入力し、音声特徴抽出部30によって生成された音声特徴系列データxを教師データとして用いてTTS20を学習させる(S38)。一方、スピーチチェイン装置100に入力されたデータがテキストのみであれば(S32でNO、S35でNO)、テキスト特徴抽出部50が当該入力されたテキストから文字系列データyを生成し(S39)、TTS20がそれを受けて音声合成を行う(S40)。そして、ASR学習制御部70が、TTS20から出力された音声特徴系列データx^を学習データとしてASR10に入力し、テキスト特徴抽出部50によって生成された文字系列データyを教師データとして用いてASR10を学習させる(S41)。
If the data input to the
このように、音声のみのみが与えられた場合、TTS学習制御部80は、ASR10による音声認識結果をTTS20の学習データとして使用してTTS20を学習させることができる。一方、テキストのみが与えられた場合、ASR学習制御部70は、TTS20による音声合成結果をASR10の学習データとして使用してASR10を学習させることができる。すなわち、教師なしデータを用いてASR10およびTTS20のオンライン学習が可能になる。
As described above, when only voice is given, the TTS
上述したように、スピーチチェイン装置100においてASR10およびTTS20は教師ありデータおよび教師なしデータのいずれを与えられても学習可能であることから、音声とテキストのペア、テキストのみおよび音声のみの3種類のデータが混在するデータセットを用意してASR10およびTTS20のバッチ学習を行うことができる。
As described above, in the
図10は、ASR10およびTTS20のバッチ学習処理のフローチャートである。ASR学習制御部70およびTTS学習制御部80は、図略のストレージ装置などに保存されたデータセットから音声とテキストのペアを一定量取り出して音声特徴抽出部30およびテキスト特徴抽出部50にそれぞれ入力し(S51)、音声特徴抽出部30によって生成された音声特徴系列データxおよびテキスト特徴抽出部50によって生成された文字系列データyを用いてASR10およびTTS20をそれぞれ学習させる(S52)。続いて、TTS学習制御部80は、データセットから音声のみのデータを一定量取り出して音声特徴抽出部30に入力し(S53)、ASR10によって生成された文字系列データy^を学習データとしてTTS20に入力し、音声特徴抽出部30によって生成された音声特徴系列データxを教師データとして用いてTTS20を学習させる(S54)。続いて、ASR学習制御部70は、データセットからテキストのみのデータを一定量取り出してテキスト特徴抽出部50に入力し(S55)、TTS20によって生成された音声特徴系列データx^を学習データとしてASR10に入力し、テキスト特徴抽出部50によって生成された文字系列データyを教師データとして用いてASR10を学習させる(S56)。ASR学習制御部70およびTTS学習制御部80は、以上の工程をデータセットのデータがなくなるまで繰り返す。
FIG. 10 is a flowchart of batch learning processing of the
以上説明したように、本実施形態に係るスピーチチェイン装置100によって人間のスピーチチェインのメカニズムを機械で再現することができる。これにより、音声認識用に入力された音声および音声合成用に入力されたテキストを教師なしデータとして用いて音声合成および音声認識のオンライン学習を行うことができるようになり、教師ありデータとしての音声とテキストのペアを大量に用意する労力とコストを削減することができる。さらに、本実施形態に係るスピーチチェイン装置100は、音声認識装置および音声合成装置として使えば使うほど学習が進んで音声認識および音声合成の精度が向上する。
As described above, the mechanism of the human speech chain can be reproduced by machine by the
以上のように、本発明における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。 As described above, the embodiment has been described as an example of the technology in the present invention. For that purpose, the attached drawings and the detailed description are provided.
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。 Therefore, among the components described in the attached drawings and the detailed description, not only components essential for solving the problem but also components not essential for solving the problem in order to exemplify the above-mentioned technology May also be included. Therefore, the fact that those non-essential components are described in the attached drawings and the detailed description should not immediately mean that those non-essential components are essential.
また、上述の実施の形態は、本発明における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。 Moreover, since the above-mentioned embodiment is for illustrating the technique in the present invention, various changes, replacements, additions, omissions and the like can be made within the scope of the claims or the equivalent scope thereof.
100…スピーチチェイン装置、10…音声認識部、20…音声合成部、30…音声特徴抽出部、40…テキスト生成部、50…テキスト特徴抽出部、60…音声生成部、70…ASR学習制御部、80…TTS学習制御部、225…出力レイヤ、226…入力レイヤ
100: speech chain device 10: speech recognition unit 20: speech synthesis unit 30: speech feature extraction unit 40: text generation unit 50: text feature extraction unit 60: speech generation unit 70: ASR learning
Claims (7)
文字系列データを入力とし音声特徴系列データを出力とするディープニューラルネットワークで構築された音声合成部と、
入力された音声を処理して、前記音声認識部に入力される前記音声特徴系列データを生成する音声特徴抽出部と、
前記音声認識部から出力される前記文字系列データに基づいて、前記音声特徴抽出部に入力された音声に対応するテキストを生成するテキスト生成部と、
入力されたテキストを処理して、前記音声合成部に入力される前記文字系列データを生成するテキスト特徴抽出部と、
前記音声合成部から出力される前記音声特徴系列データに基づいて、前記テキスト特徴抽出部に入力されたテキストに対応する音声を生成する音声生成部と、
前記音声合成部から出力された前記音声特徴系列データを学習データとして前記音声認識部に入力し、前記テキスト特徴抽出部によって生成された前記文字系列データを教師データとして用いて前記音声認識部を学習させる第1の学習制御部と、
前記音声認識部から出力された前記文字系列データを学習データとして前記音声合成部に入力し、前記音声特徴抽出部によって生成された前記音声特徴系列データを教師データとして用いて前記音声合成部を学習させる第2の学習制御部と、を備えたスピーチチェイン装置。 A speech recognition unit constructed of a deep neural network which receives speech feature series data and outputs character series data;
A speech synthesis unit constructed of a deep neural network which receives character sequence data as an input and speech characteristic sequence data as an output;
A voice feature extraction unit that processes the input voice and generates the voice feature series data input to the voice recognition unit;
A text generation unit that generates a text corresponding to the voice input to the voice feature extraction unit based on the character series data output from the voice recognition unit;
A text feature extraction unit that processes the input text and generates the character series data input to the speech synthesis unit;
A voice generation unit that generates a voice corresponding to the text input to the text feature extraction unit based on the voice feature series data output from the voice synthesis unit;
The speech feature sequence data output from the speech synthesis unit is input as learning data to the speech recognition unit, and the character recognition data generated by the text feature extraction unit is used as training data to learn the speech recognition unit A first learning control unit to cause
The character sequence data output from the speech recognition unit is input as learning data to the speech synthesis unit, and the speech synthesis unit is learned using the speech feature series data generated by the speech feature extraction unit as teacher data And a second learning control unit.
前記音声合成部から出力される前記音声特徴系列データがリニアスペクトル特徴量およびメルスペクトル特徴量であり、
前記音声特徴抽出部が、前記音声特徴系列データとして、前記音声特徴抽出部に入力された音声のリニアスペクトル特徴量およびメルスペクトル特徴量を生成するものであり、
前記第2の学習制御部が、前記音声特徴抽出部によって生成された前記リニアスペクトル特徴量および前記メルスペクトル特徴量を教師データとして用いて前記音声合成部を学習させるものである請求項1に記載のスピーチチェイン装置。 The voice feature series data input to the voice recognition unit is a mel spectrum feature amount,
The speech feature series data output from the speech synthesis unit is a linear spectrum feature quantity and a mel spectrum feature quantity,
The voice feature extraction unit generates, as the voice feature sequence data, a linear spectral feature amount and a mel spectral feature amount of the voice input to the voice feature extraction unit,
The second learning control unit is configured to learn the speech synthesis unit using the linear spectrum feature and the mel spectrum feature generated by the speech feature extraction unit as training data. Speech chain equipment.
前記第2の学習制御部が、さらに発話の終端の確率を教師データとして用いて前記音声合成部を学習させるものである請求項1または請求項2に記載のスピーチチェイン装置。 The speech synthesis unit has an output layer representing the probability of termination of the speech,
The speech chain apparatus according to claim 1 or 2, wherein the second learning control unit further causes the speech synthesis unit to learn using the probability of the end of an utterance as teacher data.
文字系列データを入力とし音声特徴系列データを出力とするディープニューラルネットワークで構築された音声合成部と、
入力された音声を処理して、前記音声認識部に入力される前記音声特徴系列データを生成する音声特徴抽出部と、
前記音声認識部から出力される前記文字系列データに基づいて、前記音声特徴抽出部に入力された音声に対応するテキストを生成するテキスト生成部と、
入力されたテキストを処理して、前記音声合成部に入力される前記文字系列データを生成するテキスト特徴抽出部と、
前記音声合成部から出力される前記音声特徴系列データに基づいて、前記テキスト特徴抽出部に入力されたテキストに対応する音声を生成する音声生成部と、
前記音声合成部から出力された前記音声特徴系列データを学習データとして前記音声認識部に入力し、前記テキスト特徴抽出部によって生成された前記文字系列データを教師データとして用いて前記音声認識部を学習させる第1の学習制御部と、
前記音声認識部から出力された前記文字系列データを学習データとして前記音声合成部に入力し、前記音声特徴抽出部によって生成された前記音声特徴系列データを教師データとして用いて前記音声合成部を学習させる第2の学習制御部と、をコンピュータに実現させるためのコンピュータプログラム。 A speech recognition unit constructed of a deep neural network which receives speech feature series data and outputs character series data;
A speech synthesis unit constructed of a deep neural network which receives character sequence data as an input and speech characteristic sequence data as an output;
A voice feature extraction unit that processes the input voice and generates the voice feature series data input to the voice recognition unit;
A text generation unit that generates a text corresponding to the voice input to the voice feature extraction unit based on the character series data output from the voice recognition unit;
A text feature extraction unit that processes the input text and generates the character series data input to the speech synthesis unit;
A voice generation unit that generates a voice corresponding to the text input to the text feature extraction unit based on the voice feature series data output from the voice synthesis unit;
The speech feature sequence data output from the speech synthesis unit is input as learning data to the speech recognition unit, and the character recognition data generated by the text feature extraction unit is used as training data to learn the speech recognition unit A first learning control unit to cause
The character sequence data output from the speech recognition unit is input as learning data to the speech synthesis unit, and the speech synthesis unit is learned using the speech feature series data generated by the speech feature extraction unit as teacher data Computer program for causing a computer to realize a second learning control unit.
教師ありデータとして音声とテキストのペアが与えられた場合、当該音声の音声特徴系列データを学習データとして前記音声認識部に入力し、当該テキストの文字系列データを教師データとして用いて前記音声認識部を学習させるとともに、当該テキストの文字系列データを学習データとして前記音声合成部に入力し、当該音声の音声特徴系列データを教師データとして用いて前記音声合成部を学習させる第1のステップと、
教師なしデータとして音声のみが与えられた場合、前記音声認識部に当該音声の音声特徴系列データを入力して前記音声認識部から出力された文字系列データを学習データとして前記音声合成部に入力し、当該音声の音声特徴系列データを教師データとして用いて前記音声合成部を学習させる第2のステップと、
教師なしデータとしてテキストのみが与えられた場合、前記音声合成部に当該テキストの文字系列データを入力して前記音声合成部から出力された音声特徴系列データを学習データとして前記音声認識部に入力し、当該テキストの文字系列データを教師データとして用いて前記音声認識部を学習させる第3のステップと、を備えたDNN音声認識・合成相互学習方法。 A speech recognition unit constructed by a deep neural network which receives speech feature series data as an input and outputs character series data, and a speech synthesis unit constructed as a deep neural network which receives character series data as an input and outputs speech feature series data It is a DNN speech recognition / synthesis mutual learning method for mutually learning,
When a voice-text pair is given as supervised data, voice feature series data of the voice is input as learning data to the voice recognition unit, and character series data of the text is used as teacher data, and the voice recognition unit is used. A first step of learning character sequence data of the text as learning data to the speech synthesis unit and learning the speech synthesis unit using speech feature sequence data of the speech as teacher data;
When only voice is given as unsupervised data, voice feature series data of the voice is inputted to the voice recognition unit, and character series data outputted from the voice recognition unit is inputted to the voice synthesis unit as learning data. A second step of training the speech synthesis unit using speech feature series data of the speech as teacher data;
When only text is given as unsupervised data, character series data of the text is input to the speech synthesis unit, and speech feature series data output from the speech synthesis unit is input to the speech recognition unit as learning data. And a third step of training the speech recognition unit using character series data of the text as teacher data, a DNN speech recognition and synthesis mutual learning method.
前記データセットから取り出した各種類のデータを用いて前記第1のステップないし前記第3のステップを順に繰り返して前記音声認識部および前記音声合成部のバッチ学習を行う第5のステップと、をさらに備えた請求項6に記載のDNN音声認識・合成相互学習方法。 A fourth step of extracting a certain amount of each type of data from a data set including a mixture of speech and text pairs, text only and speech only data;
A fifth step of performing batch learning of the speech recognition unit and the speech synthesis unit by sequentially repeating the first step to the third step using each type of data extracted from the data set; The DNN speech recognition / synthesis mutual learning method according to claim 6, comprising.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018001538A JP6989951B2 (en) | 2018-01-09 | 2018-01-09 | Speech chain device, computer program and DNN speech recognition / synthesis mutual learning method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018001538A JP6989951B2 (en) | 2018-01-09 | 2018-01-09 | Speech chain device, computer program and DNN speech recognition / synthesis mutual learning method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019120841A true JP2019120841A (en) | 2019-07-22 |
JP6989951B2 JP6989951B2 (en) | 2022-01-12 |
Family
ID=67306188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018001538A Active JP6989951B2 (en) | 2018-01-09 | 2018-01-09 | Speech chain device, computer program and DNN speech recognition / synthesis mutual learning method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6989951B2 (en) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021029642A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
JP2021032937A (en) * | 2019-08-19 | 2021-03-01 | 大学共同利用機関法人情報・システム研究機構 | Voice synthesizer |
JP2021039218A (en) * | 2019-09-02 | 2021-03-11 | 日本電信電話株式会社 | Learning device, learning method, and learning program |
CN112562634A (en) * | 2020-12-02 | 2021-03-26 | 平安科技(深圳)有限公司 | Multi-style audio synthesis method, device, equipment and storage medium |
JP2021131514A (en) * | 2020-02-21 | 2021-09-09 | 株式会社東芝 | Data generation device, data generation method, and program |
WO2021215352A1 (en) * | 2020-04-21 | 2021-10-28 | 株式会社Nttドコモ | Voice data creation device |
US11335321B2 (en) | 2020-08-28 | 2022-05-17 | Google Llc | Building a text-to-speech system from a small amount of speech data |
JP2022530284A (en) * | 2019-06-19 | 2022-06-28 | グーグル エルエルシー | Context bias for speech recognition |
WO2022179337A1 (en) * | 2021-02-26 | 2022-09-01 | International Business Machines Corporation | Chunking and overlap decoding strategy for streaming rnn transducers for speech recognition |
JP2022539914A (en) * | 2019-09-17 | 2022-09-13 | 北京京▲東▼尚科信息技▲術▼有限公司 | Speech synthesis method and device, storage medium |
US11514916B2 (en) | 2019-08-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
US11521619B2 (en) | 2019-08-13 | 2022-12-06 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
JP2022554149A (en) * | 2020-03-12 | 2022-12-28 | 北京京▲東▼尚科信息技▲術▼有限公司 | Text information processing method and apparatus |
US11783811B2 (en) | 2020-09-24 | 2023-10-10 | International Business Machines Corporation | Accuracy of streaming RNN transducer |
WO2023248398A1 (en) * | 2022-06-22 | 2023-12-28 | 日本電信電話株式会社 | Training device, training method, training program, and speech synthesis device |
WO2024009890A1 (en) * | 2022-07-04 | 2024-01-11 | 日本電気株式会社 | Training data generation device, voice recognition model generation device, training data generation method, voice recognition model generation method, and recording medium |
JP7488381B2 (en) | 2020-01-21 | 2024-05-21 | グーグル エルエルシー | Two-pass end-to-end speech recognition based on a derivation model |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11915682B2 (en) * | 2019-05-15 | 2024-02-27 | Deepmind Technologies Limited | Speech synthesis utilizing audio waveform difference signal(s) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271182A (en) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | Device and method for preparing acoustic model |
-
2018
- 2018-01-09 JP JP2018001538A patent/JP6989951B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271182A (en) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | Device and method for preparing acoustic model |
Non-Patent Citations (2)
Title |
---|
Y.BENAHMED, ET AL.: "Using Text-to-Speech Engine to Improve the Accuracy of a Speech-Enabled Interface", 2007 INNOVATIONS IN INFORMATION TECHNOLOGIES, JPN6021042706, November 2007 (2007-11-01), pages 302 - 306, XP031202304, ISSN: 0004629537, DOI: 10.1109/IIT.2007.4430395 * |
中村哲, 日本音響学会2017年秋季研究発表会講演論文集[CD−ROM], JPN6021042707, September 2017 (2017-09-01), pages 1387 - 1390, ISSN: 0004629536 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11664021B2 (en) | 2019-06-19 | 2023-05-30 | Google Llc | Contextual biasing for speech recognition |
JP7200405B2 (en) | 2019-06-19 | 2023-01-06 | グーグル エルエルシー | Context Bias for Speech Recognition |
JP2022530284A (en) * | 2019-06-19 | 2022-06-28 | グーグル エルエルシー | Context bias for speech recognition |
US11532310B2 (en) | 2019-08-13 | 2022-12-20 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
US11521619B2 (en) | 2019-08-13 | 2022-12-06 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
WO2021029642A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
US11514916B2 (en) | 2019-08-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
JP7336135B2 (en) | 2019-08-19 | 2023-08-31 | 大学共同利用機関法人情報・システム研究機構 | speech synthesizer |
JP2021032937A (en) * | 2019-08-19 | 2021-03-01 | 大学共同利用機関法人情報・システム研究機構 | Voice synthesizer |
JP2021039218A (en) * | 2019-09-02 | 2021-03-11 | 日本電信電話株式会社 | Learning device, learning method, and learning program |
JP2022539914A (en) * | 2019-09-17 | 2022-09-13 | 北京京▲東▼尚科信息技▲術▼有限公司 | Speech synthesis method and device, storage medium |
JP7238204B2 (en) | 2019-09-17 | 2023-03-13 | 北京京▲東▼尚科信息技▲術▼有限公司 | Speech synthesis method and device, storage medium |
JP7488381B2 (en) | 2020-01-21 | 2024-05-21 | グーグル エルエルシー | Two-pass end-to-end speech recognition based on a derivation model |
JP2021131514A (en) * | 2020-02-21 | 2021-09-09 | 株式会社東芝 | Data generation device, data generation method, and program |
JP7314079B2 (en) | 2020-02-21 | 2023-07-25 | 株式会社東芝 | Data generation device, data generation method and program |
JP7383140B2 (en) | 2020-03-12 | 2023-11-17 | 北京京▲東▼尚科信息技▲術▼有限公司 | Text information processing method and device |
JP2022554149A (en) * | 2020-03-12 | 2022-12-28 | 北京京▲東▼尚科信息技▲術▼有限公司 | Text information processing method and apparatus |
JPWO2021215352A1 (en) * | 2020-04-21 | 2021-10-28 | ||
WO2021215352A1 (en) * | 2020-04-21 | 2021-10-28 | 株式会社Nttドコモ | Voice data creation device |
JP7326596B2 (en) | 2020-04-21 | 2023-08-15 | 株式会社Nttドコモ | Voice data creation device |
US11335321B2 (en) | 2020-08-28 | 2022-05-17 | Google Llc | Building a text-to-speech system from a small amount of speech data |
US11783811B2 (en) | 2020-09-24 | 2023-10-10 | International Business Machines Corporation | Accuracy of streaming RNN transducer |
CN112562634B (en) * | 2020-12-02 | 2024-05-10 | 平安科技(深圳)有限公司 | Multi-style audio synthesis method, device, equipment and storage medium |
CN112562634A (en) * | 2020-12-02 | 2021-03-26 | 平安科技(深圳)有限公司 | Multi-style audio synthesis method, device, equipment and storage medium |
WO2022179337A1 (en) * | 2021-02-26 | 2022-09-01 | International Business Machines Corporation | Chunking and overlap decoding strategy for streaming rnn transducers for speech recognition |
GB2619441A (en) * | 2021-02-26 | 2023-12-06 | Ibm | Chunking and overlap decoding strategy for streaming RNN transducers for speech recognition |
US11942078B2 (en) | 2021-02-26 | 2024-03-26 | International Business Machines Corporation | Chunking and overlap decoding strategy for streaming RNN transducers for speech recognition |
WO2023248398A1 (en) * | 2022-06-22 | 2023-12-28 | 日本電信電話株式会社 | Training device, training method, training program, and speech synthesis device |
WO2024009890A1 (en) * | 2022-07-04 | 2024-01-11 | 日本電気株式会社 | Training data generation device, voice recognition model generation device, training data generation method, voice recognition model generation method, and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP6989951B2 (en) | 2022-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6989951B2 (en) | Speech chain device, computer program and DNN speech recognition / synthesis mutual learning method | |
Chou et al. | One-shot voice conversion by separating speaker and content representations with instance normalization | |
US10559299B1 (en) | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping | |
CN112017644A (en) | Sound transformation system, method and application | |
US20240144945A1 (en) | Signal processing apparatus and method, training apparatus and method, and program | |
JP2017134396A (en) | Speaker adaptive speech recognition | |
CN112530403B (en) | Voice conversion method and system based on semi-parallel corpus | |
Cotescu et al. | Voice conversion for whispered speech synthesis | |
CN112489629A (en) | Voice transcription model, method, medium, and electronic device | |
Hu et al. | Whispered and Lombard neural speech synthesis | |
Huang et al. | Towards identity preserving normal to dysarthric voice conversion | |
CN113470622B (en) | Conversion method and device capable of converting any voice into multiple voices | |
Quamer et al. | Zero-shot foreign accent conversion without a native reference | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
CN112002302B (en) | Speech synthesis method and device | |
CN113077783A (en) | Method and device for amplifying Chinese speech corpus, electronic equipment and storage medium | |
Zhao et al. | Research on voice cloning with a few samples | |
Mandeel et al. | Speaker Adaptation Experiments with Limited Data for End-to-End Text-To-Speech Synthesis using Tacotron2 | |
Mohammadi et al. | Semi-supervised training of a voice conversion mapping function using a joint-autoencoder. | |
JP2020190605A (en) | Speech processing apparatus and speech processing program | |
CN112863476A (en) | Method and device for constructing personalized speech synthesis model, method and device for speech synthesis and testing | |
Lakshminarayana et al. | Multi-speaker text-to-speech using ForwardTacotron with improved duration prediction | |
Ngoc et al. | Adapt-Tts: High-Quality Zero-Shot Multi-Speaker Text-to-Speech Adaptive-Based for Vietnamese | |
Song et al. | Speaker-adaptive neural vocoders for parametric speech synthesis systems | |
Alastalo | Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20180129 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211102 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6989951 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |