JP7228998B2 - speech synthesizer and program - Google Patents
speech synthesizer and program Download PDFInfo
- Publication number
- JP7228998B2 JP7228998B2 JP2018227704A JP2018227704A JP7228998B2 JP 7228998 B2 JP7228998 B2 JP 7228998B2 JP 2018227704 A JP2018227704 A JP 2018227704A JP 2018227704 A JP2018227704 A JP 2018227704A JP 7228998 B2 JP7228998 B2 JP 7228998B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- utterance
- acoustic feature
- generation model
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
特許法第30条第2項適用 日本音響学会 2018年 秋季研究発表会 講演論文集が記録されたCD-ROM 発行日 平成30年8月29日 集会名 日本音響学会 2018年 秋季研究発表会 開催日 平成30年9月12日Application of
本発明は、音声合成装置及びプログラムに関する。 The present invention relates to a speech synthesizer and program.
近年、統計モデルを用いた音声合成技術が進歩したことにより、テキストから音声を合成する技術が知られている。例えば、ディープニューラルネットワーク(Deep Neural Network:DNN)を用いて話者の音声等の特徴を学習し、テキストから音声合成を行う技術が開発されている(例えば、非特許文献1、2、3参照)。また、英語で記述された文字列からメルスペクトログラムを推定し、このメルスペクトログラムから音声波形を生成する技術も開発されている(非特許文献4参照)。
In recent years, due to advances in speech synthesis technology using statistical models, techniques for synthesizing speech from text are known. For example, techniques have been developed for learning features such as a speaker's voice using a Deep Neural Network (DNN) and performing speech synthesis from text (see, for example, Non-Patent
従来の統計的音声合成装置は、音響特徴量を算出して音声合成を行うために、音素ラベルファイルを用いた統計モデルにより音声を生成する。この音素ラベルファイルは、音素や音素の時間長、品詞等のラベルが含まれ、音声の音響特徴量からラベルを付与する。 A conventional statistical speech synthesizer generates speech by a statistical model using a phoneme label file in order to calculate acoustic features and synthesize speech. This phoneme label file contains labels such as phonemes, durations of phonemes, parts of speech, etc., and labels are given from acoustic features of speech.
上記のように統計的音声合成装置では音素ラベルファイルが用いられるが、音声には音響的な解析を行う上で曖昧な音が存在するため、この音声を構成する音素に応じた音響特徴量を正しく認識することが難しい場合があり、上述したラベルを正しく付与されないことがあった。また、音素の境界を正しく判別する事が難しい場合、正しい音素ラベルファイルを生成するには、人手による修正を要し、このため人的なコストや時間的コストの問題も存在していた。さらに、日本語の場合、漢字と平仮名とカタカナとの多様な組み合わせによる仮名漢字混じりの文を網羅するために、大量の学習データを要するとともに、同じ文字列でも読み仮名が複数存在するため、学習が正しく行えないという問題もあった。このため、非特許文献4に開示された技術をそのまま仮名漢字混じりの日本語の文に適用することは難しい。
As mentioned above, a statistical speech synthesizer uses a phoneme label file. It was sometimes difficult to recognize correctly, and sometimes the labels described above were not given correctly. In addition, when it is difficult to correctly determine the boundaries of phonemes, manual correction is required to generate a correct phoneme label file, which poses problems of human cost and time cost. Furthermore, in the case of Japanese, a large amount of learning data is required in order to cover sentences mixed with kana and kanji, which are made up of various combinations of kanji, hiragana, and katakana. There was also the problem that it could not be performed correctly. Therefore, it is difficult to directly apply the technique disclosed in
本発明は、このような事情を考慮してなされたもので、品質の良い音声を低コストで合成できる音声合成装置及びプログラムを提供する。 The present invention has been made in consideration of such circumstances, and provides a speech synthesizer and program capable of synthesizing high-quality speech at low cost.
本発明の一態様は、日本語の発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列と韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号とを用いた文字列により記述した第一のテキストデータを、当該第一のテキストデータから音響特徴量を生成する第一の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する第一推定処理、又は、前記読み方を表す文字又は文字列と前記韻律記号と用いた文字列により記述した第二のテキストデータを、当該第二のテキストデータから音響特徴量を生成する第二の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する第二推定処理、又は、前記読み方を表す文字又は文字列と前記発話スタイル記号とを用いた文字列により記述した第三のテキストデータを、当該第三のテキストデータから音響特徴量を生成する第三の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する第三推定処理のいずれかを行う音響特徴量推定部と、前記音響特徴量推定部が前記第一推定処理、又は、前記第二推定処理、又は、前記第三推定処理のいずれかにより推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、を備え、前記第一の音響特徴量生成モデル、前記第二の音響特徴量生成モデル、及び、前記第三の音響特徴量生成モデルは、ディープニューラルネットワークを用いたエンコーダ及びデコーダを有し、前記エンコーダは、再帰型ニューラルネットワークにより、前記テキストデータが示す前記発話内容に前記文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成し、前記デコーダは、再帰型ニューラルネットワークにより、前記エンコーダが生成した前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、ことを特徴とする音声合成装置である。 According to one aspect of the present invention, a sentence representing the content of a Japanese utterance is formed by a character string using characters or character strings representing how to read the content of the utterance, a prosody symbol representing a prosody, and an utterance style symbol representing a characteristic given to the utterance. inputting the described first text data to a first acoustic feature quantity generation model for generating an acoustic feature quantity from the first text data, and estimating an acoustic feature quantity of speech corresponding to the speech content; Estimation processing , or a second acoustic feature for generating an acoustic feature amount from the second text data described by the character or character string representing the reading and the character string using the prosody symbol from the second text data A second estimation process for estimating the acoustic feature value of the speech corresponding to the utterance content by inputting it into a quantity generation model, or described by a character string or a character string representing the reading and a character string using the utterance style symbol A third estimation process of inputting the third text data to a third acoustic feature value generation model that generates an acoustic feature value from the third text data, and estimating the acoustic feature value of the speech corresponding to the utterance content. and the acoustic feature value estimated by the acoustic feature value estimating unit by either the first estimation process, the second estimation process, or the third estimation process. and a vocoder unit that estimates a speech waveform using a deep neural An encoder and a decoder using a network are provided, and the encoder uses a recurrent neural network to consider character strings before and after the utterance content in the text for the utterance content indicated by the text data. and the decoder uses a recursive neural network to generate an acoustic feature of speech corresponding to the utterance content indicated by the text data based on the feature amount generated by the encoder and the acoustic feature amount generated in the past. A speech synthesizer characterized by generating a quantity.
本発明の一態様は、上述する音声合成装置であって、前記読み方を表す前記文字は、カタカナ、ひらがな、アルファベット又は発音記号であり、前記第一の音響特徴量生成モデル、前記第二の音響特徴量生成モデル、及び、前記第三の音響特徴量生成モデルは、ディープニューラルネットワークを用いたアテンションネットワークをさらに有し、前記アテンションネットワークは、前記エンコーダが出力した前記特徴量に対して重み付けを行うための重みを生成し、生成した前記重みにより前記特徴量に重み付けを行って前記デコーダへ入力し、前記デコーダは、再帰型ニューラルネットワークにより、前記アテンションネットワークから入力された前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、ことを特徴とする。 One aspect of the present invention is the speech synthesis device described above , wherein the characters representing the reading are katakana, hiragana, the alphabet, or phonetic symbols, and the first acoustic feature value generation model, the second and the third acoustic feature generation model further include an attention network using a deep neural network, wherein the attention network weights the features output by the encoder and weighting the feature amount with the generated weight and inputting it to the decoder, and the decoder uses a recurrent neural network to combine the feature amount input from the attention network with the past and generating an acoustic feature amount of speech corresponding to the utterance content indicated by the text data.
本発明の一態様は、上述する音声合成装置であって、前記韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズを指定する記号とのうちのいずれかを含む、ことを特徴とする。 One aspect of the present invention is the above-described speech synthesizer, wherein the prosodic symbols include a symbol that designates an accent position, a symbol that designates a break of a phrase or a phrase, a symbol that designates intonation at the end of a sentence, and a symbol that designates an intonation at the end of a sentence. and a symbol that specifies the size .
本発明の一態様は、上述する音声合成装置であって、発話に与える前記特徴は、感情、発話スタイル、又は、話者である、ことを特徴とする。 One aspect of the present invention is the speech synthesizer described above, wherein the feature given to the speech is an emotion, a speech style, or a speaker.
本発明の一態様は、上述する音声合成装置であって、前記特徴を与える対象の発話は、前記発話スタイル記号が所定位置に付加された1以上の文の発話全体、前記発話スタイル記号に囲まれた1以上の文の発話全体、又は、前記発話スタイル記号により囲まれた1以上の文節の発話である、ことを特徴とする。 One aspect of the present invention is the above-described speech synthesizer, wherein the utterance to be given the feature is the entire utterance of one or more sentences to which the utterance style symbol is added at a predetermined position, surrounded by the utterance style symbol. or the utterance of one or more phrases surrounded by the utterance style symbols.
本発明の一態様は、コンピュータを、上述したいずれかの音声合成装置として機能させるためのプログラムである。 One aspect of the present invention is a program for causing a computer to function as any of the speech synthesizers described above.
本発明によれば、品質の良い音声を低コストにより合成することができる。 According to the present invention, high-quality speech can be synthesized at low cost.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[第1の実施形態]
図1は、本実施形態による音声合成装置1及び従来技術による音声合成装置9の概要を示す図である。従来技術による音声合成装置9では、第一言語処理部91が日本語の仮名漢字混じりの文の仮名(例えば、カタカナ)表記及び韻律記号を推定し、第二言語処理部92がその推定結果に音素ラベルや音素の長さ等のラベルを付与し、音素ラベルファイルを生成する。音響特徴量推定部93は、人手により修正が行われた音素ラベルファイルを用いて例えばDNN(Deep Neural Network;ディープニューラルネットワーク)により周波数波形を音響特徴量として推定し、ボコーダ部94は、推定された周波数波形から音声波形を推定する。
[First embodiment]
FIG. 1 is a diagram showing an overview of a
一方、本実施形態の音声合成装置1は、言語処理部41と、音響特徴量推定部42と、ボコーダ部43とを備える。言語処理部41は、日本語の仮名漢字混じりの文を、仮名と韻律記号を用いた中間言語に変換する。本実施形態では、仮名としてカタカナを用いるが、ひらがなやアルファベットや発音記号を用いてもよい。また、仮名に代えて、音素を表す記号を用いることも可能である。中間言語に用いられる韻律記号は、韻律を表す文字である。音響特徴量推定部42は、中間言語が記述されたテキストデータを入力データに用いて、DNNにより音響特徴量を推定する。音響特徴量には、例えば、メルスペクトログラムが用いられる。ボコーダ部43は、WaveNetなどのDNN等を用いて、音響特徴量から音声波形を推定する。WaveNetは、例えば、参考文献1「A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior and K. Kavukcuoglu,“WaveNet: A Generative Model for Raw Audio,” arXiv:1609.03499, 2016」に記載されている。
On the other hand, the
このように本実施形態の音声合成装置1は、音素や音素の位置等を詳しく規定したフルコンテキストラベルが不要であり、カタカナと韻律記号を表す文字により記述した中間言語のテキストデータから、DNNを用いて直接音響特徴量を生成する。よって、音響特徴量を生成するDNNの学習に用いるデータの作成が容易であり、例えば、既存の音声データを学習データとして活用しやすくなる。これにより、人的コスト及び時間的コストを低減しながら、大量のデータを用いて学習を行い、音声合成の精度を向上させることができる。
As described above, the
図2は、本実施形態による音声合成装置1の構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出したものである。音声合成装置1は、記憶部20と、学習部30と、音声合成部40とを備えて構成される。
FIG. 2 is a functional block diagram showing a configuration example of the speech synthesizing
記憶部20は、音響特徴量生成モデル20-1及び音声波形生成モデル20-2を記憶する。音響特徴量生成モデル20-1は、テキストデータを入力し、音響特徴量を表すデータを出力するDNNである。音声波形生成モデル20-2は、音響特徴量のデータを入力し、音声波形を出力するDNNである。
The
学習部30は、学習データを用いて、記憶部20に記憶されている音響特徴量生成モデル20-1を更新する。学習データは、発話の音声波形を表す学習用音声データと、その発話の内容を仮名漢字混じりで記述した学習用テキストデータとの組である。学習部30は、正解音響特徴量算出部31と、モデル更新部32とを備える。
The
正解音響特徴量算出部31は、学習データに含まれる学習用音声データの音声波形から音響特徴量を算出する。モデル更新部32は、正解音響特徴量算出部31が学習用音声データから算出した音響特徴量と、音声合成部40が学習データに含まれる学習用テキストデータに基づいて推定した音響特徴量との差分に基づいて、記憶部20に記憶されている音響特徴量生成モデル20-1を更新する。
The correct acoustic feature
音声合成部40は、カタカナ及び韻律記号により記述された中間言語のテキストデータを入力して音響特徴量生成モデル20-1を実行し、発話内容の音声の音響特徴量を表すデータを得る。音声合成部40は、言語処理部41と、音響特徴量推定部42と、ボコーダ部43とを備える。
The
言語処理部41は、仮名漢字混じり文のテキストデータを、カタカナ及び韻律記号を用いた中間言語に変換する。この変換は、形態素解析などの既存技術により行うことができる。言語処理部41は、中間言語を表すテキストデータを音響特徴量推定部42に出力する。音響特徴量推定部42は、記憶部20に記憶されている音響特徴量生成モデル20-1に、言語処理部41から入力した中間言語のテキストデータを入力することにより、中間言語により記述された発話内容の音響特徴量を推定する。ボコーダ部43は、音響特徴量推定部42が推定した音響特徴量を入力とし、記憶部20に記憶されている音声波形生成モデル20-2を用いて音声波形を生成する。
The
音響特徴量生成モデル20-1の学習時、言語処理部41及び音響特徴量推定部42は、学習部30として動作する。言語処理部41は、学習データに含まれる学習用テキストデータを中間言語に変換し、音響特徴量推定部42は、この変換された中間言語を表すテキストデータを音響特徴量生成モデル20-1に入力して音響特徴量を推定し、推定結果をモデル更新部32に出力する。
During learning of the acoustic feature value generation model 20-1, the
なお、音声合成装置1は、1台以上のコンピュータ装置により実現することができる。音声合成装置1が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、記憶部20及び学習部30を1台又は複数台のサーバコンピュータにより実現し、音声合成部40をクライアント端末で実現してもよい。また、同一の機能部を複数台のコンピュータ装置により実現してもよい。
Note that the
図3は、本実施形態の中間言語に用いられる韻律記号を示す図である。図3に示す韻律記号は、参考文献2「音声入出力方式標準化専門委員会,JEITA規格 IT-4006 日本語テキスト音声合成用記号,社団法人 電子情報技術産業協会,2010年,p.4-10」に記載の韻律記号を改変した情報である。韻律情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズの指定などの種類がある。アクセント位置の指定には、アクセント上昇位置を表す韻律記号「’」が用いられ、韻律記号の直前のモーラにアクセント核があることを表す。アクセント位置の指定には、さらに、アクセント下降位置を表す韻律記号「_」を用いてもよい。句・フレーズの区切り指定には、アクセント句の区切りを表す韻律記号「/」、及び、フレーズの区切りを表す韻律記号「#」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「=」、及び、疑問の文末を表す韻律記号「?」が用いられる。ポーズの指定には、ポーズを表す韻律記号「$%」が用いられる。なお、句・フレーズの区切り指定については、使用しなくてもよい。 FIG. 3 is a diagram showing prosody symbols used in the intermediate language of this embodiment. The prosody symbols shown in Fig. 3 are taken from Reference 2, "Speech Input/Output Method Standardization Committee, JEITA Standard IT-4006 Symbols for Japanese Text Speech Synthesis, Japan Electronics and Information Technology Industries Association, 2010, p.4-10. ” is information obtained by modifying the prosodic symbols described in The prosody information includes types such as designation of accent position, designation of phrase/phrase break, designation of intonation at the end of sentence, designation of pause , and the like. The prosody mark "'" is used to specify the accent position, and indicates that the mora immediately preceding the prosody mark has an accent kernel. For specifying the accent position, the prosody symbol "_" representing the accent descending position may be used. A prosodic symbol "/" representing an accent phrase delimiter and a prosodic symbol "#" representing a phrase delimiter are used to specify phrase/phrase delimiters. The prosody symbol “=” representing the end of a normal sentence and the prosody symbol “?” representing the end of an interrogative sentence are used to designate the end-of-sentence intonation. A prosody symbol “$%” representing a pause is used to specify the pause. Note that it is not necessary to use phrase/phrase delimiter designations.
これらの韻律記号には、便宜的に上記の記号を割り振っているが、アクセント上昇位置を表す韻律記号、アクセント下降位置を表す韻律記号、句・フレーズの区切りを表す韻律記号、フレーズの区切りを表す韻律記号、文末を表す韻律記号、疑問の文末を表す韻律記号、ポーズを表す韻律記号のそれぞれを、他の記号に置き換えて学習する事で、上記と同等の機能を持たせる事が可能である。 For convenience, the above symbols are assigned to these prosody symbols. It is possible to have the same function as the above by replacing the prosody symbols, prosody symbols that indicate the end of sentences, prosody symbols that indicate the end of interrogative sentences, and prosody symbols that indicate pauses with other symbols. .
図4は、音声合成装置1の学習処理を示すフロー図である。
まず、ステップS110において、音声合成装置1は、学習データを入力する。ステップS120において、正解音響特徴量算出部31は、学習データに含まれる未選択の学習用音声データを一つ選択し、選択した学習用音声データが示す音声波形から音響特徴量を算出する。ステップS130において、言語処理部41は、選択された学習用音声データの発話内容が記述された学習用テキストデータを学習データから取得して形態素解析等を行い、発話内容を表す文章を、読み仮名と韻律記号とを用いた文字列により記載した中間言語に変換する。ユーザは、必要に応じて中間言語を修正してもよい。ステップS140において、音響特徴量推定部42は、記憶部20から読み出した音響特徴量生成モデル20-1に、ステップS130において言語処理部41が生成した中間言語を表すテキストデータである中間言語データを入力して音響特徴量を推定する。
FIG. 4 is a flowchart showing learning processing of the
First, in step S110, the
ステップS150において、モデル更新部32は、ステップS120において正解音響特徴量算出部31が算出した音響特徴量と、ステップS140において音響特徴量推定部42が推定した音響特徴量との差分に基づいて、記憶部20に記憶されている音響特徴量生成モデル20-1を更新する。具体的には、モデル更新部32は、この誤差をMSE(最小二乗法)により算出し、算出した差分が小さくなるように、確率的勾配降下法のADAMを用いて、音響特徴量生成モデル20-1における各ユニット(ノード)への入力の重み等を更新する。MSEは、例えば、参考文献3「GitHub, Inc,[online], " Spectrogram Feature prediction network",[2018年8月24日検索],インターネット<URL:https://github.com/Rayhane-mamah/Tacotron-2/wiki/Spectrogram-Feature-prediction-network#training>」に記載されている。また、ADAMは、例えば、参考文献4「Diederik P. Kingma,Jimmy Ba,[online],2017年," ADAM: A Method for Stochastic Optimization ",arXiv:1412.6980v9,[2018年8月24日検索],インターネット<URL: https://arxiv.org/pdf/1412.6980.pdf >」に記載されている。
In step S150, the
ステップS160において、学習部30は、モデル更新が終了したか否かを判断する。例えば、正解音響特徴量算出部31が算出した音響特徴量と、音響特徴量推定部42が推定した音響特徴量との平均二乗誤差が所定以下となった場合にモデル更新が終了したと判断する。学習部30は、モデル更新が終了していないと判断した場合(ステップS160:NO)、ステップS120からの処理を繰り返す。そして、学習部30は、モデル更新が終了したと判断した場合(ステップS160:YES)、学習処理を終了する。
In step S160, the
図5は、音声合成装置1の音声合成処理を示すフロー図である。
まず、ステップS210において、音声合成部40は、発話内容を表す仮名漢字混じりの文章のテキストデータを入力する。発話内容を表す文章は、1文でもよく複数文でもよい。ステップS220において、言語処理部41は、入力されたテキストデータに形態素解析を行い、発話内容を表す文章を、読み仮名と韻律記号とを用いた文字列により記載した中間言語に変換する。ユーザは、必要に応じて中間言語を修正してもよい。
FIG. 5 is a flowchart showing the speech synthesizing process of the
First, in step S210, the
ステップS230において、音響特徴量推定部42は、記憶部20から読み出した音響特徴量生成モデル20-1に、ステップS220において生成された中間言語を表すテキストデータである中間言語データを入力して音響特徴量を推定する。ステップS240において、ボコーダ部43は、記憶部20から読み出した音声波形生成モデル20-2に、ステップS230において生成された音響特徴量を入力し、音声波形を推定する。ボコーダ部43は、推定した音声波形を音声データにより、あるいは、スピーカーなどの音声出力部(図示せず)により出力する。
In step S230, the acoustic feature
図6は、音声合成装置1が用いる音響特徴量生成モデル及び学習アルゴリズムを示す図である。まず、音響特徴量生成モデル60について説明する。図6に示す音響特徴量生成モデル60は、音響特徴量生成モデル20-1の一例であり、非特許文献4に示す技術を適用したDNNである。音響特徴量生成モデル60は、エンコーダ61及びデコーダ65を有する。図7は、エンコーダ61の例を示す図であり、図8は、デコーダ65の例を示す図である。なお、デコーダ65が有するアテンションネットワーク651ついては、図7に記載されている。図6~図8を用いて、エンコーダ61及びデコーダ65について説明する。
FIG. 6 is a diagram showing an acoustic feature value generation model and a learning algorithm used by the
エンコーダ61は、CNN(Convolutional Neural Network;畳み込みニューラルネットワーク)及びRNN(Recurrent Neural Network;再帰型ニューラルネットワーク)により、入力された中間言語のテキストデータが示す文章内の発話内容に、そのテキストデータが示す文章内における当該発話内容の前後の文脈を考慮した文字列の特徴量を生成することができる。デコーダ65は、RNNにより、エンコーダ61が生成した特徴量と、過去に生成した音響特徴量とに基づいて、入力されたテキストデータが示す発話内容に対応する音声の予測の音響特徴量を1フレームずつ生成する。
The
エンコーダ61は、文字列変換処理611と、畳み込みネットワーク612と、双方向LSTMネットワーク613とにより構成される。文字列変換処理611では、中間言語の記述に用いられている各文字を数値に変換し、中間言語をベクトル表現に変換する。
The
畳み込みネットワーク612は、複数層(例えば、3層)の畳み込みレイヤが接続されたニューラルネットワークである。各畳み込みレイヤでは、中間言語のベクトル表現に対して、所定の文字数に相当する大きさの複数のフィルタにより畳み込み処理を行い、さらに、バッチ正規化及びReLU(Rectified Linear Units)活性化を行う。これにより、発話内容の文脈がモデル化される。例えば、3層の畳み込みレイヤのフィルタサイズは[5,0,0]、フィルタの数は512である。デコーダ65に入力する文字列の特徴量を生成するために、畳み込みネットワーク612の出力が双方向LSTMネットワーク613に入力される。双方向LSTMネットワーク613は、512ユニット(各方向に256ユニット)の単一の双方向LSTMである。双方向LSTMネットワーク613により、入力されたテキストデータに記述された文章内における前後の文脈を考慮した文字列の特徴量を生成することが可能となる。LSTMは、RNN(Recurrent Neural Network)の一つである。
The
デコーダ65は、自己回帰RNNである。デコーダ65は、アテンションネットワーク651と、前処理ネットワーク652と、LSTMネットワーク653と、第一線形変換処理654と、後処理ネットワーク655と、加算処理656と、第二線形変換処理657とにより構成される。
アテンションネットワーク651は、自己回帰RNNにアテンション機能を追加したネットワークであり、エンコーダ61からの出力全体を1フレームごとに要約した固定長のコンテキストベクトルを出力する。アテンションネットワーク651は、双方向LSTMネットワーク613からの出力(エンコーダ出力)を入力する。フレームごとに、要約を生成するためにエンコーダ出力からデータを抽出するときの重みは、エンコーダ出力におけるデータ位置に応じて異なっている。アテンションネットワーク651は、エンコーダ出力から抽出したデータに、前のデコードのタイミングで生成したコンテキストベクトルを用いて特徴を追加したデータを用いて、今回のフレームの出力となるコンテキストベクトル(アテンションネットワーク出力)を生成する。
The
前処理ネットワーク652は、前回の時間ステップにおいて第一線形変換処理654が出力したデータを入力する。前処理ネットワーク652は、それぞれ256個の隠れReLUユニットからなる完全結合された複数(例えば2つ)のレイヤを含んだニューラルネットワークである。ReLUユニットからなるレイヤは、各ユニットの値がゼロよりも小さい場合はゼロを出力し、ゼロよりも大きい場合はそのままの値を出力する。LSTMネットワーク653は、1024ユニットを有する複数(例えば、2層)の一方向LSTMが結合されたニューラルネットワークであり、前処理ネットワーク652からの出力と、アテンションネットワーク651からの出力を結合したデータを入力する。フレームの音響特徴量は、前のフレームの音響特徴量の影響を受けるため、アテンションネットワーク651から出力された現在のフレームの特徴量に、前処理ネットワーク652からの出力を結合することにより、前のフレームの音響特徴量に基づく特徴を付加している。(詳細は非特許文献4を参照されたい。)
The
第一線形変換処理654は、LSTMネットワーク653から出力されたデータを線形変換し、1フレーム分のメルスペクトログラムのデータであるコンテキストベクトルを生成する。第一線形変換処理654は、生成したコンテキストベクトルを、前処理ネットワーク652、後処理ネットワーク655及び加算処理656に出力する。
A first
後処理ネットワーク655は、複数層(例えば、5層)の畳み込みネットワークを結合したニューラルネットワークである。例えば、5層の畳み込みネットワークは、フィルタサイズが[5,0,0]、フィルタの数は1024である。各畳み込みネットワークでは、畳み込み処理及びバッチ正規化と、最後の層を除いてtanh活性化とを行う。後処理ネットワーク655からの出力は、波長変換後の全体的な品質を改善するために用いられる。加算処理656では、第一線形変換処理654が生成したコンテキストベクトルと、後処理ネットワーク655からの出力とを加算する。
The
上記のスペクトログラムフレーム予測と並行して、第二線形変換処理657では、LSTMネットワーク653の出力とアテンションコンテキストとの連結をスカラに投影したのちシグモイド活性化を行って、出力シーケンスが完了したかの判定に用いるストップトークン(Stop Token)を出力する。
In parallel with spectrogram frame prediction above, a second
続いて、学習アルゴリズムについて説明する。図4に示す学習処理のステップS120において、正解音響特徴量算出部31は、学習用音声データA1が示す音声波形にFFT(Fast Fourier Transform:高速フーリエ変換)を行った結果にABS(絶対値算出処理)を行い、さらに、メルフィルタバンク処理を行ってMFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)を取得する。正解音響特徴量算出部31は、MFCCからメルスペクトログラムA2を音響特徴量として算出する。
Next, the learning algorithm will be explained. In step S120 of the learning process shown in FIG. 4, the correct acoustic feature
一方で、ステップS140において、音響特徴量推定部42は、学習用テキストデータから生成された中間言語データである学習用中間言語データB1を音響特徴量生成モデル60に入力し、メルスペクトログラムB2を推定結果として得る。ステップS150において、モデル更新部32は、正解音響特徴量算出部31が算出したメルスペクトログラムA2と、音響特徴量生成モデル60により推定したメルスペクトログラムB2との差分を誤差として算出する。モデル更新部32は、算出した誤差に基づいて、音響特徴量生成モデル60を更新する。
On the other hand, in step S140, the acoustic feature
学習部30は、複数の学習データを用いて、学習用音声データから算出したメルスペクトログラムと、学習用中間言語データから音響特徴量生成モデル60により推定したメルスペクトログラムとの差分が小さくなるように、音響特徴量生成モデル60を更新する。
The
図9は、音響特徴量生成モデル60を用いた音声合成アルゴリズムを示す図である。図5のステップS230において、音響特徴量推定部42は、仮名漢字混じりのテキストデータを基に生成された中間言語データC1を学習済みの音響特徴量生成モデル60に入力し、フレーム毎の音響特徴量であるメルスペクトログラムC2を生成し、ボコーダ部43に出力する。ステップS240において、ボコーダ部43は、記憶部20に記憶されている音声波形生成モデル20-2にフレーム毎のメルスペクトログラムC2を入力し、時間領域波形に逆変換して音声波形C3を生成する。音声波形生成モデル20-2には、例えば、多層の畳み込みネットワークを利用したWaveNetを用いる。なお、この処理には、上記以外の種類のボコーダ部を用いて実現してもよい。
FIG. 9 is a diagram showing a speech synthesis algorithm using the acoustic feature
続いて、本実施形態の音声合成装置1によるメルスペクトログラムの推定精度に関する評価実験の結果について示す。評価実験には、女性ナレーター1名が発声した12,518文(18時間)の音声コーパスを使用した。音声データはサンプリング周波数22050[Hz]、16[ビット]量子化のPCM(pulse code modulation)である。音声コーパスのうち12,452文を音響特徴量生成モデルの学習に用い、残りのデータのうち無作為に抽出した10文を評価実験に用いた。学習回数は535,000回である。
Next, the results of evaluation experiments on the accuracy of mel-spectrogram estimation by the
被験者への音声刺激には、4種類×10文を用いた。この4種類は、仮名及び韻律記号により記述された中間言語データを入力に用いて音声合成装置1が生成した合成音声(本実施形態)、従来技術により原音声を分析合成した音声(分析合成)、仮名のみを入力データとして音声合成装置1が生成した合成音声(仮名のみ)、及び、原音声である。
Four types of 10 sentences were used for the voice stimuli to the subjects. These four types are synthesized speech generated by the
被験者は音声研究専門家6人である。各被験者は、ヘッドホンにより各自が聞き取りやすい音量で音声刺激を聴取し、評定を行った。被験者はランダムに提示された音声刺激に対して総合的な音質に関する5段階評価を行った。被験者全員の評価結果から平均オピニオン評点(MOS)を求めた。 The subjects were six speech research professionals. Each subject listened to the speech stimuli at a volume that was easy for each subject to hear through headphones and rated them. Subjects rated the overall sound quality on a 5-point scale for randomly presented speech stimuli. A mean opinion score (MOS) was obtained from the evaluation results of all subjects.
図10は、評価実験の結果を示す図である。図10では、MOS値と95%信頼区間とを示している。本実施形態の音声合成装置1により合成された音声は、原音声より劣るものの、分析合成と同程度の品質であり、仮名のみを入力データに用いるよりも高く評価された。これは、韻律記号が有効に機能したものと考えられる。
FIG. 10 is a diagram showing the results of evaluation experiments. FIG. 10 shows MOS values and 95% confidence intervals. The speech synthesized by the
本実施形態の音声合成装置1によれば、仮名と韻律記号とを用いて記述された中間言語のテキストデータから直接音響特徴量を生成し、また、その生成に用いられるモデルを学習できる。本実施形態では、日本語の音声表現の多様性と正確性を担保しつつ、入力に用いる文字列の種類を限定する事で、End-to-End音声合成に適した入力表現を得られる。日本語の漢字は、読み方が複数あることから、その文字列が必ずしも音声と一致しないが、本実施形態の音声合成装置1は、中間言語に仮名を用いることにより、日本語の正確性を担保しつつ自然な音声を合成でき、アクセントの位置やポーズ位置についても制御する事ができる。
According to the
上述した実施形態では、発話内容を表す文章を当該発話内容の仮名と韻律を表す韻律記号とを用いた文字列により記述した中間言語データを言語処理部41において生成しているが、このような中間言語データを人手で生成してもよい。この場合、音声合成装置1は、言語処理部41を備えなくてもよい。
In the above-described embodiment, the
なお、本実施形態における日本語音声合成に用いる中間言語の表記方法は、非特許文献4に記載されたエンコーダ・デコーダモデルの音声合成手法に限定せず、他のエンコーダ・デコーダモデルにも適用可能である。例えば、参考文献5「Wei Ping et al.,[online],2018年2月,"Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning", arXiv:1710.07654,インターネット<URL: https://arxiv.org/pdf/1710.07654.pdf>」に記載のエンコーダ・デコーダモデルに適用可能である。
Note that the notation method of the intermediate language used for Japanese speech synthesis in this embodiment is not limited to the speech synthesis method of the encoder/decoder model described in
本実施形態の音声合成装置1では、音素や音素の位置等を詳しく規定したフルコンテキストラベルが不要であるため、学習データの作成が容易である。よって、既存の音声データを学習データとして活用しやすくなる。従来法で高品質な合成音を得るには、学習データに人手で音素区切り境界を付与するなど煩雑な作業を行う必要があったが、本実施形態では音素区切り境界の情報は必要なく、自動で読み仮名と韻律記号に対する境界が決定される。そのため、従来のようなHTS準拠フルコンテキストラベルを使用する場合と比較し、1音素あたりのコストは1/3程度に削減される。さらには、作業時間も大幅に短縮できるため、大量の学習データを作成して音響特徴量生成モデルの精度を向上させることができる。
Since the
また、既存の表記法を活用することにより、既存のフロントエンドとの接続が容易であり、既存のシステムの利用が容易となる。また、音声合成装置1は、音素境界を事前にデータとして持っていなくても、HMM(Hidden Markov Model、隠れマルコフモデル)等による強制アライメントを実施する事なく、中間言語のみからアライメントを実施したかのように音素を学習することができる。
In addition, by utilizing the existing notation, it is easy to connect with the existing front end, and the use of the existing system becomes easy. In addition, even if the
[第2の実施形態]
番組制作の意図に沿った放送品質の音声合成を実現するためには、番組の演出要件に応じて発話スタイルを制御することが重要である。例えば、ニュース、スポーツ実況、ドキュメンタリーなど、番組によってそれぞれ異なる発話スタイルが求められる。本実施形態では、発話全体に与える特徴を文字列で表されるタグなどの発話スタイル記号により制御可能とする。発話全体に与える特徴は、例えば、発話スタイル(実況調、ニュース調)や、感情(悲しい、うれしいなど)、話者である。以下では、第1の実施形態との差分を中心に説明する。
[Second embodiment]
In order to achieve broadcast-quality speech synthesis that meets the intentions of program production, it is important to control the utterance style according to the performance requirements of the program. For example, different speaking styles are required depending on programs such as news, live sports, and documentaries. In this embodiment, the characteristics given to the entire utterance can be controlled by utterance style symbols such as tags represented by character strings. The features given to the entire utterance are, for example, utterance style (play-by-play, news style), emotion (sad, happy, etc.), and speaker. The following description focuses on differences from the first embodiment.
図11は、本実施形態による音声合成装置1aの構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出したものである。図11において、図2に示す第1の実施形態による音声合成装置1と同一の部分には同一の符号を付し、その説明を省略する。音声合成装置1aは、記憶部20と、学習部30と、音声合成部40aとを備えて構成される。
FIG. 11 is a functional block diagram showing a configuration example of the speech synthesizing device 1a according to this embodiment, in which only functional blocks related to this embodiment are extracted. In FIG. 11, the same parts as those of the
音声合成部40aが、第1の実施形態の音声合成部40と異なる点は、言語処理部41に代えて言語処理部41aを備える点である。言語処理部41aは、言語処理部41と同様に仮名漢字混じり文のテキストデータを、カタカナ及び韻律記号を用いた中間言語に変換する。さらに、言語処理部41aは、カタカナ及び韻律記号を用いた中間言語に対して、発話全体に与える特徴を表す記号を付加する。以下では、発話全体に与える特徴を表す記号を「発話スタイル記号」と記載する。発話スタイル記号には、仮名(読み方を表す文字)とは異なり、かつ、韻律記号を表す文字又は文字列とも異なる文字又は文字列を使用する。
The
なお、音声合成装置1aは、1台以上のコンピュータ装置により実現することができる。音声合成装置1aが複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、音声合成部40aをクライアント端末で実現し、記憶部20及び学習部30を1台又は複数台のサーバコンピュータにより実現してもよい。あるいは、言語処理部41aをクライアント端末で実現し、他の機能部をサーバコンピュータで実現してもよい。また、同一の機能部を複数台のコンピュータ装置により実現してもよい。また、音声合成装置1aは、図示しない表示部及び入力部を備えてもよい。
Note that the speech synthesizer 1a can be realized by one or more computer devices. When the speech synthesizing device 1a is realized by a plurality of computer devices, it is possible to arbitrarily decide which functional unit is to be realized by which computer device. For example, the
図12は、音声合成装置1aによる音声合成処理の流れを示す図である。以下、図11を併用して説明を続ける。テキストD1は、発話内容を表す仮名漢字混じりの文章のテキストデータであり、音声合成部40aに入力される。言語処理部41aは、テキストD1を形態素解析するなどしてテキストD2を得る。テキストD2は、第1の実施形態において用いられる中間言語であり、読み仮名と韻律記号とを用いた文字列である。テキストD2に、人手で修正を加えてもよい。続いて言語処理部41aは、テキストD2に発話スタイル記号を付加し、本実施形態における中間言語となるテキストD3を得る。図12では、発話タグ「<tag>」を発話スタイル記号として用いている。
FIG. 12 is a diagram showing the flow of speech synthesizing processing by the speech synthesizing device 1a. The description will be continued below with reference to FIG. The text D1 is text data of sentences mixed with kana and kanji representing the content of the speech, and is input to the
発話スタイル記号「<tag>」における「tag」の部分には、発話全体に与える特徴の種類を表す文字列を使用可能である。発話スタイル記号を表す文字列の文字数を変えてもよい。例えば、発話全体に与える特徴が悲しい感情のときには「<sad>」を使用し、ニュース調のときには「<news>」を使用し、話者Aのときには「<spkerA>」を使用する。また、図12では、発話全体に与える特徴を付与したい文を、発話スタイル記号により囲っているが、文の先頭のみに発話スタイル記号を付与してもよい。発話スタイル記号により囲む文は一文でもよく、複数文でもよい。また、文中の文節に特徴を与える場合は、特徴を与えるその文節を発話スタイル記号により囲む。このように、特徴を与える対象の発話は、発話スタイル記号が所定位置に付加された1以上の文の発話全体、発話スタイル記号に囲まれた1以上の文の発話全体、又は、発話スタイル記号により囲まれた1以上の文節の部分の発話全体とすることができる。 A character string representing the type of feature to be given to the entire utterance can be used for the 'tag' portion of the utterance style symbol '<tag>'. The number of characters in the character string representing the speech style symbol may be changed. For example, "<sad>" is used when the feature given to the whole utterance is a sad emotion, "<news>" is used when it is news-like, and "<spkerA>" is used when speaker A is present. Also, in FIG. 12, the sentence to which the feature given to the entire utterance is to be added is surrounded by the utterance style symbol, but the utterance style symbol may be added only to the beginning of the sentence. The sentences enclosed by the utterance style symbols may be one sentence or plural sentences. Also, when a feature is given to a phrase in a sentence, the phrase giving the feature is surrounded by utterance style symbols. In this way, the utterance to which features are to be assigned is the entire utterance of one or more sentences with utterance style symbols added at predetermined positions, the entire utterance of one or more sentences surrounded by utterance style symbols, or the utterance style symbols. can be the entire utterance of the portion of one or more clauses enclosed by .
ここでは、発話スタイル記号として、XML(extensible markup language)のように人間の可読性を重視した発話タグ「<tag>」を用いているが、「*」、「-」、「#」などの記号やそれらの組み合わせを用いてもよい。これらの記号は、半角でも全角でもよい。 Here, as an utterance style symbol, an utterance tag "<tag>" that emphasizes human readability like XML (extensible markup language) is used. or combinations thereof may be used. These symbols may be half-width or full-width.
言語処理部41aは、例えば、スポーツ実況の文章など、所定の目的で使用される文章を自動生成する文章生成システムからテキストD1を入力してもよい。この場合、文章生成システムは、自動生成された文書を記述したテキストD1と、その文章の目的に応じた、発話全体に与える特徴を示す情報とを、言語処理部41aに入力する。
The
また、発話に与える特徴をユーザが入力してもよい。この場合、表示部(図示せず)は、テキストD1又はテキストD2と、発話全体に与える特徴に対応したアイコンの一覧(各感情に対応したアイコン、各発話スタイルに対応したアイコン、各話者に対応したアイコンなど)を表示する。ユーザは、ポインティングデバイスにより、付加したい特徴を表すアイコンを選択する。言語処理部41aは、選択されたアイコンに対応した発話スタイル記号を、テキストD2に含まれる文章の前後に付加し、テキストD3を生成する。なお、ユーザは、表示されているテキストD1又はテキストD2の一部の文又は文節を入力部(図示せず)により選択するようにしてもよい。言語処理部41aは、選択された文又は文節に対応した、テキストD2の部分の前後に発話スタイル記号を付加する。言語処理部41aは、生成したテキストD3を音響特徴量推定部42に出力する。
Also, the user may input features to be given to the utterance. In this case, the display unit (not shown) displays the text D1 or text D2 and a list of icons corresponding to features given to the entire utterance (icon corresponding to each emotion, icon corresponding to each utterance style, icon corresponding to each speaker). corresponding icon, etc.). The user selects an icon representing the feature to be added with the pointing device. The
あるいは、ユーザは、発話スタイル記号を手動で入力してもよい。具体的には、ユーザは、表示部(図示せず)に表示されているテキストD2に対し、マウス等のポインティングデバイスにより発話スタイル記号の入力位置を指定する。さらに、ユーザは、キーボードなどにより、発話全体に与える特徴に応じた発話スタイル記号を入力する。 Alternatively, the user may manually enter the speech style symbols. Specifically, the user designates the input position of the utterance style symbol on the text D2 displayed on the display unit (not shown) using a pointing device such as a mouse. Further, the user inputs utterance style symbols according to the characteristics given to the entire utterance using a keyboard or the like.
音響特徴量推定部42及びボコーダ部43は、第1の実施形態と同様の処理を行う。すなわち、音響特徴量推定部42は、非特許文献4、参考文献5に記載の技術等を用い、RNNのSeq2Seq(エンコーダ・デコーダモデル)とエンコーダの出力に対して重み付けを行うための重み(アテンション)を生成するアテンションネットワークとにより音響特徴量を推定する。エンコーダは、中間言語で記述された文字列であるテキストD3をベクトル化してエンコードを行う。デコーダは、エンコーダの出力に重み付けを行い、自己回帰RNNによりメルスペクトログラムの音響特徴量を生成する。ボコーダ部43は、参考文献1に記載の技術等を用いて、音響特徴量から音声波形を推定する。
The acoustic
韻律記号を用いることにより、韻律(アクセントの高低)、文末の上がり下がり、ポーズなど局所的な音響的特徴が制御可能である。一方、発話スタイル記号を用いることにより、音声合成における、発話全体や一部の口調や調子、感情、話者をコントロール可能である。発話スタイル記号を用いた中間言語により、実況調やニュース調などの番組演出に対応した音声を、少量の学習データによりモデル学習できる。また、音声合成装置1aは、複数の特徴を単一の音響特徴量生成モデル20-1により学習させてもよい。この場合、音声合成装置1aは、学習させた音響特徴量生成モデル20-1を用いて、学習に用いた特徴を有する音声を合成することができる。 By using prosodic symbols, it is possible to control local acoustic features such as prosody (high and low accent), rise and fall at the end of sentences, and pauses. On the other hand, by using utterance style symbols, it is possible to control the tone, tone, emotion, and speaker of the entire utterance or part of the utterance in speech synthesis. By using an intermediate language using speech style symbols, it is possible to model speech corresponding to program production such as live commentary and news style with a small amount of training data. Further, the speech synthesizer 1a may learn a plurality of features using a single acoustic feature value generation model 20-1. In this case, the speech synthesizer 1a can synthesize speech having the features used for learning, using the trained acoustic feature value generation model 20-1.
音声合成装置1aの学習処理は、図4のフロー図が示す第1の実施形態とステップS130の処理を除いて同様である。ステップS130において、音声合成装置1aの言語処理部41aは、第1の実施形態の言語処理部41と同様に学習用テキストデータを読み仮名と韻律記号とを用いた文字列に変換する。言語処理部41aは、変換後の文字列に、学習用音声データの発話に与える特徴を表す発話スタイル記号を付加して中間言語を生成する。
The learning process of the speech synthesizer 1a is the same as that of the first embodiment shown in the flow chart of FIG. 4 except for the process of step S130. In step S130, the
図13は、音声合成装置1aの学習アルゴリズムを示す図である。音声合成装置1aは、第1の実施形態の音響特徴量生成モデル60の構成を変化させることなく、発話スタイル記号を学習用中間言語データに設定するのみでスタイル制御を可能とする。例えば、悲しい音声ばかりの音声コーパスを音響特徴量生成モデル60の学習に用いる。この音声コーパスに含まれる各音声のデータを、学習用音声データA4とする。音声合成装置1aの言語処理部41aは、学習用音声データA4の発話内容を形態素解析し、形態素解析の結果を、悲しい感情を表す発話タグ「<sad>」で囲って学習用中間言語データB4を生成する。音声合成装置1aは、音声コーパスから得られた学習用音声データA4と、この学習用音声データA4の発話内容から生成された学習用中間言語データB4との対を学習データに用いて、音響特徴量生成モデル60の学習を行う。また、音声合成装置1aは、例えば話者Aの音声を、発話タグ「<spkerA>」を用いて学習し、話者Bの音声を、発話タグ「<spkerB>」を用いて学習する。音声合成装置1aの学習アルゴリズムは、学習用音声データA1と学習用中間言語データB1の対に代えて、学習用音声データA4と学習用中間言語データB4の対を用いること以外は、図6に示す第1の実施形態による音声合成装置1の学習アルゴリズムと同様である。
FIG. 13 is a diagram showing a learning algorithm of the speech synthesizer 1a. The speech synthesizer 1a enables style control only by setting utterance style symbols in intermediate language data for learning without changing the configuration of the acoustic feature
音声合成装置1aの音声合成処理は、図5のフロー図が示す第1の実施形態とステップS220の処理を除いて同様である。ステップS220において、言語処理部41aは、発話内容を表す仮名漢字混じりの文章のテキストデータを、第1の実施形態の言語処理部41と同様に読み仮名と韻律記号とを用いた文字列に変換する。言語処理部41aは、変換された文字列に、所望の発話スタイルを表す発話スタイル記号を付加した中間言語を生成する。
The speech synthesizing process of the speech synthesizer 1a is the same as that of the first embodiment shown in the flow chart of FIG. 5 except for the process of step S220. In step S220, the
図14は、音声合成装置1aの音響特徴量生成モデル60を用いた音声合成アルゴリズムを示す図である。図14に示す音声合成アルゴリズムが、図9に示す第1の実施形態の音声合成アルゴリズムと異なる点は、中間言語データC1に代えて、中間言語データC4が入力される点である。中間言語データC4は、発話タグ(発話スタイル記号)、韻律記号及びカタカナを用いて記述される。中間言語データC4が入力される点以外については、図14に示す音声合成アルゴリズムは、図9に示す第1の実施形態の音声合成アルゴリズムと同様である。音響特徴量生成モデル60は、図13に示す学習アルゴリズムにより学習されたモデルである。
FIG. 14 is a diagram showing a speech synthesis algorithm using the acoustic feature
図15は、本実施形態のエンコーダ61の例を示す図である。エンコーダ61へ入力される中間言語データは、学習処理の場合は図13において入力される学習用中間言語データB4に対応し、音声合成処理の場合は図14において入力される中間言語データC4に対応する。文字列変換処理611では、中間言語の記述に用いられている各文字や記号を数値に変換し、中間言語をベクトル表現に変換する。例えば、文字列変換処理611では、発話タグ「<tag>」の部分を、「<」、「t」、「a」、「g」、「>」それぞれを表す値に変換する。文字列変換処理611以降は、図7に示す第1の実施形態のエンコーダ61と同様である。また、本実施形態のデコーダ65は、図8に示す第1の実施形態と同様である。
FIG. 15 is a diagram showing an example of the
上述したように、エンコーダ61の構造には、第1の実施形態からの変更はない。しかしながら、文字列変換処理611によりベクトル表現に変換された中間言語の発話スタイル記号(発話タグ)は、畳み込みネットワーク612において近くに位置する文字列と畳み込まれる。さらに、双方向LSTMネットワーク613において、発話スタイル記号は、発話全体に影響を及ぼす。このため、アテンションネットワーク651において、エンコーダ61からの出力を受ける層は、発話スタイル制御を受け付けることになる。アテンションネットワーク651の構造も、第1の実施形態からの変化はない。そして、デコーダ65が、RNNにより音響特徴量を推定するときには、中間言語データに記述された発話スタイル記号に応じた特色がある音声コーパスと同じ特徴を持った音声、具体的には「<sad>」の音声コーパスのように悲しい感情の音声の特徴を持った音声や、「<spkerA>」の音声コーパスのように話者Aの音声の特徴を持った音声を再現可能となる。
As mentioned above, the structure of the
上記のように、エンコーダ61は、双方向LSTMネットワーク613を用いているため、本実施形態では、発話スタイル記号を、韻律記号及びカタカナで記述された文章の前後に配置している。
As described above, since the
上述した実施形態では、中間言語データを言語処理部41aにおいて生成しているが、中間言語データを人手により生成するか、中間言語データを音声合成装置1aの外部の装置により生成して音声合成装置1aに入力してもよい。この場合、音声合成装置1aは、言語処理部41aを備えなくてもよい。
In the above-described embodiment, the intermediate language data is generated in the
続いて、本実施形態の音声合成装置1aによる評価実験の結果について示す。評価実験には、女性ナレーター1名が発声した12,518文(18時間)の音声コーパスを使用した。この音声コーパスに含まれる音声データの分類は、スポーツ実況(以下、「実況」と記載)が2,596文(3時間40分)、悲哀が633文(50分)、通常読み上げ(以下、「平静」と記載)が9,222文(13時間)である。音声データは、サンプリング周波数22,050[Hz]、16[ビット]量子化のPCMである。音響特徴量生成モデル60には非特許文献4の技術を用い、ボコーダ部43には、参考文献1に記載の技術を用いた。モデル学習処理及び音声合成処理において使用したメルスペクトログラムは、それぞれ80[次元]、窓関数は1,024[point]、フレームシフトは11.6[ms]である。
Next, the results of evaluation experiments performed by the speech synthesizer 1a of this embodiment will be described. A speech corpus of 12,518 sentences (18 hours) uttered by one female narrator was used for the evaluation experiment. The speech data included in this speech corpus is classified into 2,596 sentences (3 hours and 40 minutes) for sports commentary (hereinafter referred to as "commentary"), 633 sentences (50 minutes) for sadness, and normal reading (hereinafter referred to as " 9,222 sentences (13 hours). Audio data is PCM with a sampling frequency of 22,050 [Hz] and quantization of 16 [bits]. The technique of
音響特徴量生成モデル60の学習には、前述の女性ナレーターの音声コーパスに含まれる音声データである学習用音声データA4と、この音声コーパスの仮名漢字混じり文から作成された学習用中間言語データB4とを対にした学習データを用いた。実験で用いた学習用中間言語データB4は、音声コーパスの仮名漢字混じり文を言語解析して求められた仮名及び韻律記号に対して人手で修正を行い、発話スタイル記号を付加して生成したものである。学習回数は310,000回である。また、ボコーダ部43の学習には、12,451文(18時間)の音声データから算出したメルスペクトログラムを直接用いた。学習回数は1,220,000回である。
For learning of the acoustic feature
評価実験では、音声コーパスには含まれていない10文の仮名及び韻律記号に、実況、平静、悲哀の3種類の発話スタイル記号を付加して中間言語データを生成した。これら生成された中間言語データを使用して音響特徴量推定部42が推定したメルスペクトログラムをボコーダ部43に入力することによって、30個の音声を合成した。これら合成された音声(以下、「発話スタイル付き合成音声」とも記載)の音量を平均ラウドネス値に基づいて調整したものを音声刺激として使用した。実験は防音室において、ヘッドホン受聴にて各被験者が聞きやすい音量で行った。被験者は13人である。実験は防音室において、ヘッドホン受聴にて各被験者が聞きやすい音量で行った。被験者はランダムに提示された音声刺激に対して評定を行った。
In the evaluation experiment, intermediate language data was generated by adding 3 types of utterance style symbols, ie commentary, serenity, and sorrow, to 10 sentences of kana and prosodic symbols that are not included in the speech corpus. By inputting the mel-spectrogram estimated by the acoustic feature
図16は、本実施形態により合成した発話スタイル付き合成音声に対する発話スタイルの再現性の評価結果として得られた5段階評価のDMOS値(Degradation Mean Opinion Score)と95%信頼区間を示す図である。DMOSについては、例えば、参考文献6「日本電信電話株式会社,[online],"音声品質評価法 3.音声品質の主観評価法 3.2.DMOS(Degradation Mean Opinion Score)",インターネット<URL: http://www.ntt.co.jp/qos/technology/sound/03_2.html>」に記載されている。この発話スタイルが再現されているかの実験では、リファレンス音声(発話付きスタイル収録音声)と、本実施形態の音声合成装置1aが音声合成した評価対象音声(発話スタイル付き合成音声)とを連続で再生し、それらの発話スタイル(悲しい口調か実況のような口調か)の類似性を5段階評価で評定し、その平均値をまとめた。実況、平静、悲哀の3種類の発話スタイルについて各文を5回評定するために、音声コーパスには含まれていない10文のそれぞれに対して5種類のリファレンス音声を用意した。そして、30個の発話スタイル付き合成音声それぞれに、5種類のリファレンス音声を組み合わせることにより、被験者1人当たり合計150回分の音声刺激を評価に用いた。被験者は音声刺激に対して発話スタイルの類似性に関する5段階評価を行った。図16に示すように、各発話スタイルとも、高い再現性が得られたが、実況が有意に高く評価された。悲哀と平静の間に有意な差はなかった。実況は話速が早く、明瞭な発話の特徴が、平静や悲哀の発話よりもわかりやすい。これを精度よく再現できたことが理由と考えられる。
FIG. 16 is a diagram showing 5-level DMOS values (degradation mean opinion scores) and 95% confidence intervals obtained as evaluation results of the reproducibility of the utterance style for synthesized speech with an utterance style synthesized according to the present embodiment. . For DMOS, for example, Reference 6 "Nippon Telegraph and Telephone Corporation, [online]," Voice
図17は、本実施形態により合成した発話スタイル付き合成音声に対する発話スタイルの自然性評価として得られたMOS値と95%信頼区間を示す図である。被験者は13人である。実況、平静、悲哀の3種類の発話スタイルについて10文ずつ、合計30文の音声刺激を評価に用いた。被験者は、1音声刺激について5回ずつ、一人当たり合計150回の自然性に関する5段階評価を行った。図17に示すように、自然性は平静、実況、悲哀の順に高く評価された。これは、各発話スタイルの音声コーパスのデータ量が評価結果に影響したものと考えられる。 FIG. 17 is a diagram showing the MOS value and the 95% confidence interval obtained as the evaluation of the naturalness of the utterance style for synthetic speech with utterance style synthesized according to this embodiment. There are 13 subjects. A total of 30 sentences of speech stimuli were used for evaluation, with 10 sentences for each of the three utterance styles of commentary, calmness, and sadness. The subjects evaluated the naturalness of each speech stimulus five times, for a total of 150 times per person. As shown in FIG. 17, naturalness was evaluated in the order of calmness, liveliness, and sadness. This is probably because the amount of data in the speech corpus for each utterance style affected the evaluation results.
第1の実施形態では、韻律という局所的な音響特徴量の制御を実現しており、日本語における、読み仮名以外のアクセントによる音響的な特徴を記号により再現する。本実施形態では、音声発話の「全体的」な音響特徴量の制御を実現しており、発話全体にわたる特徴の再現を可能とする。 In the first embodiment, the control of the local acoustic feature quantity called prosody is realized, and the acoustic features of Japanese accents other than reading kana are reproduced by symbols. In this embodiment, the control of the "overall" acoustic feature amount of voice utterance is realized, and it is possible to reproduce the feature over the entire utterance.
本実施形態の音声合成装置1aによれば、学習用テキストデータ、音声合成を行う際に入力するテキストデータ共に、簡易な表記法により、合成される音声の感情、発話スタイル、話者の制御が可能である。 According to the speech synthesizer 1a of the present embodiment, both text data for training and text data to be input when performing speech synthesis are expressed in a simple notation, so that the emotions of the synthesized speech, the utterance style, and the control of the speaker can be expressed. It is possible.
本実施形態は、日本語だけではなく、他の言語にも適用することができる。この場合、日本語の仮名に代えて、その言語の読み方を表す文字又は文字列を用いる。また、本実施形態では、日本語の音声合成を行うために、読み方を表す文字として仮名を用い、さらに、韻律記号を用いているが、英語などの他の言語には、単語の綴り(文字列)自体が読み方と韻律記号を兼ねる場合がある。このような言語の場合は、読み方を表す文字又は文字列と、発話全体に与える特徴を表す文字又は文字列とを用いて発話内容を表す文章を記述した中間言語のテキストデータを音響特徴量推定部42に入力すればよい。
This embodiment can be applied not only to Japanese but also to other languages. In this case, instead of Japanese kana, characters or character strings representing the reading of the language are used. In addition, in the present embodiment, kana characters are used as characters representing readings in order to synthesize Japanese speech, and prosody symbols are used. column) itself may serve as both a reading and a prosody mark. In the case of such a language, the text data of the intermediate language describing the sentences representing the contents of the utterance using the characters or character strings representing the reading and the characters or character strings representing the characteristics given to the entire utterance is used for acoustic feature estimation. It is sufficient to input it to the
また、仮名と発話スタイル記号とを含み、韻律記号を含まないテキストデータを音響特徴量推定部42に入力してもよい。このような中間言語を用いることにより、単語レベルの局所的な特徴については精度が低下するものの、発話に与える特徴については精度よく制御することできる。
Alternatively, text data containing kana and utterance style symbols but not including prosody symbols may be input to the acoustic
従来は、発話に与える特徴別に音響特徴量生成モデルを組み替えたり、発話に与える特徴に応じた切り替えを制御するための入力をエンコーダに与えたりしなければならなかった。本実施形態の音声合成装置1aによれば、発話スタイル記号が記述された中間言語を用いて、一つの音響特徴量生成モデルにより複数の特徴(感情、発話スタイル、話者)の音声を学習し、学習時に用いた発話スタイル記号が表す特徴を有する任意の発話内容の音声を合成することができる。 Conventionally, it has been necessary to rearrange the acoustic feature value generation model for each feature given to the utterance, or to provide an encoder with an input for controlling switching according to the feature given to the utterance. According to the speech synthesizer 1a of the present embodiment, an intermediate language in which utterance style symbols are described is used to learn speech of a plurality of features (emotion, utterance style, speaker) by one acoustic feature amount generation model. , it is possible to synthesize speech of arbitrary utterance contents having features represented by the utterance style symbols used during learning.
なお、上述の音声合成装置1、1aは、内部にコンピュータシステムを有している。そして、音声合成装置1、1aの動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
Note that the
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
The "computer system" also includes the home page providing environment (or display environment) if the WWW system is used.
The term "computer-readable recording medium" refers to portable media such as flexible discs, magneto-optical discs, ROMs and CD-ROMs, and storage devices such as hard discs incorporated in computer systems. Furthermore, "computer-readable recording medium" means a medium that dynamically retains a program for a short period of time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It also includes those that hold programs for a certain period of time, such as volatile memories inside computer systems that serve as servers and clients in that case. Further, the program may be for realizing part of the functions described above, or may be capable of realizing the functions described above in combination with a program already recorded in the computer system.
1、1a…音声合成装置
20…記憶部
20-1…音響特徴量生成モデル
20-2…音声波形生成モデル
30…学習部
31…正解音響特徴量算出部
32…モデル更新部
40、40a…音声合成部
41、41a…言語処理部
42…音響特徴量推定部
43…ボコーダ部
60…音響特徴量生成モデル
Claims (6)
前記音響特徴量推定部が前記第一推定処理、又は、前記第二推定処理、又は、前記第三推定処理のいずれかにより推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、
を備え、
前記第一の音響特徴量生成モデル、前記第二の音響特徴量生成モデル、及び、前記第三の音響特徴量生成モデルは、ディープニューラルネットワークを用いたエンコーダ及びデコーダを有し、
前記エンコーダは、再帰型ニューラルネットワークにより、前記テキストデータが示す前記発話内容に前記文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成し、
前記デコーダは、再帰型ニューラルネットワークにより、前記エンコーダが生成した前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、
ことを特徴とする音声合成装置。 First text data in which a sentence representing the contents of a Japanese utterance is described by a character string using characters or character strings representing how to read the contents of the utterance, prosody symbols representing prosody, and utterance style symbols representing characteristics given to the utterance. is input to a first acoustic feature generation model that generates an acoustic feature from the first text data, and a first estimation process for estimating an acoustic feature of the speech corresponding to the utterance content, or the reading The second text data described by a character or character string representing and the character string used with the prosody symbol is input to a second acoustic feature value generation model that generates an acoustic feature value from the second text data, a second estimation process for estimating acoustic features of speech corresponding to the utterance content , or third text data described by a character string or a character string representing the reading and a character string using the utterance style symbol, Acoustic features that are input to a third acoustic feature value generation model that generates acoustic feature values from the third text data, and perform any of a third estimation process of estimating acoustic feature values of speech corresponding to the utterance content an amount estimator;
a vocoder for estimating a speech waveform using the acoustic features estimated by the acoustic feature quantity estimating unit through any one of the first estimation process, the second estimation process, and the third estimation process;
with
The first acoustic feature value generation model , the second acoustic feature value generation model, and the third acoustic feature value generation model have encoders and decoders using deep neural networks,
The encoder uses a recursive neural network to generate a character string feature amount in consideration of character strings before and after the utterance content in the text in the utterance content indicated by the text data,
The decoder uses a recursive neural network to generate an acoustic feature amount of speech corresponding to the utterance content indicated by the text data based on the feature amount generated by the encoder and the acoustic feature amount generated in the past. ,
A speech synthesizer characterized by:
前記第一の音響特徴量生成モデル、前記第二の音響特徴量生成モデル、及び、前記第三の音響特徴量生成モデルは、ディープニューラルネットワークを用いたアテンションネットワークをさらに有し、
前記アテンションネットワークは、前記エンコーダが出力した前記特徴量に対して重み付けを行うための重みを生成し、生成した前記重みにより前記特徴量に重み付けを行って前記デコーダへ入力し、
前記デコーダは、再帰型ニューラルネットワークにより、前記アテンションネットワークから入力された前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、
ことを特徴とする請求項1に記載の音声合成装置。 The characters representing the reading are katakana, hiragana, alphabet or phonetic symbols,
The first acoustic feature value generation model, the second acoustic feature value generation model, and the third acoustic feature value generation model further have an attention network using a deep neural network,
The attention network generates a weight for weighting the feature quantity output from the encoder, weights the feature quantity with the generated weight, and inputs the feature quantity to the decoder;
The decoder uses a recurrent neural network to generate an acoustic feature quantity of speech corresponding to the utterance content indicated by the text data based on the feature quantity input from the attention network and acoustic feature quantity generated in the past. generate,
2. The speech synthesizer according to claim 1, wherein:
ことを特徴とする請求項1又は請求項2に記載の音声合成装置。 The prosodic symbols include any one of a symbol that designates an accent position, a symbol that designates a phrase or phrase delimiter, a symbol that designates the intonation at the end of a sentence, and a symbol that designates a pause .
3. The speech synthesizer according to claim 1, wherein:
ことを特徴とする請求項1から請求項3のいずれか一項に記載の音声合成装置。 wherein the feature imparted to speech is emotion, speech style, or speaker;
4. The speech synthesizer according to any one of claims 1 to 3, characterized by:
ことを特徴とする請求項1から請求項4のいずれか一項に記載の音声合成装置。 The utterance to which the feature is given is the entire utterance of one or more sentences to which the utterance style symbol is added at a predetermined position, the entire utterance of one or more sentences surrounded by the utterance style symbol, or the utterance style symbol. is an utterance of one or more phrases enclosed by
5. The speech synthesizer according to any one of claims 1 to 4, characterized in that:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018158560 | 2018-08-27 | ||
JP2018158560 | 2018-08-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020034883A JP2020034883A (en) | 2020-03-05 |
JP7228998B2 true JP7228998B2 (en) | 2023-02-27 |
Family
ID=69668025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018227704A Active JP7228998B2 (en) | 2018-08-27 | 2018-12-04 | speech synthesizer and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7228998B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7357518B2 (en) | 2019-11-26 | 2023-10-06 | 日本放送協会 | Speech synthesis device and program |
JP7227177B2 (en) | 2020-03-02 | 2023-02-21 | 日本碍子株式会社 | honeycomb filter |
CN111785248B (en) * | 2020-03-12 | 2023-06-23 | 北京汇钧科技有限公司 | Text information processing method and device |
CN111667816B (en) * | 2020-06-15 | 2024-01-23 | 北京百度网讯科技有限公司 | Model training method, speech synthesis method, device, equipment and storage medium |
JP7012935B1 (en) * | 2021-06-30 | 2022-02-14 | 株式会社CoeFont | Programs, information processing equipment, methods |
CN113823259A (en) * | 2021-07-22 | 2021-12-21 | 腾讯科技(深圳)有限公司 | Method and device for converting text data into phoneme sequence |
WO2023157066A1 (en) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | Speech synthesis learning method, speech synthesis method, speech synthesis learning device, speech synthesis device, and program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109278A (en) | 2017-12-15 | 2019-07-04 | 株式会社日立超エル・エス・アイ・システムズ | Speech synthesis system, statistic model generation device, speech synthesis device, and speech synthesis method |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
-
2018
- 2018-12-04 JP JP2018227704A patent/JP7228998B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109278A (en) | 2017-12-15 | 2019-07-04 | 株式会社日立超エル・エス・アイ・システムズ | Speech synthesis system, statistic model generation device, speech synthesis device, and speech synthesis method |
Non-Patent Citations (4)
Title |
---|
DONG, Minghui et al.,"Representing raw linguistic information in chinese text-to-speech system",Proc. of the 2017 APSIPA ASC,2017年12月12日,pp.167-170 |
SHEN, Jonathan et al.,"NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS",[online],2018年02月16日,[retrieved on 2022.07.26], Retrieved from the Internet:<URL: https://arxiv.org/pdf/1712.05884.pdf> |
大塚貴弘 他,"テキスト音声合成技術",三菱電機技報,2011年11月25日,Vol.85, No.11,pp.27-30 |
宮崎太郎 他,"国籍情報を用いた人名の音訳",FIT2016 第15回情報科学技術フォーラム 講演論文集 第2分冊,2016年08月23日,pp.145-146 |
Also Published As
Publication number | Publication date |
---|---|
JP2020034883A (en) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7228998B2 (en) | speech synthesizer and program | |
JP7082357B2 (en) | Text-to-speech synthesis methods using machine learning, devices and computer-readable storage media | |
JP7178028B2 (en) | Speech translation method and system using multilingual text-to-speech synthesis model | |
JP4125362B2 (en) | Speech synthesizer | |
CN108899009B (en) | Chinese speech synthesis system based on phoneme | |
CN110033755A (en) | Phoneme synthesizing method, device, computer equipment and storage medium | |
JP6523893B2 (en) | Learning apparatus, speech synthesis apparatus, learning method, speech synthesis method, learning program and speech synthesis program | |
JP2022527970A (en) | Speech synthesis methods, devices, and computer-readable storage media | |
CN113892135A (en) | Multi-lingual speech synthesis and cross-lingual voice cloning | |
CN115485766A (en) | Speech synthesis prosody using BERT models | |
JP2018146803A (en) | Voice synthesizer and program | |
KR20210059586A (en) | Method and Apparatus for Emotional Voice Conversion using Multitask Learning with Text-to-Speech | |
WO2022121187A1 (en) | Speech synthesis method and apparatus capable of controlling speech speed, and device and storage medium | |
CN115101046A (en) | Method and device for synthesizing voice of specific speaker | |
Ronanki et al. | A Hierarchical Encoder-Decoder Model for Statistical Parametric Speech Synthesis. | |
CN113470622B (en) | Conversion method and device capable of converting any voice into multiple voices | |
WO2015025788A1 (en) | Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
CN114255738A (en) | Speech synthesis method, apparatus, medium, and electronic device | |
JP2016151736A (en) | Speech processing device and program | |
CN113963679A (en) | Voice style migration method and device, electronic equipment and storage medium | |
Laurinčiukaitė et al. | Lithuanian Speech Corpus Liepa for development of human-computer interfaces working in voice recognition and synthesis mode | |
JP7357518B2 (en) | Speech synthesis device and program | |
CN113314097B (en) | Speech synthesis method, speech synthesis model processing device and electronic equipment | |
JPWO2010104040A1 (en) | Speech synthesis apparatus, speech synthesis method and speech synthesis program based on one model speech recognition synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20181217 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7228998 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |