JP2020060642A - 音声合成システム、及び音声合成装置 - Google Patents
音声合成システム、及び音声合成装置 Download PDFInfo
- Publication number
- JP2020060642A JP2020060642A JP2018190718A JP2018190718A JP2020060642A JP 2020060642 A JP2020060642 A JP 2020060642A JP 2018190718 A JP2018190718 A JP 2018190718A JP 2018190718 A JP2018190718 A JP 2018190718A JP 2020060642 A JP2020060642 A JP 2020060642A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- morpheme
- voice
- intermediate language
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
テキスト音声合成技術は、テキストを記号化された言語表現(symbolic linguistic representation)である中間言語に変換するフロントエンド(Front-End)処理と、中間言語
から音声波形を生成するバックエンド(Back-End)処理とを含む。ここでいう中間言語は、音素や音節を表す発音記号と、アクセントやポーズなどを表す韻律記号とを含む。
が含まれていないため、バックエンド処理における音声合成(中間言語からの音声合成)にリッチな言語情報を利用することができず、DNN音声合成の長所を発揮することができない。とくに上記のETE型の音声合成方式では、漢字混じり文の入力しか対応することができず、中間言語からの音声合成が不可能である。
図1に、後述する第1実施形態の音声合成システム10のベースとなる、ETE(End-To-End)型の音声合成システム(以下、音声合成システム1と称する。)の概略的な構成を示している。
を例として説明するが、統計的手法は必ずしも限定されず、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等の他の統計的手法を用いてもよい。また本実施形態
では、テキストとして記述される言語が日本語である場合を例として説明するが、テキストとして記述される言語は他の言語であってもよいし、テキストに複数の言語が混在していてもよい。
されているプログラムを読み出して実行することにより、音声合成システム1の様々な機能が実現される。
ad Only Memory)、RAM(Random Access Memory)、不揮発性半導体メモリ(NVRAM(Non Volatile RAM))等である。
ストレージシステム、ICカード、SDメモリカード、FD(フレキシブルディスク)等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置153に格納されているプログラムやデータは主記憶装置152に随時読み込まれる。
タベースに管理される。
記において、半角カタカナで表した部分は発音記号列であり、「’」、「/」、「|」、「.」はいずれも韻律記号であり、「’」はアクセント核位置を表し、「/」はアクセント句境界を表し、「|」はフレーズ境界を表し、「.」は文境界を表す。
という入力テキスト700に変換する。テキスト変換部210は、形態素解析辞書を用いて入力された中間言語650から形態素の候補(以下、形態素候補とも称する。)を検出(抽出)し、中間言語650に含まれている韻律記号に基づき、抽出した形態素候補から形態素を選択して入力テキスト700を生成する。
ズ挿入ルール253は、入力文書に対して、最適なポーズ位置を決定するルールに関する情報を含む。アクセント句境界情報254は、アクセント句境界の推定に用いる情報(韻律境界情報)を含む。
素解析辞書251から、当該中間言語650の発音記号列に対応する形態素を検出した例を示す。
スネ.」となり、「この橋はきれいですね」のアクセントは「コノハシ'ワ/キ'レーテ゛スネ.」となるので、アクセントによる形態素選択部2121は、アクセント辞書252に
基づき、後者の形態素「この橋はきれいですね」を選択する。
候補2111が「追い越し、車線を跨いだ」と「追い越し車線を跨いだ」である場合、前者は動詞未然形の「追い越し」と名詞の「車線」で構成され、後者は複合名詞の「追い越し車線」であるので、ポーズ位置による形態素選択部2122は、ポーズ挿入ルール253に「動詞未然形の後ろにポーズが入りやすい」という情報に基づき、前者の「追い越し、車線を跨いだ」を選択する。
、アクセント句境界情報254によれば「オイコ'シ」と「シャセン」の間にアクセント
句境界が存在することから、動詞未然形の「追い越し」と名詞の「車線」で構成されている可能性が高く、複合名詞の「追い越し車線」でないことがわかるので、アクセント句境界による形態素選択部2123は前者を選択する。
ーズ挿入ルール253、アクセント句境界情報254を用いて実現することができる。尚、以上では、韻律記号に基づき形態素候補2111から形態素を選択する方法として、アクセントに基づく方法、ポーズ位置に基づく方法、及びアクセント句境界に基づく方法を示したが、以上に示した方法以外の韻律記号に基づく方法により形態素を選択するようにしてもよい。
辞書251から取得される形態素コストや形態素接続コストを用い接続コスト最小法、n文節最長一致法、うしろ向きn文節評価最大法等)を用いて文全体として最適な形態素の系列を決定し、決定した内容と韻律記号による形態素選択部212の結果とに基づき入力テキスト700を生成する。
図7に第2実施形態の音声合成システム20のベースとなる音声合成システム(以下、音声合成システム2と称する。)の概略的な構成を示す。音声合成システム2のハードウェア構成や音声合成システム2が備える各機能の実現方法については第1実施形態と同様である。音声コーパス50の構成も第1実施形態と同様であり、発話テキスト51と、発話テキスト51に対応づけられた音声データ52(音声波形)とを含む。
等の統計的手法で学習(機械学習等)することにより事前に統計モデル60を生成しておき、音声合成の対象となる中間言語650に対応する音響特徴量を有する系列を統計モデル60に基づき生成して音声を合成する。
を例として説明するが、統計的手法は必ずしも限定されず、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等の他の統計的手法を用いてもよい。これは後述の第
3実施形態についても同様である。また本実施形態では、テキストとして記述される言語が日本語である場合を例として説明するが、テキストとして記述される言語は他の言語で
あってもよいし、テキストに複数種の言語が混在していてもよい(後述の第3実施形態も同様)。
は、形態素候補検出部216、韻律記号による形態素選択部217、テキスト生成部218、及び言語情報生成部219の各機能を有する。
例えば、外国語のネイティブな発音や、咳やくしゃみの音等、異なる言語や非言語の音声を合成したい場合に規定の中間言語の仕様(JEITA(Japan Electronic Industry Development Association:日本電子工業振興協会)の日本語の中間言語の仕様(日本語
テキスト音声合成用記号)等)では表現することができないことがある。そのような場合、例えば「エーコ゜ネ'イティフ゛ワ|ハ'ローテ゛ワ/ナ'ク|<wavfile=hello.wav>ト/ハツオンスル.」のように、中間言語を実際の音声波形(例えば、ネイティブスピーカが発声
した「Hello」の音声波形)を記録した音声ファイル(音声データ)の所在を示す表記(
上記の例では「<wavfile=hello.wav>」の部分)が可能な仕様とし、音声合成に際して上
記の音声ファイルを再生するようにすることが考えられる。そしてこの場合、上記の音声ファイルを再生する際の合成音声は、聞き手に違和感を生じさせないように、上記の中間言語(以下、音声付き中間言語と称する。)の他の部分(上記の例では音声ファイルの表記「<wavfile=hello.wav>」以外の部分)の合成音声と同質(同じ話者の音声)とするこ
とが好ましい。
ム10や第2実施形態の音声合成システム20と同様であり、発話テキスト51と、発話テキスト51に対応づけられた音声データ52(音声波形)とを含む。
ィフ゛ワ|ハ'ローテ゛ワ/ナ'ク|<wavfile=hello.wav>ト/ハツオンスル.」が音声合成部200に入力される場合である。この例では、上記音声付き中間言語660のうち、「エーコ゜ネ'イティフ゛ワ|ハ'ローテ゛ワ/ナ'ク|」と「ト/ハツオンスル.」については言語情報復元部215に入力される。また音声ファイルの所在を示す<wavfile=hello.wav>で特
定される音声ファイルに基づく音声波形が、音素らしさ特徴抽出部241に入力される。
Cカード、SDカード、DVD等の記録媒体に置くことができる。
Claims (15)
- 発話テキストと音声データとが対応づけられた音声コーパスに基づく学習データを学習することにより音声合成に用いる統計モデルを生成するモデル学習部、
音声合成の対象となる中間言語に基づき形態素の候補を生成する形態素候補検出部、
前記形態素の候補から前記中間言語の韻律記号に基づき形態素を選択する、韻律記号による形態素選択部、
選択した前記形態素に基づきテキストを生成するテキスト生成部、及び、
前記テキスト又は前記テキストに基づき生成される中間言語を入力として前記統計モデルに基づき音声合成を行う音声合成処理部、
を備えた音声合成システム。 - 請求項1に記載の音声合成システムであって、
前記韻律記号による形態素選択部は、
前記中間言語に含まれている韻律記号とアクセント辞書とによって特定されるアクセントに基づき前記形態素の候補から形態素を選択する、アクセントによる形態素選択部、
前記中間言語に含まれている韻律記号とポーズ挿入ルールとによって特定されるポーズ位置に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、
前記中間言語に含まれている韻律記号とアクセント句境界情報とによって特定されるアクセント句境界に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、
のうちの少なくともいずれかを含む、
音声合成システム。 - 請求項1に記載の音声合成システムであって、
前記統計モデルは、発話テキストと音声データとを対応づけた学習データを学習することにより生成されるモデルであり、
前記音声合成処理部は、前記テキストを入力として前記統計モデルに基づき音声合成を行う、
音声合成システム。 - 請求項1に記載の音声合成システムであって、
前記統計モデルは、前記音声コーパスの前記発話テキストに基づき生成される第1の言語情報を含む中間言語と前記音声コーパスの前記音声データを音響分析することにより生成される音響特徴量とを対応づけた学習データを学習することにより生成されるモデルであり、
前記テキストに基づき生成される第2の言語情報を含む中間言語を生成する言語情報生成部をさらに有し、
前記音声合成処理部は、生成した前記第2の言語情報を含む中間言語を入力として前記統計モデルに基づき音声合成を行う、
音声合成システム。 - 請求項4に記載の音声合成システムであって、
前記韻律記号による形態素選択部は、前記中間言語に含まれている韻律記号と韻律に関する情報とに基づき前記形態素の候補から形態素を選択し、
前記第1の言語情報の生成は、前記韻律に関する情報と共通の情報に基づき行われる、
音声合成システム。 - 請求項5に記載の音声合成システムであって、
前記韻律に関する情報は、アクセント辞書、ポーズ挿入ルール、及びアクセント句境界
情報のうちの少なくともいずれかである、
音声合成システム。 - 請求項1に記載の音声合成システムであって、
前記形態素候補検出部は、音声合成の対象となる前記中間言語の発音記号列に対応する形態素を形態素解析辞書から検出することにより形態素の候補を生成する、
音声合成システム。 - 請求項1に記載の音声合成システムであって、
前記テキスト生成部は、接続コスト最小法、n文節最長一致法、及びうしろ向きn文節評価最大法のうちのいずれかにより前記テキストを生成する、
音声合成システム。 - 請求項1に記載の音声合成システムであって、
前記統計モデルは、前記音声コーパスの前記発話テキストを言語解析することにより取得される言語情報を含んだ中間言語と前記音声コーパスの前記音声データから抽出される音素らしさ特徴とを対応づけた学習データを学習することにより生成されるモデルであり、
前記音素らしさ特徴と前記音声コーパスの前記音声データとを対応づけた学習データを学習することにより音声合成に用いるVocoderモデルを生成するVocoder学習部、
発音記号列と音声データの所在を示す表記とを含む中間言語のうち、前記発音記号列について、前記テキストを言語解析することにより言語情報を含む中間言語を生成し、生成した前記中間言語を入力として前記統計モデルに基づき第1の音素らしさ特徴を生成する音素らしさ特徴推定部、
及び、
前記中間言語の音声データから第2の音素らしさ特徴を抽出する音素らしさ特徴抽出部、
をさらに有し、
前記音声合成処理部は、前記第1の音素らしさ特徴と前記第2の音素らしさ特徴との組み合わせに対応する音声を、前記音素らしさ特徴と前記音声データとを対応づけた学習データを学習することにより生成されるVocoderモデルに基づき合成する、
音声合成システム。 - 請求項1に記載の音声合成システムであって、
前記モデル学習部は、DNN(Deep Neural Network)により前記統計モデルを生成する、
音声合成システム。 - 音声合成の対象となる中間言語に基づき形態素の候補を生成する形態素候補検出部と、
前記形態素の候補から前記中間言語の韻律記号に基づき形態素を選択する、韻律記号による形態素選択部と、
選択した前記形態素に基づきテキストを生成するテキスト生成部と、
前記テキスト又は前記テキストに基づき生成される中間言語を入力として、発話テキストと音声データとが対応づけられた音声コーパスに基づくデータを学習することにより生成される統計モデルに基づき音声合成を行う音声合成処理部と、
を備える、音声合成装置。 - 請求項11に記載の音声合成装置であって、
前記韻律記号による形態素選択部は、
前記中間言語に含まれている韻律記号とアクセント辞書とによって特定されるアクセントに基づき前記形態素の候補から形態素を選択する、アクセントによる形態素選択部、
前記中間言語に含まれている韻律記号とポーズ挿入ルールとによって特定されるポーズ位置に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、
前記中間言語に含まれている韻律記号とアクセント句境界情報とによって特定されるアクセント句境界に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、
のうちの少なくともいずれかを含む、
音声合成装置。 - 請求項11に記載の音声合成装置であって、
前記統計モデルは、発話テキストと音声データとを対応づけた学習データを学習することにより生成されるモデルであり、
前記音声合成処理部は、前記テキストを入力として前記統計モデルに基づき音声合成を行う、
音声合成装置。 - 請求項11に記載の音声合成装置であって、
前記統計モデルは、前記音声コーパスの前記発話テキストに基づき生成される第1の言語情報を含む中間言語と前記音声コーパスの前記音声データを音響分析することにより生成される音響特徴量とを対応づけた学習データを学習することにより生成されるモデルであり、
前記テキストに基づき生成される第2の言語情報を含む中間言語を生成する言語情報生成部をさらに有し、
前記音声合成処理部は、生成した前記第2の言語情報を含む中間言語を入力として前記統計モデルに基づき音声合成を行う、
音声合成装置。 - 請求項11に記載の音声合成装置であって、
前記統計モデルは、前記音声コーパスの前記発話テキストを言語解析することにより取得される言語情報を含んだ中間言語と前記音声コーパスの前記音声データから抽出される音素らしさ特徴とを対応づけた学習データを学習することにより生成されるモデルであり、
発音記号列と音声データの所在を示す表記とを含む中間言語のうち、前記発音記号列について、前記テキストを言語解析することにより言語情報を含む中間言語を生成し、生成した前記中間言語を入力として前記統計モデルに基づき第1の音素らしさ特徴を生成する音素らしさ特徴推定部、
及び、
前記中間言語の音声データから第2の音素らしさ特徴を抽出する音素らしさ特徴抽出部、
をさらに有し、
前記音声合成処理部は、前記第1の音素らしさ特徴と前記第2の音素らしさ特徴との組み合わせに対応する音声を、前記音素らしさ特徴と前記音声データとを対応づけた学習データを学習することにより生成されるVocoderモデルに基づき合成する、
音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190718A JP7110055B2 (ja) | 2018-10-09 | 2018-10-09 | 音声合成システム、及び音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190718A JP7110055B2 (ja) | 2018-10-09 | 2018-10-09 | 音声合成システム、及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060642A true JP2020060642A (ja) | 2020-04-16 |
JP7110055B2 JP7110055B2 (ja) | 2022-08-01 |
Family
ID=70220168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018190718A Active JP7110055B2 (ja) | 2018-10-09 | 2018-10-09 | 音声合成システム、及び音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7110055B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112071300A (zh) * | 2020-11-12 | 2020-12-11 | 深圳追一科技有限公司 | 语音会话方法、装置、计算机设备和存储介质 |
CN113012678A (zh) * | 2021-02-05 | 2021-06-22 | 江苏金陵科技集团有限公司 | 一种免标注的特定说话人语音合成方法及装置 |
JP2021196598A (ja) * | 2020-06-15 | 2021-12-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008056590A1 (fr) * | 2006-11-08 | 2008-05-15 | Nec Corporation | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole |
-
2018
- 2018-10-09 JP JP2018190718A patent/JP7110055B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008056590A1 (fr) * | 2006-11-08 | 2008-05-15 | Nec Corporation | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021196598A (ja) * | 2020-06-15 | 2021-12-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
US11769480B2 (en) | 2020-06-15 | 2023-09-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium |
CN112071300A (zh) * | 2020-11-12 | 2020-12-11 | 深圳追一科技有限公司 | 语音会话方法、装置、计算机设备和存储介质 |
CN112071300B (zh) * | 2020-11-12 | 2021-04-06 | 深圳追一科技有限公司 | 语音会话方法、装置、计算机设备和存储介质 |
CN113012678A (zh) * | 2021-02-05 | 2021-06-22 | 江苏金陵科技集团有限公司 | 一种免标注的特定说话人语音合成方法及装置 |
CN113012678B (zh) * | 2021-02-05 | 2024-01-19 | 江苏金陵科技集团有限公司 | 一种免标注的特定说话人语音合成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7110055B2 (ja) | 2022-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
US8990089B2 (en) | Text to speech synthesis for texts with foreign language inclusions | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
El-Imam | Phonetization of Arabic: rules and algorithms | |
JP6806662B2 (ja) | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
Ekpenyong et al. | Statistical parametric speech synthesis for Ibibio | |
JP7110055B2 (ja) | 音声合成システム、及び音声合成装置 | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
KR20230158603A (ko) | 신경 텍스트-투-스피치 변환을 위한 음소 및 자소 | |
Dagba et al. | A Text To Speech system for Fon language using Multisyn algorithm | |
KR101097186B1 (ko) | 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법 | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP7406418B2 (ja) | 声質変換システムおよび声質変換方法 | |
Labied et al. | Moroccan dialect “Darija” automatic speech recognition: a survey | |
Janyoi et al. | An Isarn dialect HMM-based text-to-speech system | |
JP2001117752A (ja) | 情報処理装置および情報処理方法、並びに記録媒体 | |
KR100806287B1 (ko) | 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 | |
JP2001117921A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 | |
US11250837B2 (en) | Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models | |
Ekpenyong et al. | Tone modelling in Ibibio speech synthesis | |
Thangthai et al. | A learning method for Thai phonetization of English words | |
Sherpa et al. | Pioneering Dzongkha text-to-speech synthesis | |
JP2023006055A (ja) | プログラム、情報処理装置、方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7110055 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |