JP2020060642A

JP2020060642A - 音声合成システム、及び音声合成装置

Info

Publication number: JP2020060642A
Application number: JP2018190718A
Authority: JP
Inventors: 慶華孫; Keika Son
Original assignee: Hitachi Solutions Technology Ltd
Current assignee: Hitachi Solutions Technology Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2020-04-16
Anticipated expiration: 2038-10-09
Also published as: JP7110055B2

Abstract

【課題】入力される中間言語に基づき高い品質の音声を合成する。【解決手段】音声合成システムは、発話テキストと音声データとが対応づけられた音声コーパスに基づく学習データを学習することにより音声合成に用いる統計モデルを生成し、音声合成の対象となる中間言語に基づき形態素の候補を生成し、形態素の候補から中間言語の韻律記号に基づき形態素を選択し、選択した形態素に基づきテキストを生成し、テキスト又はテキストに基づき生成される中間言語を入力として統計モデルに基づき音声合成を行う。韻律記号による形態素選択部は、例えば、中間言語に含まれている韻律記号について、アクセント辞書、ポーズ挿入ルール、アクセント句境界情報等を参照して形態素を選択する。統計モデルは、例えば、発話テキストと音声データとを対応づけた学習データを学習することにより生成される。【選択図】図７

Description

本発明は、音声合成システム、及び音声合成装置に関する。

近年、音声認識、機械翻訳、対話生成等の技術が飛躍的に向上し、音声自動翻訳、音声対話サービス、サービスロボット等の人工知能を利用した音声コミュニケーションシステムの実用化が急激に進展している。

特許文献１には、電子化された入力文書を音声に変換する際の出力技術に関し、入力されたテキストや記号列を音声に変換し、読み上げを行なう音声出力装置において、英数仮名辞書を具備し、入力テキストが英数仮名文字列の場合、該英数仮名辞書を用いて入力文字列を音声に変換して読み上げを行なうことが記載されている。

非特許文献１には、直接音声波形を生成する方法について記載されている。非特許文献２には、テキスト分析フロントエンド、音響モデル、音声合成モジュール等を備えた、ＥＴＥ（End-To-End）型の音声合成方式のテキスト−音声合成システムについて記載されている。非特許文献３には、ＤＮＮ(Deep Neural Network）で選択した音声素片をつなぎ合わせることで音声合成する技術について記載されている。

特開２００１−５４７９号公報 "WaveNet: A Generative Model for Raw Audio". Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray .2016-09-12. " Tacotron: A fully end-toend text-to-speech synthesis model". Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, et al. 2017. "Unit selection with Hierarchical Cascaded Long Short Term Memory Bidirectional Recurrent Neural Nets", Vincent Pollet, Enrico Zovato, Sufian Irhimeh, Pier Batzu, Interspeech. 2017.

音声合成の方式の一つとしてテキスト音声合成技術（TTS: text-to-speech）がある。
テキスト音声合成技術は、テキストを記号化された言語表現（symbolic linguistic representation）である中間言語に変換するフロントエンド（Front-End）処理と、中間言語
から音声波形を生成するバックエンド（Back-End）処理とを含む。ここでいう中間言語は、音素や音節を表す発音記号と、アクセントやポーズなどを表す韻律記号とを含む。

近年、フロントエンド処理とバックエンド処理の夫々にＤＮＮ等の統計的技術を適用したものが実用化されている。上記統計的技術の導入により、中間言語から音声波形を生成するバックエンド処理においてこれまで以上にリッチ（rich）な言語情報（品詞情報、係り受け情報、構文情報等）からの音声合成が可能となり、合成音声の品質が大きく向上した。昨今では、非特許文献２に記載されているように、中間言語を経由することなく、入力されたテキスト（テキストデータ）から直接音声波形を取得して合成音声を生成する、いわゆるＥＴＥ（End-To-End）型の音声合成方式も登場している。

ところで、現在流通している音声合成製品（とくに車載向け製品）においては、サービス品質を確保するために、例えば、ニュースの配信や住所の読み上げ等については中間言語に基づき音声を合成する方式が一般的である。

しかし中間言語から音声を合成する場合、中間言語の仕様により一部の言語情報が欠落してしまうことがある。例えば、ＪＥＩＴＡ（Japan Electronic Industry Development Association：日本電子工業振興協会）が定める中間言語の規格では品詞情報や漢字情報
が含まれていないため、バックエンド処理における音声合成（中間言語からの音声合成）にリッチな言語情報を利用することができず、ＤＮＮ音声合成の長所を発揮することができない。とくに上記のＥＴＥ型の音声合成方式では、漢字混じり文の入力しか対応することができず、中間言語からの音声合成が不可能である。

本発明はこうした背景に鑑みてなされたものであり、その目的は、入力される中間言語に基づき高い品質の音声を合成することが可能な、音声合成システム、及び音声合成装置を提供することにある。

上記課題を解決するための本発明のうちの一つは、音声合成システムであって、発話テキストと音声データとが対応づけられた音声コーパスに基づく学習データを学習することにより音声合成に用いる統計モデルを生成するモデル学習部、音声合成の対象となる中間言語に基づき形態素の候補を生成する形態素候補検出部、前記形態素の候補から前記中間言語の韻律記号に基づき形態素を選択する、韻律記号による形態素選択部、選択した前記形態素に基づきテキストを生成するテキスト生成部、及び、前記テキスト又は前記テキストに基づき生成される中間言語を入力として前記統計モデルに基づき音声合成を行う音声合成処理部、を備える。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、入力される中間言語に基づき高い品質の音声を合成することができる。

ＥＴＥ（End-To-End）型の音声合成システムの概略的な構成を示す図である。音声合成システムの実現に用いるハードウェアの一例として示す情報処理装置のブロック図である。第１実施形態の音声合成システムの概略的な構成を示す図である。テキスト変換部の詳細を説明する図である。形態素候補検出部が形態素解析辞書から中間言語の発音記号列に対応する形態素を検出した例を示す図である。韻律記号による形態素選択部の詳細を示す図である。第２実施形態の音声合成システムのベースとなるシステムの概略的な構成を示す図である。第２実施形態の音声合成システムの概略的な構成を示す図である。言語情報復元部の詳細を示す図である。第３実施形態の音声合成システムの概略的な構成を示す図である。音声合成処理部が合成音声を生成する様子を説明する図である。

以下、本発明に係る実施形態を図面に参照しつつ説明する。尚、以下の説明において、同一の又は類似する構成について共通の符号を付して重複した説明を省略することがある。

［第１実施形態］
図１に、後述する第１実施形態の音声合成システム１０のベースとなる、ＥＴＥ（End-To-End）型の音声合成システム（以下、音声合成システム１と称する。）の概略的な構成を示している。

音声合成システム１は、音声コーパス５０の発話テキスト５１と音声データ５２（音声波形）との関係を統計的手法により学習（機械学習等）することにより事前に統計モデル６０を生成しておき、音声合成の対象となるテキスト（文章や句）のデータ（以下、入力テキスト７００と称する。）に対する音声データ（音声波形）を統計モデル６０から取得して合成音声８００を生成する。

尚、本実施形態では、上記の統計的手法がＤＮＮ（Deep Neural Network）である場合
を例として説明するが、統計的手法は必ずしも限定されず、例えば、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）等の他の統計的手法を用いてもよい。また本実施形態
では、テキストとして記述される言語が日本語である場合を例として説明するが、テキストとして記述される言語は他の言語であってもよいし、テキストに複数の言語が混在していてもよい。

同図に示すように、音声合成システム１は、音声コーパス５０と、音声コーパス５０に基づき統計モデル６０を生成する統計モデル生成部１００と、統計モデル６０から入力テキスト７００に対する音声データ（音声波形）を取得して合成音声８００を生成する音声合成部２００と、を含む。

音声コーパス５０は、発話テキスト５１と、発話テキスト５１に対応づけられた音声データ５２（音声波形）とを含む。音声コーパス５０の内容は、統計モデル生成部１００が統計モデル６０を生成する際の学習データとして用いられる。

図２は音声合成システム１の実現に用いるハードウェアの一例として示す情報処理装置１５０（コンピュータ、計算機リソース）のブロック図である。同図に示すように、情報処理装置１５０は、プロセッサ１５１、主記憶装置１５２、補助記憶装置１５３、入力装置１５４、出力装置１５５、及び通信装置１５６を備える。これらは図示しないバス等の通信手段を介して互いに通信可能に接続されている。

尚、情報処理装置１５０は、その全ての構成が必ずしもハードウェアで実現されている必要はなく、例えば、構成の一部又は全部がクラウドシステム（cloud system）のクラウドサーバ（cloud server）のような仮想的な資源によって実現されていてもよい。

プロセッサ１５１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）等を用いて構成される。プロセッサ１５１が、主記憶装置１５２に格納
されているプログラムを読み出して実行することにより、音声合成システム１の様々な機能が実現される。

主記憶装置１５２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Re
ad Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性半導体メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

補助記憶装置１５３は、例えば、ハードディスクドライブ、ＳＳＤ（Solid State Drive）、光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ(Digital Versatile Disc)等）、
ストレージシステム、ＩＣカード、ＳＤメモリカード、ＦＤ（フレキシブルディスク）等の記録媒体の読取／書込装置、クラウドサーバの記憶領域等である。補助記憶装置１５３に格納されているプログラムやデータは主記憶装置１５２に随時読み込まれる。

入力装置１５４は、音声コーパス５０や入力テキスト７００を入力するためのインタフェース（又はユーザインタフェース）であり、例えば、キーボード、マウス、タッチパネル、カードリーダ、マイクロフォン、アンプ等である。尚、情報処理装置１５０が、通信装置１５６を介して他の装置との間で情報の入力を受け付ける構成としてもよい。

出力装置１５５は、各種の情報を出力するインタフェース（又はユーザインタフェース）であり、例えば、合成音声を出力する音声出力装置（スピーカ、アンプ等）を含む。尚、情報処理装置１５０は、ユーザに処理経過や処理結果等の各種情報を提供するインタフェース（例えば、音声出力装置（スピーカ等）、画面表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）、印字装置等）を出力装置１５５として更に備えていてもよい。また情報処理装置１５０が、通信装置１５６を介して他の装置との間で情報の出力を行う構成としてもよい。

通信装置１５６は、ＬＡＮやインターネット等の通信手段を介した他の装置との間の通信を実現する有線方式又は無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、各種無線通信モジュール、ＵＳＢ（Universal Serial Interface）モジュール、シリアル通信モジュール、モデム等である。

統計モデル生成部１００、音声合成部２００、音声コーパス５０、及び統計モデル６０は、これらの全てが共通のハードウェアで実現されていなくてもよく、通信可能に接続された複数のハードウェアに分散して配置されていてもよい。例えば、音声コーパス５０及び統計モデル生成部１００と、統計モデル６０及び音声合成部２００とを、独立した資源により構成してもよい。統計モデル６０及び音声合成部２００は、例えば、カーナビゲーション装置、スマートフォン、携帯電話機、自動翻訳機、パーソナルコンピュータ等のデバイスに組み込まれる。

統計モデル生成部１００と音声合成部２００を夫々独立したハードウェアにより実現し、統計モデル生成部１００によって生成された統計モデル６０を、有線方式又は無線方式の通信ネットワークや物理的な記録媒体（光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ(Digital Versatile Disc)等）、ハードディスクドライブ、ＳＳＤ、ＩＣカード、ＳＤメモリカード等）を介して音声合成部２００に提供するようにしてもよい。

音声コーパス５０や統計モデル６０をクラウドサーバ等の通信ネットワークを介して接続される資源に配置し、統計モデル生成部１００や音声合成部２００が有線方式又は無線方式の通信ネットワークを通じて音声コーパス５０や統計モデル６０に適宜アクセスする構成としてもよい。

情報処理装置１５０は、例えば、オペレーティングシステム、ファイルシステム、デバイスドライバ、ＤＢＭＳ（DataBase Management System）等の他の機能をさらに備えていてもよい。音声コーパス５０等の音声合成システム１が管理するデータは、例えば、ファイルシステムや、補助記憶装置１５３をデータの格納領域として利用するＤＢＭＳのデー
タベースに管理される。

図１に示すように、統計モデル生成部１００はモデル学習部１２０を有する。モデル学習部１２０は、音声コーパス５０に含まれている全ての発話テキスト５１と音声データ５２（音声波形）との組合せを学習データとし、例えば、テキストの系列の入力に対して対応する音声波形を出力するように学習した統計モデル６０を生成する。

同図に示すように、音声合成部２００は音声合成処理部２２０を有する。音声合成処理部２２０は、統計モデル６０から入力テキスト７００に対応する音声データ（音声波形）を取得して合成音声を生成する。例えば、音声合成部２００は、入力テキスト７００について、指定された発音や発話スタイル（会話調である、感情がこもっているといった、発声上の特徴。例えば、声の抑揚、大きさ、リズム、速さ、間の長さといった要素によって特徴付けられる発声上の特徴）に従って音声を合成する。また音声合成処理部２２０は、例えば、非特許文献１のように直接音声波形を生成する方法、非特許文献２のようにフレームごとに音声パラメータを生成した後に音声を生成する手法、非特許文献３のようなＤＮＮで選択した音声素片をつなぎ合わせることで音声を合成する手法等により合成音声８００を生成する。

図３は、以上の構成からなる音声合成システム１をベースとして構成した、第１実施形態として示す音声合成システム１０の概略的な構成を示す図である。同図において、音声コーパス５０、統計モデル生成部１００、及び統計モデル６０については図１に示した音声合成システム１と同様である。

音声合成システム１０の音声合成部２００は、図１に示した音声合成部２００が備える音声合成処理部２２０に加え、テキスト変換部２１０を備える。また図１の音声合成システム１と異なり、音声合成システム１０の音声合成部２００には、入力テキスト７００ではなく中間言語６５０が入力される。

尚、本実施形態（第１〜第３実施形態を含む）において、中間言語は、音素や音節を表す発音記号列とアクセントやポーズなどを表す韻律記号とを含む。以下の説明において、例えば、「オイコ'シ|シャセンオ/マタ'イタ゛.」のように中間言語を表記する。記の表
記において、半角カタカナで表した部分は発音記号列であり、「’」、「/」、「|」、「.」はいずれも韻律記号であり、「’」はアクセント核位置を表し、「/」はアクセント句境界を表し、「|」はフレーズ境界を表し、「.」は文境界を表す。

テキスト変換部２１０は、中間言語６５０を、音声合成処理部２２０に入力することが可能なノーマルテキスト形式のデータである入力テキスト７００に変換する。例えば、テキスト変換部２１０は、入力された中間言語６５０「コンニチワ.」を「こんにちは。」
という入力テキスト７００に変換する。テキスト変換部２１０は、形態素解析辞書を用いて入力された中間言語６５０から形態素の候補（以下、形態素候補とも称する。）を検出（抽出）し、中間言語６５０に含まれている韻律記号に基づき、抽出した形態素候補から形態素を選択して入力テキスト７００を生成する。

図４にテキスト変換部２１０の詳細を示す。テキスト変換部２１０は、形態素候補検出部２１１、韻律記号による形態素選択部２１２、及びテキスト生成部２１３の各機能を有する。またテキスト変換部２１０は、形態素解析辞書２５１、アクセント辞書２５２、ポーズ挿入ルール２５３、アクセント句境界情報２５４等の韻律に関する情報（データ）を記憶する。

上記のアクセント辞書２５２は、形態素（単語）のアクセントを示す情報を含む。ポー
ズ挿入ルール２５３は、入力文書に対して、最適なポーズ位置を決定するルールに関する情報を含む。アクセント句境界情報２５４は、アクセント句境界の推定に用いる情報（韻律境界情報）を含む。

上記機能のうち、形態素候補検出部２１１は、中間言語６５０の発音記号列に対応する形態素を形態素解析辞書２５１から検出（リストアップ）し、検出した結果を形態素候補２１１１として生成（記憶）する。形態素解析辞書２５１は、例えば、形態素毎に、表記、読み、形態素自身のコスト、形態素接続コストが記録された一般的な形態素解析用のものである。

図５に、中間言語６５０「コンニチワ.」について、形態素候補検出部２１１が、形態
素解析辞書２５１から、当該中間言語６５０の発音記号列に対応する形態素を検出した例を示す。

図６に韻律記号による形態素選択部２１２の詳細を示す。韻律記号による形態素選択部２１２は、形態素候補検出部２１１が生成した形態素候補２１１１から、中間言語６５０に含まれている韻律記号に基づき形態素を選択する。韻律記号による形態素選択部２１２は、アクセントによる形態素選択部２１２１、ポーズ位置による形態素選択部２１２２、アクセント句境界による形態素選択部２１２３、の各機能を含む。

上記機能のうち、アクセントによる形態素選択部２１２１は、アクセント辞書２５２（アクセント結合ルールを含む）とテキスト変換部２１０に入力された中間言語６５０の韻律記号とにより特定されるアクセントに基づき、形態素候補２１１１から最適な形態素を選択する。例えば、入力された中間言語６５０が「コノハシ'ワ/キ'レーテ゛スネ.」であり、検出された形態素候補２１１１が「この箸はきれいですね」と「この橋はきれいですね」である場合、「この箸はきれいですね」のアクセントは「コノハ'シワ/キ'レーテ゛
スネ.」となり、「この橋はきれいですね」のアクセントは「コノハシ'ワ/キ'レーテ゛スネ.」となるので、アクセントによる形態素選択部２１２１は、アクセント辞書２５２に
基づき、後者の形態素「この橋はきれいですね」を選択する。

上記機能のうち、ポーズ位置による形態素選択部２１２２は、ポーズ挿入ルール２５３とテキスト変換部２１０に入力された中間言語６５０の韻律記号とにより特定されるポーズ位置に基づき、形態素候補２１１１から最適な形態素を選択する。例えば、入力された中間言語６５０が「オイコ'シ|シャセンオ/マタ'イタ゛.」であり、検出された形態素
候補２１１１が「追い越し、車線を跨いだ」と「追い越し車線を跨いだ」である場合、前者は動詞未然形の「追い越し」と名詞の「車線」で構成され、後者は複合名詞の「追い越し車線」であるので、ポーズ位置による形態素選択部２１２２は、ポーズ挿入ルール２５３に「動詞未然形の後ろにポーズが入りやすい」という情報に基づき、前者の「追い越し、車線を跨いだ」を選択する。

上記機能のうち、アクセント句境界による形態素選択部２１２３は、アクセント句境界情報２５４とテキスト変換部２１０に入力された中間言語６５０の韻律記号とにより特定されるアクセント句境界に基づき、形態素候補２１１１から最適な形態素を選択する。例えば、入力された中間言語６５０が「オイコ'シ/シャセンオ/マタ'イタ゛.」である場合
、アクセント句境界情報２５４によれば「オイコ'シ」と「シャセン」の間にアクセント
句境界が存在することから、動詞未然形の「追い越し」と名詞の「車線」で構成されている可能性が高く、複合名詞の「追い越し車線」でないことがわかるので、アクセント句境界による形態素選択部２１２３は前者を選択する。

以上のように、韻律記号により形態素を選択する仕組みは、アクセント辞書２５２、ポ
ーズ挿入ルール２５３、アクセント句境界情報２５４を用いて実現することができる。尚、以上では、韻律記号に基づき形態素候補２１１１から形態素を選択する方法として、アクセントに基づく方法、ポーズ位置に基づく方法、及びアクセント句境界に基づく方法を示したが、以上に示した方法以外の韻律記号に基づく方法により形態素を選択するようにしてもよい。

また以上では、韻律記号による形態素選択部２１２について、中間言語６５０が日本語に基づくものである場合を例として説明したが、中間言語６５０は日本語以外の言語に基づくものであってもよい。例えば、中間言語６５０が英語に基づくものである場合であれば、ストレス位置、音節境界、ワード境界、Prosody Word境界、フレーズ境界、文境界等の韻律記号等を用いて形態素候補２１１１から形態素を選択するようにすればよい。また中間言語６５０が中国語に基づくものであれば、声調情報やワード境界、Prosody Word境界、フレーズ境界、文境界等の韻律記号を用いて形態素候補２１１１から形態素を選択するようにすればよい。このように、韻律記号による形態素選択部２１２は、特定の言語に限定されることなく様々な言語に対応させることができる。

図４に戻り、テキスト生成部２１３は、形態素候補２１１１のうち、韻律記号による形態素選択部２１２によっては一意に選択することができなかった形態素について、例えば、ＩＭＥ（Input Method Editor）等で用いられている公知の技術（例えば、形態素解析
辞書２５１から取得される形態素コストや形態素接続コストを用い接続コスト最小法、ｎ文節最長一致法、うしろ向きｎ文節評価最大法等）を用いて文全体として最適な形態素の系列を決定し、決定した内容と韻律記号による形態素選択部２１２の結果とに基づき入力テキスト７００を生成する。

以上に説明したように、本実施形態の仕組みによれば、テキストの入力を基本とするＥＴＥ型の音声合成システム１０の音声合成部２００に中間言語６５０が入力された場合でも、欠落した言語情報を復元して高い品質の音声を合成することができる。また以上の仕組みは、形態素解析辞書２５１、アクセント辞書２５２、ポーズ挿入ルール２５３、アクセント句境界情報２５４等の既存の資源を用いてシンプルかつ低コストで実現することができる。

［第２実施形態］
図７に第２実施形態の音声合成システム２０のベースとなる音声合成システム（以下、音声合成システム２と称する。）の概略的な構成を示す。音声合成システム２のハードウェア構成や音声合成システム２が備える各機能の実現方法については第１実施形態と同様である。音声コーパス５０の構成も第１実施形態と同様であり、発話テキスト５１と、発話テキスト５１に対応づけられた音声データ５２（音声波形）とを含む。

音声合成システム２は、音声コーパス５０の発話テキスト５１を言語解析することにより得られる言語情報（言語特徴量）を含んだ中間言語５５０と、音声データ５２を音響分析することにより得られる音響特徴量５０５との関係をＤＮＮ (Deep Neural Network）
等の統計的手法で学習（機械学習等）することにより事前に統計モデル６０を生成しておき、音声合成の対象となる中間言語６５０に対応する音響特徴量を有する系列を統計モデル６０に基づき生成して音声を合成する。

尚、本実施形態では、上記の統計的手法がＤＮＮ（Deep Neural Network）である場合
を例として説明するが、統計的手法は必ずしも限定されず、例えば、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）等の他の統計的手法を用いてもよい。これは後述の第
３実施形態についても同様である。また本実施形態では、テキストとして記述される言語が日本語である場合を例として説明するが、テキストとして記述される言語は他の言語で
あってもよいし、テキストに複数種の言語が混在していてもよい（後述の第３実施形態も同様）。

同図に示すように、音声合成システム２の統計モデル生成部１００は、音響分析部１０５、言語情報生成部１１０、及びモデル学習部１２０を含む。

音響分析部１０５は、音声コーパス５０の音声データ５２を音響分析することにより音響特徴量５０５を生成する。

言語情報生成部１１０は、音声コーパス５０の発話テキスト５１を言語解析することにより言語情報（言語特徴量）を生成し、生成した言語情報に基づき中間言語５５０を生成する。

モデル学習部１２０は、中間言語５５０と音響特徴量５０５との関係をＤＮＮ等の統計的手法で学習することにより統計モデル６０を生成する。より詳細には、モデル学習部１２０は、中間言語５５０を入力として、対応する音響特徴量５０５の系列を出力するように学習する。

音声合成部２００の音声合成処理部２２０は、入力される中間言語６５０と統計モデル６０とに基づき音響特徴量の系列を生成し、生成した音響特徴量に基づき合成音声８００を生成する。例えば、音声合成処理部２２０は、中間言語６５０の言語情報（言語特徴量）に基づき音素毎に時間長を推定し、推定した時間長に相当するフレーム数分の音響特徴量の系列を生成し、生成した音響特徴量に基づき音韻や声質、声の高さ、大きさ、雑音性度合いの時間変化を表現することにより合成音声８００を生成する。

図８は、図７に示した音声合成システム２をベースとして構成した、第２実施形態の音声合成システム２０の概略的な構成を示す図である。

同図に示すように、統計モデル生成部１００の言語情報生成部１１０は、第１実施形態で示した、形態素解析辞書２５１と、アクセント辞書２５２、ポーズ挿入ルール２５３、及びアクセント句境界情報２５４等の韻律に関する情報とを用いて言語解析を行うことにより、音声コーパス５０の発話テキスト５１から、言語情報（品詞情報、係り受け情報、構文情報等）を含む中間言語である言語情報付き中間言語５６０を生成する。

モデル学習部１２０は、言語情報付き中間言語５６０と音響特徴量５０５との関係をＤＮＮ等の統計的手法で学習することにより統計モデル６０を生成する。より詳細には、モデル学習部１２０は、言語情報付き中間言語５６０を入力として、対応する音響特徴量５０５の系列を出力するように学習する。

同図に示すように、音声合成システム２０の音声合成部２００は、図７に示した音声合成部２００が備える音声合成処理部２２０に加え、言語情報復元部２１５を備える。言語情報復元部２１５は、第１実施形態で示した、形態素解析辞書２５１と、アクセント辞書２５２、ポーズ挿入ルール２５３、及びアクセント句境界情報２５４等の韻律に関する情報とを用いて、入力された中間言語６５０から言語情報を復元し、復元した言語情報を用いて言語情報付き中間言語６７０を生成する。

図９に言語情報復元部２１５の詳細を示す。同図に示すように、言語情報復元部２１５
は、形態素候補検出部２１６、韻律記号による形態素選択部２１７、テキスト生成部２１８、及び言語情報生成部２１９の各機能を有する。

このうち形態素候補検出部２１６、韻律記号による形態素選択部２１７、及びテキスト生成部２１８については、第１実施形態の形態素候補検出部２１１、韻律記号による形態素選択部２１２、及びテキスト生成部２１３の各機能と同様であるので説明を省略する。

言語情報生成部２１９は、形態素候補検出部２１６、韻律記号による形態素選択部２１７、及びテキスト生成部２１８によって生成されるテキストについて言語解析を行うことにより言語情報（品詞情報、係り受け情報、構文情報等）を生成し、生成した言語情報を含んだ中間言語である言語情報付き中間言語６７０を生成する。

図８に戻り、音声合成部２００の音声合成処理部２２０は、言語情報付き中間言語６７０と統計モデル６０とに基づき、第１実施形態の音声合成処理部２２０と同様に音響特徴量の系列を生成し、生成した音響特徴量に基づき合成音声８００を生成する。

以上のように、音声合成部２００は、入力される中間言語６５０から言語情報を復元することにより言語情報付き中間言語６７０を生成し、生成した言語情報付き中間言語６７０と統計モデル６０とに基づき、合成音声８００を生成する。そのため、例えば、仕様により一部の言語情報が欠落した中間言語６５０が音声合成部２００に入力された場合でも、リッチな言語情報（品詞情報、係り受け情報、構文情報等）に基づき高い品質の音声合成を行うことができる。

尚、音声合成の精度を高めるべく、統計モデル生成部１００の言語情報生成部１１０が言語解析に際して用いる、形態素解析辞書２５１並びに韻律に関する情報（アクセント辞書２５２、ポーズ挿入ルール２５３、及びアクセント句境界情報２５４等）は、音声合成部２００の言語情報復元部２１５がテキストを生成する際に用いる形態素解析辞書２５１並びに韻律に関する情報（アクセント辞書２５２、ポーズ挿入ルール２５３、及びアクセント句境界情報２５４）と共通のものを用いることが好ましい。

［第３実施形態］
例えば、外国語のネイティブな発音や、咳やくしゃみの音等、異なる言語や非言語の音声を合成したい場合に規定の中間言語の仕様（ＪＥＩＴＡ（Japan Electronic Industry Development Association：日本電子工業振興協会）の日本語の中間言語の仕様（日本語
テキスト音声合成用記号）等）では表現することができないことがある。そのような場合、例えば「エーコ゜ネ'イティフ゛ワ|ハ'ローテ゛ワ/ナ'ク|<wavfile=hello.wav>ト/ハツオンスル.」のように、中間言語を実際の音声波形（例えば、ネイティブスピーカが発声
した「Hello」の音声波形）を記録した音声ファイル（音声データ）の所在を示す表記（
上記の例では「<wavfile=hello.wav>」の部分）が可能な仕様とし、音声合成に際して上
記の音声ファイルを再生するようにすることが考えられる。そしてこの場合、上記の音声ファイルを再生する際の合成音声は、聞き手に違和感を生じさせないように、上記の中間言語（以下、音声付き中間言語と称する。）の他の部分（上記の例では音声ファイルの表記「<wavfile=hello.wav>」以外の部分）の合成音声と同質（同じ話者の音声）とするこ
とが好ましい。

図１０に、以上の方法により音声合成を行う、図８に示す第２実施形態の音声合成システム２０をベースとして構成した、第３実施形態の音声合成システム３０の概略的な構成を示す。音声合成システム３０のハードウェア構成や音声合成システム３０が備える各機能の実現方法については第１実施形態の音声合成システム１０や第２実施形態の音声合成システム２０と同様である。音声コーパス５０についても第１実施形態の音声合成システ
ム１０や第２実施形態の音声合成システム２０と同様であり、発話テキスト５１と、発話テキスト５１に対応づけられた音声データ５２（音声波形）とを含む。

同図に示すように、音声合成システム３０の統計モデル生成部１００は、第２実施形態の音声合成システム２０の構成に加えて、言語情報生成部１１０、音素らしさ特徴抽出部１１５、モデル学習部１２０、及びＶｏｃｏｄｅｒ学習部１２５を含む。

言語情報生成部１１０は、第２実施形態と同様に、第１実施形態で示した、形態素解析辞書２５１と、アクセント辞書２５２、ポーズ挿入ルール２５３、及びアクセント句境界情報２５４等の韻律に関する情報とを用いて言語解析を行うことにより、音声コーパス５０の発話テキスト５１から、言語情報（品詞情報、係り受け情報、構文情報等）を含む中間言語である言語情報付き中間言語５６０を生成する。

音素らしさ特徴抽出部１１５は、音声コーパス５０の音声データ５２に基づき、音素らしさ特徴５１５を生成する。ここで音素らしさ特徴とは、音声データから個人性や発話スタイル等の情報を除くことにより得られる音響特徴量であり、合成する音声の音素に対する類似度を示す指標となる。音素らしさ特徴の一例として、音声認識技術等で用いられるＰＰＧ（PhoneticPosterior-Grams）がある。

モデル学習部１２０は、言語情報付き中間言語５６０と音素らしさ特徴５１５との関係をＤＮＮや隠れマルコフモデル等の統計的手法により学習することにより統計モデル６０を生成する。

一方、Ｖｏｃｏｄｅｒ学習部１２５は、音声コーパス５０の音声データ５２と音素らしさ特徴５１５との関係をＤＮＮ等の統計的手法により学習することによりＶｏｃｏｄｅｒモデル６５を生成する。尚、Ｖｏｃｏｄｅｒモデル６５は、例えば、クラウドサーバ等の通信ネットワーク上の資源に配置し、統計モデル生成部１００や音声合成部２００が有線方式又は無線方式の通信ネットワークを通じてＶｏｃｏｄｅｒモデル６５にアクセスするようにしてもよい。またＶｏｃｏｄｅｒモデル６５を、有線方式又は無線方式の通信ネットワークや物理的な記録媒体（光学式記憶装置、ＤＶＤ等）、ハードディスクドライブ、ＳＳＤ、ＩＣカード、ＳＤメモリカード等）を介して音声合成部２００に提供するようにしてもよい。

同図に示すように、第３実施形態の音声合成部２００は、第２実施形態の音声合成部２００と同様に言語情報復元部２１５を備える。言語情報復元部２１５には、音声付き中間言語６６０の音声ファイルの表記以外の部分が入力される。言語情報復元部２１５は、第２実施形態と同様に、第１実施形態で示した、形態素解析辞書２５１と、アクセント辞書２５２、ポーズ挿入ルール２５３、及びアクセント句境界情報２５４等の韻律に関する情報とを用いて、入力された中間言語６５０から言語情報を復元し、言語情報付き中間言語６７０を生成する。

尚、第２実施形態と同様、統計モデル生成部１００の言語情報生成部１１０が言語解析に際して用いる、形態素解析辞書２５１並びに韻律に関する情報（アクセント辞書２５２、ポーズ挿入ルール２５３、及びアクセント句境界情報２５４等）は、音声合成部２００の言語情報復元部２１５がテキストを生成する際に用いる形態素解析辞書２５１並びに韻律に関する情報（アクセント辞書２５２、ポーズ挿入ルール２５３、及びアクセント句境界情報２５４）と共通とすることが好ましい。

同図に示すように、音声合成システム３０の音声合成部２００は、音素らしさ特徴抽出部２４１、音素らしさ特徴推定部２４２、及び音声合成処理部２２５を含む。

音素らしさ特徴抽出部２４１には、音声付き中間言語６６０の音声ファイルの所在を示す表記で特定される音声ファイルに基づく音声波形が入力される。音素らしさ特徴抽出部２４１は、入力された音声波形に基づき音素らしさ特徴６８１（第２の音素らしさ特徴）を生成し、生成した音素らしさ特徴６８１を音声合成処理部２２５に入力する。

音素らしさ特徴推定部２４２には、音声付き中間言語６６０の音声ファイル表記以外の部分が入力される。音素らしさ特徴推定部２４２は、入力された音声付き中間言語６６０に基づき音素らしさ特徴６８２（第１の音素らしさ特徴）を生成し、生成した音素らしさ特徴６８２を音声合成処理部２２５に入力する。

音声合成処理部２２５は、音素らしさ特徴６８１と音素らしさ特徴６５２との組み合わせに対応する合成音声８００をＶｏｃｏｄｅｒモデル６５に基づき生成する。

図１１は、音声合成処理部２２５が合成音声８００を生成する様子を説明する図である。同図に示すように、この例では、音声付き中間言語６６０として、「エーコ゜ネ'イテ
ィフ゛ワ|ハ'ローテ゛ワ/ナ'ク|<wavfile=hello.wav>ト/ハツオンスル.」が音声合成部２００に入力される場合である。この例では、上記音声付き中間言語６６０のうち、「エーコ゜ネ'イティフ゛ワ|ハ'ローテ゛ワ/ナ'ク|」と「ト/ハツオンスル.」については言語情報復元部２１５に入力される。また音声ファイルの所在を示す<wavfile=hello.wav>で特
定される音声ファイルに基づく音声波形が、音素らしさ特徴抽出部２４１に入力される。

音素らしさ特徴抽出部２４１は、音素らしさ特徴６８１を生成し、生成した音素らしさ特徴６８１を音声合成処理部２２５に入力する。また言語情報復元部２１５は、上記音声付き中間言語６６０のうち、「エーコ゜ネ'イティフ゛ワ|ハ'ローテ゛ワ/ナ'ク|」と「ト/ハツオンスル.」の夫々について言語情報付き中間言語６７０を生成し、音素らしさ特徴推定部２４２に入力する。音素らしさ特徴推定部２４２は、入力された言語情報付き中間言語６７０に基づき、音素らしさ特徴６８２を生成し、生成した音素らしさ特徴６８２を音声合成処理部２２５に入力する。

音声合成処理部２２５は、入力された音素らしさ特徴６８１と音素らしさ特徴６５２との組み合わせに対応する合成音声８００をＶｏｃｏｄｅｒモデル６５に基づき生成する。

以上のように、第３実施形態の音声合成システム３０によれば、入力される音声つき中間言語６５０の全体について同質の合成音声を生成することができ、入力される中間言語に基づき、聞き手に違和感を生じさせることなく、高い品質の音声を合成することができる。

以上、本発明について実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加・削除・置換をすることができる。

また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサが夫々の機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、またはＩ
Ｃカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

また以上に説明した情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、各情報処理装置がハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

１音声合成システム、１５情報処理装置、５０音声コーパス、５１発話テキスト、５２音声データ、６０統計モデル、６５Ｖｏｃｏｄｅｒモデル、１００統計モデル生成部、１０５音響分析部、１１０言語情報生成部、１１５音素らしさ特徴抽出部、１２０モデル学習部、１２５Ｖｏｃｏｄｅｒ学習部、２００音声合成部、２１０テキスト変換部、２１１形態素候補検出部、２１１１形態素候補、２１２韻律記号による形態素選択部、２１２１アクセントによる形態素選択部、２１２２ポーズ位置による形態素選択部、２１２３アクセント句境界による形態素選択部、２１３テキスト生成部、２１５言語情報復元部、２１６形態素候補検出部、２１６１形態素候補、２１７韻律記号による形態素選択部、２１８テキスト生成部、２１９言語情報生成部、２２０音声合成処理部、２２５音声合成処理部、２４１音素らしさ特徴抽出部、２４２音素らしさ特徴推定部、２５１形態素解析辞書、２５２アクセント辞書、２５３ポーズ挿入ルール、２５４アクセント句境界情報、５１５音素らしさ特徴、５６０言語情報付き中間言語、６５０中間言語、６６０音声付き中間言語、６７０言語情報付き中間言語、６８１音素らしさ特徴、６８２音素らしさ特徴、７００入力テキスト、８００合成音声

Claims

発話テキストと音声データとが対応づけられた音声コーパスに基づく学習データを学習することにより音声合成に用いる統計モデルを生成するモデル学習部、
音声合成の対象となる中間言語に基づき形態素の候補を生成する形態素候補検出部、
前記形態素の候補から前記中間言語の韻律記号に基づき形態素を選択する、韻律記号による形態素選択部、
選択した前記形態素に基づきテキストを生成するテキスト生成部、及び、
前記テキスト又は前記テキストに基づき生成される中間言語を入力として前記統計モデルに基づき音声合成を行う音声合成処理部、
を備えた音声合成システム。
請求項１に記載の音声合成システムであって、
前記韻律記号による形態素選択部は、
前記中間言語に含まれている韻律記号とアクセント辞書とによって特定されるアクセントに基づき前記形態素の候補から形態素を選択する、アクセントによる形態素選択部、
前記中間言語に含まれている韻律記号とポーズ挿入ルールとによって特定されるポーズ位置に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、
前記中間言語に含まれている韻律記号とアクセント句境界情報とによって特定されるアクセント句境界に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、
のうちの少なくともいずれかを含む、
音声合成システム。
請求項１に記載の音声合成システムであって、
前記統計モデルは、発話テキストと音声データとを対応づけた学習データを学習することにより生成されるモデルであり、
前記音声合成処理部は、前記テキストを入力として前記統計モデルに基づき音声合成を行う、
音声合成システム。
請求項１に記載の音声合成システムであって、
前記統計モデルは、前記音声コーパスの前記発話テキストに基づき生成される第１の言語情報を含む中間言語と前記音声コーパスの前記音声データを音響分析することにより生成される音響特徴量とを対応づけた学習データを学習することにより生成されるモデルであり、
前記テキストに基づき生成される第２の言語情報を含む中間言語を生成する言語情報生成部をさらに有し、
前記音声合成処理部は、生成した前記第２の言語情報を含む中間言語を入力として前記統計モデルに基づき音声合成を行う、
音声合成システム。
請求項４に記載の音声合成システムであって、
前記韻律記号による形態素選択部は、前記中間言語に含まれている韻律記号と韻律に関する情報とに基づき前記形態素の候補から形態素を選択し、
前記第１の言語情報の生成は、前記韻律に関する情報と共通の情報に基づき行われる、
音声合成システム。
請求項５に記載の音声合成システムであって、
前記韻律に関する情報は、アクセント辞書、ポーズ挿入ルール、及びアクセント句境界
情報のうちの少なくともいずれかである、
音声合成システム。
請求項１に記載の音声合成システムであって、
前記形態素候補検出部は、音声合成の対象となる前記中間言語の発音記号列に対応する形態素を形態素解析辞書から検出することにより形態素の候補を生成する、
音声合成システム。
請求項１に記載の音声合成システムであって、
前記テキスト生成部は、接続コスト最小法、ｎ文節最長一致法、及びうしろ向きｎ文節評価最大法のうちのいずれかにより前記テキストを生成する、
音声合成システム。
請求項１に記載の音声合成システムであって、
前記統計モデルは、前記音声コーパスの前記発話テキストを言語解析することにより取得される言語情報を含んだ中間言語と前記音声コーパスの前記音声データから抽出される音素らしさ特徴とを対応づけた学習データを学習することにより生成されるモデルであり、
前記音素らしさ特徴と前記音声コーパスの前記音声データとを対応づけた学習データを学習することにより音声合成に用いるＶｏｃｏｄｅｒモデルを生成するＶｏｃｏｄｅｒ学習部、
発音記号列と音声データの所在を示す表記とを含む中間言語のうち、前記発音記号列について、前記テキストを言語解析することにより言語情報を含む中間言語を生成し、生成した前記中間言語を入力として前記統計モデルに基づき第１の音素らしさ特徴を生成する音素らしさ特徴推定部、
及び、
前記中間言語の音声データから第２の音素らしさ特徴を抽出する音素らしさ特徴抽出部、
をさらに有し、
前記音声合成処理部は、前記第１の音素らしさ特徴と前記第２の音素らしさ特徴との組み合わせに対応する音声を、前記音素らしさ特徴と前記音声データとを対応づけた学習データを学習することにより生成されるＶｏｃｏｄｅｒモデルに基づき合成する、
音声合成システム。
請求項１に記載の音声合成システムであって、
前記モデル学習部は、ＤＮＮ(Deep Neural Network）により前記統計モデルを生成する、
音声合成システム。
音声合成の対象となる中間言語に基づき形態素の候補を生成する形態素候補検出部と、
前記形態素の候補から前記中間言語の韻律記号に基づき形態素を選択する、韻律記号による形態素選択部と、
選択した前記形態素に基づきテキストを生成するテキスト生成部と、
前記テキスト又は前記テキストに基づき生成される中間言語を入力として、発話テキストと音声データとが対応づけられた音声コーパスに基づくデータを学習することにより生成される統計モデルに基づき音声合成を行う音声合成処理部と、
を備える、音声合成装置。
請求項１１に記載の音声合成装置であって、
前記韻律記号による形態素選択部は、
前記中間言語に含まれている韻律記号とアクセント辞書とによって特定されるアクセントに基づき前記形態素の候補から形態素を選択する、アクセントによる形態素選択部、
前記中間言語に含まれている韻律記号とポーズ挿入ルールとによって特定されるポーズ位置に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、
前記中間言語に含まれている韻律記号とアクセント句境界情報とによって特定されるアクセント句境界に基づき前記形態素の候補から形態素を選択する、ポーズ位置による形態素選択部、
のうちの少なくともいずれかを含む、
音声合成装置。
請求項１１に記載の音声合成装置であって、
前記統計モデルは、発話テキストと音声データとを対応づけた学習データを学習することにより生成されるモデルであり、
前記音声合成処理部は、前記テキストを入力として前記統計モデルに基づき音声合成を行う、
音声合成装置。
請求項１１に記載の音声合成装置であって、
前記統計モデルは、前記音声コーパスの前記発話テキストに基づき生成される第１の言語情報を含む中間言語と前記音声コーパスの前記音声データを音響分析することにより生成される音響特徴量とを対応づけた学習データを学習することにより生成されるモデルであり、
前記テキストに基づき生成される第２の言語情報を含む中間言語を生成する言語情報生成部をさらに有し、
前記音声合成処理部は、生成した前記第２の言語情報を含む中間言語を入力として前記統計モデルに基づき音声合成を行う、
音声合成装置。
請求項１１に記載の音声合成装置であって、
前記統計モデルは、前記音声コーパスの前記発話テキストを言語解析することにより取得される言語情報を含んだ中間言語と前記音声コーパスの前記音声データから抽出される音素らしさ特徴とを対応づけた学習データを学習することにより生成されるモデルであり、
発音記号列と音声データの所在を示す表記とを含む中間言語のうち、前記発音記号列について、前記テキストを言語解析することにより言語情報を含む中間言語を生成し、生成した前記中間言語を入力として前記統計モデルに基づき第１の音素らしさ特徴を生成する音素らしさ特徴推定部、
及び、
前記中間言語の音声データから第２の音素らしさ特徴を抽出する音素らしさ特徴抽出部、
をさらに有し、
前記音声合成処理部は、前記第１の音素らしさ特徴と前記第２の音素らしさ特徴との組み合わせに対応する音声を、前記音素らしさ特徴と前記音声データとを対応づけた学習データを学習することにより生成されるＶｏｃｏｄｅｒモデルに基づき合成する、
音声合成装置。