JP6998017B2

JP6998017B2 - 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム

Info

Publication number: JP6998017B2
Application number: JP2019004974A
Authority: JP
Inventors: 清彦岩井
Original assignee: Spectee Inc
Current assignee: Spectee Inc
Priority date: 2018-01-16
Filing date: 2019-01-16
Publication date: 2022-01-18
Anticipated expiration: 2039-01-16
Also published as: JP2019124940A

Description

特許法第３０条第２項適用平成２９年１１月７日にｈｔｔｐｓ：／／ｍｅｄｉｕｍ．ｃｏｍ／ｓｐｅｃｔｅｅ－ｉｎｃ－ｎｅｗｓ－ｐｒｅｓｓ－ｒｅｌｅａｓｅｓに掲載したニュースリリースで公開

特許法第３０条第２項適用平成２９年１１月７日にｈｔｔｐｓ：／／ｐｒｔｉｍｅｓ．ｊｐ／ｍａｉｎ／ｈｔｍｌ／ｒｄ／ｐ／００００００００７．００００１６８０８．ｈｔｍｌに掲載したニュースリリースで公開

特許法第３０条第２項適用平成２９年１１月１５日～１７日に展示会にて公開

本発明は、音声合成技術に関する。より詳しくは、テキストデータに韻律などの情報を付与した音声合成用データを生成する装置、方法及びこれらの装置や方法を用いて音声を合成するシステムに関する。

テキストを合成音声に変換する音声合成装置では、一般に、入力された文章を解析し、読み、アクセント及び品詞などの語彙情報や、文節境界位置や係り受けなどの構文情報を得て、それに音韻規則や韻律規則を適用し、音声合成用データを生成している。

また、従来、機械学習により、自然で、高品質な合成音声を得るための検討がなされている（例えば特許文献１～３参照）。特許文献１には、合成を行うために必要なパラメータを標準パラメータとして取得し、その標準パラメータを実際の発話データに基づいて学習されたＤＲＮＮ（Dynamic Recurrent Neural Network）によって、より自然な発話に近い値を持つパラメータに変換した後、その変換後のパラメータを用いて合成音声の生成を行う方法が提案されている。

一方、特許文献２には、入力テキスト中の言語単位間の句読点生起率を含む、韻律に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む音声合成のための韻律制御規則を生成し、それを利用して音声を合成する方法が提案されている。また、特許文献３には、学習データの情報量の疎密状態を示す疎密情報を生成するために用いられる学習用データベースを、統計的手法で機械学習することによって、音声と韻律情報との関係を表す韻律生成モデルを生成し、それを利用して音声波形を生成する方法が提案されている。

特開２００２－１２３２８０号公報特開２００７－１１４５０７号公報国際公開第２０１２／１６４８３５号

しかしながら、前述した従来の音声合成方法は、その構成上、前段処理を多数行う必要があるため、高速で動作させる際に支障をきたし、更に、韻律情報を付加する際も、複雑な処理が必要であるため、専門的な知識が求められるという課題がある。

そこで、本発明は、より自然な合成音声を短時間で生成することができる音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システムを提供することを目的とする。

本発明に係る音声合成用データ生成装置は、テキストデータと該テキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理部を備える。
本発明の音声合成用データ生成装置は、前記情報付与データに音韻情報も付与し、前記データ処理部において韻律情報と音韻情報を含む音声合成用データを生成することもできる。
その場合、前記音声合成用データは特定の単語にのみ音韻情報が付与されていてもよい。
本発明の音声合成用データ生成装置は、前記データ処理部に、入力文章を単語毎に区切る分かち書き処理部、難読漢字をひらがなに置き換えるかな変換部及び単語を数字に置き換える数字変換部のうち少なくとも１種を設けることもできる。

本発明に係る音声合成用データ生成方法は、テキストデータと該テキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理工程を有する。
本発明の音声合成用データ生成方法は、前記情報付与データとして音韻情報も付与されたテキストデータを用い、前記データ処理工程において、韻律情報及び音韻情報を含む音声合成用データを生成することもできる。
その場合、前記データ処理工程で、特定の単語のみ音韻情報が付与された音声合成用データを生成してもよい。
本発明の音声合成用データ生成方法は、前記データ処理工程の前に、入力文章を単語毎に区切る分かち書き処理工程、難読漢字をひらがなに置き換えるかな変換工程及び単語を数字に置き換える数字変換工程のうち少なくとも１つの工程を行うこともできる。

本発明に係る音声合成システムは、前述したデータ生成装置と、前記データ生成装置で生成した音声合成用データを用いて音声を合成する音声合成装置とを有する。
本発明の音声合成システムは、インターネットを介して収集したテキストデータから任意の文章を作成する文章作成装置を更に有し、前記文章作成装置で作成した文章が前記音声合成用データ生成装置に入力してもよい。

本発明によれば、機械学習により構築されたモデルを用いて韻律情報を付与したテキストデータを作成しているため、より自然な合成音声を短時間で生成することができる。

本発明の第１の実施形態のデータ生成装置の構成例を示すブロック図である。Ａ及びＢは機械学習で用いる教師データセットの例であり、Ａはテキストデータであり、Ｂは情報付与データである。本発明の第１の実施形態のデータ生成装置を用いたデータ生成方法の各工程を示すフローチャートである。本発明の第２の実施形態の音声合成システムの構成例を示すブロック図である。本発明の第２の実施形態の音声合成システムの他の構成例を示す概念図である。

以下、本発明を実施するための形態について、添付の図面を参照して、詳細に説明する。なお、本発明は、以下に説明する実施形態に限定されるものではない。

（第１の実施形態）
先ず、本発明の第１の実施形態に係るデータ生成装置について説明する。図１は本実施形態のデータ生成装置の構成例を示すブロック図である。図１に示すように、本実施形態のデータ生成装置１０は、入力文章から音声合成用データを生成するデータ処理部１を備える。

［入力文章］
本実施形態のデータ生成装置１０で処理される入力文章は、例えばニュース原稿、ドキュメンタリーやバラエティ番組のナレーション原稿、劇場や美術館などの館内放送原稿、観光案内、結婚式やその他式典での司会用原稿などが挙げられるが、これらに限定されるものではなく、種々の文章を入力することができる。また、例えば、インタビューなどの録音データやニュース動画の音声データを、音声認識ソフトなどを用いて文字データにしたものを、入力文章とすることもできる。

［データ処理部１］
データ処理部１は、機械学習により構築されたモデル１１を備えている。具体的には、モデル１１は、テキストデータと、このテキストデータに少なくとも韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行い作成されたものである。この学習済みモデル１１は、入力されたテキストデータに韻律情報などを付与した情報付与データを出力する。

また、データ処理部１には、前述したモデル１１の他に、例えば前処理部として、入力文章を単語毎に区切る分かち書き処理部１２、難読漢字をひらがなに置き換えるかな変換部１３、及び単語を数字に置き換える数字変換部１４などが設けられていてもよく、また、後処理部として、数字を単語に置き換える単語変換部（図示せず）などが設けられていてもよい。

［学習部２］
本実施形態のデータ生成装置１０には、教師データを用いた機械学習によりモデル１１を作成する学習部２が設けられていてもよい。学習部２で行う機械学習では、テキストデータとこのテキストデータに少なくとも韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして用いる。データ生成装置１０において教師データとして用いられるテキストデータには、韻律情報に加えて、音韻情報が付与されていてもよい。

ここで、テキストデータに付与される「韻律情報」は、例えば発話時の音調、抑揚（イントネーション）、アクセント、音長、リズム及びポーズなどであり、「音韻情報」は漢字の読みなどである。また、教師データとするテキストデータは、例えばアナウンサーが読んでいるニュース音声のテキストデータであり、これに付与する韻律情報及び音律情報も同じニュース音声から抽出される。このように、実際に人が読んでいる音声を学習データに用いることで、人に近い自然な発音、アクセントやイントネーションを習得することができる。なお、本実施形態のデータ生成装置１０で用いられる教師データは、これらに限定されるものではなく、合成音声を適用可能な種々の分野の音声などから作成することができる。

図２Ａ及び図２Ｂは機械学習で用いる教師データセットの例であり、図２Ａはテキストデータであり、図２Ｂは情報付与データである。教師データセットは、例えば入力文章に相当するテキストデータに図２Ａに示す文章を用いる場合は、生成データに相当する情報付与データには、図２Ｂに示すように「韻律情報」や「音韻情報」を付与したテキストデータを用いることができる。なお、音韻情報は、全ての単語に付与されている必要はなく、複数の読み方がある単語など、一部の単語にのみ付与することもできる。

学習部２には、前述した教師データセットが例えば１００セット以上記憶されている。なお、図１には学習部２がデータ生成装置１０内に設けられている構成例を示しているが、学習部２はデータ処理部１とは別の装置に設けられていてもよい。また、本実施形態のデータ生成装置１０では、必要に応じて、データ処理部１での処理結果を学習部２の教師データに反映させて、学習済みモデル１１を更新することもできる。

［動作］
次に、本実施形態のデータ生成装置１０の動作、即ち、データ生成装置１０を用いて音声合成用データを生成する方法について説明する。図３は本実施形態のデータ生成方法の各工程を示すフローチャートである。図３に示すように、本実施形態のデータ生成方法では、データ生成装置１０に入力された文章のテキストデータに対して、必要に応じて、入力文章を単語毎に区分する分かち書き処理Ｓ１１、地名や特殊な読み方をする漢字などの難読漢字をひらがなに変換するかな変換処理Ｓ１２、単語を数字に変換する数字変換処理Ｓ１３などを行う。

ここで、データ生成装置１０に入力される文章としては、例えばニュース原稿やナレーション原稿などの各種原稿の他に、インターネットを介して収集したテキストデータやニュース動画の音声データなどから作成した文章も用いることもできる。また、かな変換処理Ｓ１２及び数字変換処理Ｓ１３では、予め作成された地名の辞書データベース、難読漢字の辞書データベース及び単語と対応する数字の辞書データベースなどを利用して実施することができる。これらのデータベースは、例えば日本郵便の郵便番号データに含まれている住所データやＧｅｏＮＬＰなどを用いて作成することができる。

そして、分かち書き処理Ｓ１１において、入力文章を単語毎に区分すると共に区分された単語の品詞を判定し、かな変換処理Ｓ１２において、固有名詞のうち「地名」と判定された単語を、地名の辞書データベースを用いてひらがなに変換する。例えば、かな変換処理Ｓ１２で「愛子」という単語が地名と判定された場合、この単語と地名の辞書データベースに登録されている地名とを比較し、「宮城県仙台市愛子（あやし）」という地名から、この「愛子」は「あやし」と変換する。

また、漢字は同じでも地域によって異なる読み方をする地名については、ＦＩＬＯ（First In Last Out）方式のスタックを用いることで、かな変換処理Ｓ１２において正しい読みを選択することが可能となる。例えば、入力文章に「大阪の日本橋と東京の日本橋で・・・」という文が含まれていた場合、分かち書き処理Ｓ１１において固有名詞と判断されたものの中から「大阪」、「東京」及び「日本橋」が地名と判定され、抽出される。そして、これらの地名を、抽出（判定）された順に、即ち「大阪」、「日本橋」、「東京」、「日本橋」の順に、ＦＩＬＯ形式のスタックに追加（Ｐｕｓｈ）しておく。

かな変換処理Ｓ１２では、ＦＩＬＯ方式のスタックから地名データが順番に取り出（Ｐｏｐ）される。前述した例文の場合は、最後に追加（Ｐｕｓｈ）された「日本橋」が、最初に取り出（Ｐｏｐ）される。ここで、「日本橋」は２種類の読みがあり、東京にある「日本橋」は「にほんばし」と読むが、大阪にある「日本橋」は「にっぽんばし」と読む。このため、地名の辞書データベースには、「日本橋」について、「にほんばし」と「にっぽんばし」の２つのひらがな（読み）が登録されている。

この場合、「日本橋」は、読み分けが必要（複数のよみがある）と判定され、ＦＩＬＯ方式のスタックから次の地名である「東京」が取り出される。これにより、判定対象の「日本橋」は、「東京」の「日本橋」であると認定され、「にほんばし」と正しい読みで変換される。このように、入力文章から地名を抽出し、ＦＩＬＯ方式のスタックに記憶しておけば、判定したい単語（この場合「日本橋」）に複数の読みがある場合でも、正しい読みを選択することが可能となる。

一方、数字変換処理Ｓ１３では、数字の辞書データベースを用いて、単語を数字に変換する処理や、変換した数字を漢数字及び算用数字のいずれか、又はより適切な数字表記にする処理を行う。これにより、漢数字と算用数字で読みが違う数字についても、正しい読みを選択することが可能となる。

前述した処理Ｓ１１～Ｓ１３は、データ処理部１０で実施してもよいが、データ処理部１０とは別に設けられたデータ前処理部で実施してもよい。また、本実施形態のデータ処理方法では、前述した分かち書き処理Ｓ１１、かな変換処理Ｓ１２及び数字変換処理Ｓ１３の全てを実施する必要はなく、入力文章毎に必要な処理のみを行えばよく、処理の順番も図３に示す順に限定されるものではなく、順番を入れ替えて行ってもよい。

次に、機械学習により構成されたモデル１１を用いて、入力文章のテキストデータに韻律情報を付与し、韻律情報を含む音声合成用データを生成する（韻律情報付与処理Ｓ１４）。この韻律情報付与処理Ｓ１４では、図２Ａに示すようなテキストデータと、図２Ｂに示すようなテキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って作成された学習済みモデル１１を用いる。前述した処理を経て生成した音声合成用データは、音声合成装置に入力され、音声が合成される。

本実施形態のデータ生成方法では、情報付与データとして、韻律情報と共に音韻情報も付与されたテキストデータを用い、データ処理工程において、韻律情報及び音韻情報を含む音声合成用データを生成することもできる。その際、例えば「日本橋」のように、複数の読み方（「ニホンバシ」と「ニッポンバシ」）がある漢字のように特定の単語にのみ音韻情報を付与し、音声合成用データを生成してもよい。

これにより、地域によって異なる読み方をする漢字なども読み分けをすることができ、また、難読地名も正確に読むことができる。複数の読み方がある漢字や難読地名は、あらかじめ登録された辞書を参照することもでき、その辞書に照らし合わせることで、より正確で、短時間で自然に発話する音声データを生成できる。

［プログラム］
前述したデータ生成工程は、データ生成装置１０に設けられた各部の機能を実現するためのコンピュータプログラムを作成し、１又は２以上のコンピュータに実装することにより実施することができる。即ち、本実施形態のデータ生成方法は、コンピュータに、テキストデータとこのテキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理機能を実行させることにより、実施することができる。

以上詳述したように、本実施形態のデータ生成装置及び方法は、テキストデータとこのテキストデータに韻律情報や音韻情報を付与した情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築したモデルを用いているため、より自然な合成音声を短時間で生成することができる。これにより、ニュースや災害時の速報など、従来適用できなかった用途にも合成音声を利用することができる。更に、本実施形態のデータ生成装置及び方法を用いて合成された音声は、ナレーションやカーナビゲーションの音声としても好適に利用できる。

（第２の実施形態）
次に、本発明の第２の実施形態に係る音声合成システムについて説明する。図４は本実施形態の音声合成システムの構成例を示すブロック図である。図４に示すように、本実施形態の音声合成システム５０は、前述した第１の実施形態のデータ生成装置１０と音声合成装置２０を有し、データ生成装置１０で生成した音声合成用データを用いて音声合成装置２０で音声を合成する。

［音声合成装置２０］
音声合成装置２０は、テキストデータから音声を合成できるものであればよく、例えばアマゾン・ドット・コム社のAmazon Poly（サービス名）、グーグル社のGoogle Cloud Speech API（サービス名）、ＨＯＹＡ株式会社のＶＯＩＣＥＴＥＸＴ（登録商標）、ヤマハ株式会社のＶＯＣＡＬＯＩＤ（登録商標）や株式会社エーアイのＡｌＴａｌｋ（登録商標）などを用いることができる。

本実施形態の音声合成システムは、ニュース原稿やナレーション原稿などのように用意された文章をテキスト化して用いてもよいが、インターネットを介して収集した任意の事象に関する投稿文章群から作成した文章を用いてもよい。図５は本実施形態の音声合成システムの他の構成例を示す概念図である。図５に示す音声合成システム５１には、データ生成装置１０、音声合成装置２０に加えて、インターネット３を介して収集したテキストデータから任意の文章を作成する文章作成装置３０を備えている。

［文章作成装置３０］
文章作成装置３０の構成は、特に限定されるものではないが、例えば本出願人により出願された特願２０１７－０４４４３３号に記載のデータ処理装置を用いることができる。具体的には、文章作成装置３０は、インターネット３を介して収集した任意の事象に関する投稿文章群の各投稿文を解析し、投稿文に含まれる単語を出現頻度で順位付けする文章解析部と、文章解析部で得られた単語の順位データに基づいて投稿文章群に関する短文を作成する文章作成部を備えた構成とすることができる。

この文章作成装置３０では、インターネット３を介して収集した任意の事象に関する投稿文章群の各投稿文を解析し、投稿文に含まれる単語を出現頻度で順位付けした後、単語の順位データに基づいて投稿文章群に関する短文を自動作成することが可能である。そして、本実施形態の音声合成システム５１では、文章作成装置３０で作成した文章がデータ生成装置１０に入力され、音声合成用データが生成される。

本実施形態の音声合成システムは、インターネットを介して、ＳＮＳ（Social Networking Service）などから事件や事故などの特定の事象に関する情報を収集し、それを解析することで、何処で、どのような事象が発生しているかを特定でき、更に、その内容について短文を作成して音声合成することができる。これにより、事象の発生の感知から音声の合成（人の声での発話）までを自動で行うことができるため、例えば緊急を要する防災システムなどへの応用が可能である。

１データ処理部
２学習部
３インターネット
１０データ生成装置
１１モデル
１２分かち書き処理部
１３かな変換部
１４数字変換部
２０音声合成装置
３０文章作成装置
５０、５１音声合成システム

Claims

テキストデータと該テキストデータに韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理部を備え、
前記情報付与データの少なくとも一部には音韻情報も付与されており、前記データ処理部は、韻律情報と音韻情報を含む音声合成用データも生成する音声合成用データ生成装置。
前記音声合成用データは、特定の単語のみ音韻情報が付与されている請求項１に記載の音声合成用データ生成装置。
前記データ処理部には、更に、入力文章を単語毎に区切る分かち書き処理部、難読漢字をひらがなに置き換えるかな変換部及び単語を数字に置き換える数字変換部のうち少なくとも１種が設けられている請求項１又は２に記載の音声合成用データ生成装置。
テキストデータと該テキストデータに韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理工程を有し、
前記情報付与データの少なくとも一部には音韻情報も付与されており、前記データ処理工程では、韻律情報と音韻情報を含む音声合成用データも生成する音声合成用データ生成方法。
前記データ処理工程では、特定の単語のみ音韻情報が付与された音声合成用データを生成する請求項４に記載の音声合成用データ生成方法。
前記データ処理工程の前に、入力文章を単語毎に区切る分かち書き処理工程、難読漢字をひらがなに置き換えるかな変換工程及び単語を数字に置き換える数字変換工程のうち少なくとも１つの工程を行う請求項４又は５に記載の音声合成用データ生成装置。
請求項１～３のいずれか１項に記載のデータ生成装置と、
前記データ生成装置で生成した音声合成用データを用いて音声を合成する音声合成装置と、
を有する音声合成システム。
インターネットを介して収集したテキストデータから任意の文章を作成する文章作成装置を更に有し、
前記文章作成装置で作成した文章が前記音声合成用データ生成装置に入力される請求項７に記載の音声合成システム。