JP6998017B2 - 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム - Google Patents
音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム Download PDFInfo
- Publication number
- JP6998017B2 JP6998017B2 JP2019004974A JP2019004974A JP6998017B2 JP 6998017 B2 JP6998017 B2 JP 6998017B2 JP 2019004974 A JP2019004974 A JP 2019004974A JP 2019004974 A JP2019004974 A JP 2019004974A JP 6998017 B2 JP6998017 B2 JP 6998017B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- information
- speech
- speech synthesis
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明の音声合成用データ生成装置は、前記情報付与データに音韻情報も付与し、前記データ処理部において韻律情報と音韻情報を含む音声合成用データを生成することもできる。
その場合、前記音声合成用データは特定の単語にのみ音韻情報が付与されていてもよい。
本発明の音声合成用データ生成装置は、前記データ処理部に、入力文章を単語毎に区切る分かち書き処理部、難読漢字をひらがなに置き換えるかな変換部及び単語を数字に置き換える数字変換部のうち少なくとも1種を設けることもできる。
本発明の音声合成用データ生成方法は、前記情報付与データとして音韻情報も付与されたテキストデータを用い、前記データ処理工程において、韻律情報及び音韻情報を含む音声合成用データを生成することもできる。
その場合、前記データ処理工程で、特定の単語のみ音韻情報が付与された音声合成用データを生成してもよい。
本発明の音声合成用データ生成方法は、前記データ処理工程の前に、入力文章を単語毎に区切る分かち書き処理工程、難読漢字をひらがなに置き換えるかな変換工程及び単語を数字に置き換える数字変換工程のうち少なくとも1つの工程を行うこともできる。
本発明の音声合成システムは、インターネットを介して収集したテキストデータから任意の文章を作成する文章作成装置を更に有し、前記文章作成装置で作成した文章が前記音声合成用データ生成装置に入力してもよい。
先ず、本発明の第1の実施形態に係るデータ生成装置について説明する。図1は本実施形態のデータ生成装置の構成例を示すブロック図である。図1に示すように、本実施形態のデータ生成装置10は、入力文章から音声合成用データを生成するデータ処理部1を備える。
本実施形態のデータ生成装置10で処理される入力文章は、例えばニュース原稿、ドキュメンタリーやバラエティ番組のナレーション原稿、劇場や美術館などの館内放送原稿、観光案内、結婚式やその他式典での司会用原稿などが挙げられるが、これらに限定されるものではなく、種々の文章を入力することができる。また、例えば、インタビューなどの録音データやニュース動画の音声データを、音声認識ソフトなどを用いて文字データにしたものを、入力文章とすることもできる。
データ処理部1は、機械学習により構築されたモデル11を備えている。具体的には、モデル11は、テキストデータと、このテキストデータに少なくとも韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行い作成されたものである。この学習済みモデル11は、入力されたテキストデータに韻律情報などを付与した情報付与データを出力する。
本実施形態のデータ生成装置10には、教師データを用いた機械学習によりモデル11を作成する学習部2が設けられていてもよい。学習部2で行う機械学習では、テキストデータとこのテキストデータに少なくとも韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして用いる。データ生成装置10において教師データとして用いられるテキストデータには、韻律情報に加えて、音韻情報が付与されていてもよい。
次に、本実施形態のデータ生成装置10の動作、即ち、データ生成装置10を用いて音声合成用データを生成する方法について説明する。図3は本実施形態のデータ生成方法の各工程を示すフローチャートである。図3に示すように、本実施形態のデータ生成方法では、データ生成装置10に入力された文章のテキストデータに対して、必要に応じて、入力文章を単語毎に区分する分かち書き処理S11、地名や特殊な読み方をする漢字などの難読漢字をひらがなに変換するかな変換処理S12、単語を数字に変換する数字変換処理S13などを行う。
前述したデータ生成工程は、データ生成装置10に設けられた各部の機能を実現するためのコンピュータプログラムを作成し、1又は2以上のコンピュータに実装することにより実施することができる。即ち、本実施形態のデータ生成方法は、コンピュータに、テキストデータとこのテキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理機能を実行させることにより、実施することができる。
次に、本発明の第2の実施形態に係る音声合成システムについて説明する。図4は本実施形態の音声合成システムの構成例を示すブロック図である。図4に示すように、本実施形態の音声合成システム50は、前述した第1の実施形態のデータ生成装置10と音声合成装置20を有し、データ生成装置10で生成した音声合成用データを用いて音声合成装置20で音声を合成する。
音声合成装置20は、テキストデータから音声を合成できるものであればよく、例えばアマゾン・ドット・コム社のAmazon Poly(サービス名)、グーグル社のGoogle Cloud Speech API(サービス名)、HOYA株式会社のVOICE TEXT(登録商標)、ヤマハ株式会社のVOCALOID(登録商標)や株式会社エーアイのAlTalk(登録商標)などを用いることができる。
文章作成装置30の構成は、特に限定されるものではないが、例えば本出願人により出願された特願2017-044433号に記載のデータ処理装置を用いることができる。具体的には、文章作成装置30は、インターネット3を介して収集した任意の事象に関する投稿文章群の各投稿文を解析し、投稿文に含まれる単語を出現頻度で順位付けする文章解析部と、文章解析部で得られた単語の順位データに基づいて投稿文章群に関する短文を作成する文章作成部を備えた構成とすることができる。
2 学習部
3 インターネット
10 データ生成装置
11 モデル
12 分かち書き処理部
13 かな変換部
14 数字変換部
20 音声合成装置
30 文章作成装置
50、51 音声合成システム
Claims (8)
- テキストデータと該テキストデータに韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理部を備え、
前記情報付与データの少なくとも一部には音韻情報も付与されており、前記データ処理部は、韻律情報と音韻情報を含む音声合成用データも生成する音声合成用データ生成装置。 - 前記音声合成用データは、特定の単語のみ音韻情報が付与されている請求項1に記載の音声合成用データ生成装置。
- 前記データ処理部には、更に、入力文章を単語毎に区切る分かち書き処理部、難読漢字をひらがなに置き換えるかな変換部及び単語を数字に置き換える数字変換部のうち少なくとも1種が設けられている請求項1又は2に記載の音声合成用データ生成装置。
- テキストデータと該テキストデータに韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理工程を有し、
前記情報付与データの少なくとも一部には音韻情報も付与されており、前記データ処理工程では、韻律情報と音韻情報を含む音声合成用データも生成する音声合成用データ生成方法。 - 前記データ処理工程では、特定の単語のみ音韻情報が付与された音声合成用データを生成する請求項4に記載の音声合成用データ生成方法。
- 前記データ処理工程の前に、入力文章を単語毎に区切る分かち書き処理工程、難読漢字をひらがなに置き換えるかな変換工程及び単語を数字に置き換える数字変換工程のうち少なくとも1つの工程を行う請求項4又は5に記載の音声合成用データ生成装置。
- 請求項1~3のいずれか1項に記載のデータ生成装置と、
前記データ生成装置で生成した音声合成用データを用いて音声を合成する音声合成装置と、
を有する音声合成システム。 - インターネットを介して収集したテキストデータから任意の文章を作成する文章作成装置を更に有し、
前記文章作成装置で作成した文章が前記音声合成用データ生成装置に入力される請求項7に記載の音声合成システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018004811 | 2018-01-16 | ||
JP2018004811 | 2018-01-16 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019124940A JP2019124940A (ja) | 2019-07-25 |
JP2019124940A5 JP2019124940A5 (ja) | 2021-08-05 |
JP6998017B2 true JP6998017B2 (ja) | 2022-01-18 |
Family
ID=67398661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019004974A Active JP6998017B2 (ja) | 2018-01-16 | 2019-01-16 | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6998017B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7012935B1 (ja) * | 2021-06-30 | 2022-02-14 | 株式会社CoeFont | プログラム、情報処理装置、方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008114453A1 (ja) | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム |
US20100042410A1 (en) | 2008-08-12 | 2010-02-18 | Stephens Jr James H | Training And Applying Prosody Models |
-
2019
- 2019-01-16 JP JP2019004974A patent/JP6998017B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008114453A1 (ja) | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム |
US20100042410A1 (en) | 2008-08-12 | 2010-02-18 | Stephens Jr James H | Training And Applying Prosody Models |
Also Published As
Publication number | Publication date |
---|---|
JP2019124940A (ja) | 2019-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6029132A (en) | Method for letter-to-sound in text-to-speech synthesis | |
El-Imam | Phonetization of Arabic: rules and algorithms | |
US20070255567A1 (en) | System and method for generating a pronunciation dictionary | |
EP1668628A1 (en) | Method for synthesizing speech | |
US6477495B1 (en) | Speech synthesis system and prosodic control method in the speech synthesis system | |
JPH11344990A (ja) | 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置 | |
CN112818089B (zh) | 文本注音方法、电子设备及存储介质 | |
JP5231698B2 (ja) | 日本語の表意文字の読み方を予測する方法 | |
JP2019109278A (ja) | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 | |
JP2006243673A (ja) | データ検索装置および方法 | |
JP6998017B2 (ja) | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム | |
JP5611270B2 (ja) | 単語分割装置、及び単語分割方法 | |
Raghavendra et al. | A multilingual screen reader in Indian languages | |
JP3706758B2 (ja) | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 | |
Safarik et al. | Unified approach to development of ASR systems for East Slavic languages | |
Thatphithakkul et al. | LOTUS-BI: A Thai-English code-mixing speech corpus | |
Praveen et al. | Phoneme based Kannada Speech Corpus for Automatic Speech Recognition System | |
Akinwonmi | Development of a prosodic read speech syllabic corpus of the Yoruba language | |
Sečujski et al. | An overview of the AlfaNum text-to-speech synthesis system | |
Dika et al. | The principles of designing of algorithm for speech synthesis from texts written in Albanian language | |
Hendessi et al. | A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM | |
JP5125404B2 (ja) | 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 | |
Phaiboon et al. | Isarn Dharma Alphabets lexicon for natural language processing | |
CN113077792B (zh) | 佛学主题词识别方法、装置、设备及存储介质 | |
JPH03245192A (ja) | 外国語単語の発音決定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210625 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210625 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6998017 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |