JP6170384B2 - 音声データベース生成システム、音声データベース生成方法、及びプログラム - Google Patents
音声データベース生成システム、音声データベース生成方法、及びプログラム Download PDFInfo
- Publication number
- JP6170384B2 JP6170384B2 JP2013186498A JP2013186498A JP6170384B2 JP 6170384 B2 JP6170384 B2 JP 6170384B2 JP 2013186498 A JP2013186498 A JP 2013186498A JP 2013186498 A JP2013186498 A JP 2013186498A JP 6170384 B2 JP6170384 B2 JP 6170384B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- text
- unit
- specific user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
図1Aは、本発明の実施形態によるユーザ音声DB作成装置の概略構成例を示す図である。
当該ユーザ音声DB作成装置100は、記憶装置101と、音声入力I/F(インタフェース)102と、CPU103と、主記憶装置であるメモリ104と、スピーカーに接続するための音声出力I/F105と、テキスト提示I/F106と、を有し、これらの構成部はバス107によって相互に接続されている。
図1C乃至1Eはそれぞれ、ユーザ音声DB作成機能と音声合成機能を有するシステムの概略構成例を示す図である。図1A或いは1Bによるユーザ音声DB作成装置で作成した音声DBを使って音声合成するためには、音声合成の機能を実現するハードウェア(音声合成装置)から、ユーザ音声DBを格納する記憶装置にアクセスできなければならない。図1C乃至1Eは、そのためのいくつかの形態を示している。
メモリ104、1103、104−1、及び104−2は、CPU103等のワークエリアとして使用される。
図2は、ユーザ音声DB作成装置の機能構成を示す図である。
図2に示すように、ユーザ音声DB作成装置100−1は、テキスト提示部(テキスト提示プログラム)201と、音声収録部(音声収録プログラム)202と、DB初期化部(DB初期化プログラム)203と、DB更新部(DB更新プログラム)204と、テキスト生成部(テキスト生成プログラム)205と、を機能として有している。以下、それぞれについて詳細に説明する。
図4は、音声収録部202で実行される処理を説明するための図である。音声収録部202は、音声入力インタフェース2021を有し、マイクロフォンなどの音声からデジタル信号に変換する。当該音声収録部202を用いてユーザの発話を録音し、システム(ユーザ音声DB作成装置)に音声波形を入力する。
図5は、DB初期化部203で実行される処理を説明するための図である。
初回の処理時には、音声収録部202から出力された音声が、DB初期化部203に入力される。DB初期化部203は、話者音声評価処理2031を実行する。この話者音声評価処理2031では、音声収録部202からの入力音声を用いて話者声質が評価(例えば、声紋等の音声の特徴量を評価)され、事前に用意した複数の音声DB(1)〜(N)の中から、最もユーザの声質に似たDBが選ばれる。話者音質評価処理2031によって選択された既存話者DB2032が初期音声DB206として設定される。なお、話者声質評価のための技術については、すでに複数の手法が提案されていて、例えば、特開2012−141354号公報や特開2012−141354号公報等に開示されている技術がある。ここで、さらにユーザの声に似させるために、音質変更処理(モーフィング)2033を実行しても良い。音質変換処理を実行する場合、異なる話者からの音声素片を接続するときに起きやすい音声の不連続現象を抑えることも可能である。具体的には、例えば、特開2011−53404号公報や特開2011−53404号公報等に開示されている手法を用いて、選択されたDBに含まれるすべての音声素片を音質変更し、話者の声質に近づけることができる。ただし、この変質変換処理(モーフィング)2033は音質向上させるためのものであり、必須の処理ではない。
図6は、音声合成装置100−2で実行される処理を説明するための図である。図6による形態では、音声合成装置100−2は、ユーザ音声DB作成装置100−1とは独立しており、ユーザ音声DB作成装置100−1で作成された音声DBを用いて、音声合成処理を実行する。以下、音声合成装置による処理(機能)について簡単に説明する。
DB更新部204は、既存音声DB206に格納されている音声素片をユーザ(話者)の音声から生成された音声素片で置き換える処理を行うが、基となるユーザ音声は、自然な状態で行われる会話から抽出された音声であっても良いし、既存DBを更新するために意図的に読み上げて入力された音声であっても良い。
DB更新部204は、音声素片作成処理において、入力された音声波形に対して、素片単位(音素単位や音節単位が一般的に使われる)に自動セグメンテーションや自動ラベリングなど(例えば、特開平6−266389号公報参照)を行い、ユーザ声のラベル付き音声素片2042を作成する。音声素片作成処理2041では、音声を切り出すセグメンテーション処理と、切り出された音声波形にラベルを付与するラベリング処理が実行される。その後、生成されたラベル付き音声素片が、素片置き換え処理に用いられる。例えば、音声収録部202から入力されている音声「こんにちは」(白色)を、音声素片作成処理によって、/コ//ン//ニ//チ//ワ/と5つの音素単位(この例では音素単位にしているが、音節単位や半音素単位、フレーム単位など音声合成に用いられる素片単位も用いることが可能である)の音声波形(音声断片)に切り分けられた後、それぞれの音声波形にラベルが自動付与される。例えば、この例では五つの音声波形にそれぞれ“コ”“ン”“ニ”“チ”“ワ”と音素表記だけのラベルがつけられている。ラベルには、音素の種類を示す音素表記、前後の音韻環境を示す先行・後続音素表記、該当音素が文、フレーズ、ワードに占める位置などのコンテキスト情報、音声波形から抽出される基本周波数(以降、F0)、継続長、パワーなどの韻律情報、音声波形から抽出されケプストラムなどの音韻情報などが考えられる。
図8は、テキスト生成部205の処理(機能)を説明するための図である。
テキスト生成部205は、テキスト評価ルール2051に基づいて、予め用意されているテキストコーパス801に格納されているテキストの中から最も評価の高いテキストを選択するテキスト評価処理2052を実行し、テキスト提示部201によって次に提示すべきテキスト(収録用テキスト)2053を生成する。
図9は、ユーザ音声DB作成装置で実行される処理の全体的概要を示す図である。
図9に示されるように、ユーザ音声DB作成装置100では、初回の処理(既存DBの選択(初期化処理903))以降、テキストを話者(ユーザ)に提示するテキスト提示処理901と、音声収録処理902と、DB更新処理904と、テキスト評価処理905と、テキスト生成処理906が繰り返される。なお、各処理の詳細については既に説明したので、ここでは再度説明しない。
本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
100−2・・・音声合成装置
101、101−1、101−2、1105・・・記憶装置
102、102−1、102−2、1110−1、1110−2・・・音声入力インタフェース
103、103−1、103−2、1102、1108−1、1108−2・・・CPU
104、104−1、104−2、1103、1109−1、1109−2・・・メモリ
105、105−1、105−2、1112−1、1112−2・・・音声出力インタフェース
106、1113−1、1113−2・・・テキスト提示インタフェース
107、107−1、107−2、1107、1118−1、1118−2・・・バス
108・・・データ出力装置
109・・・データ入力装置
111−1、111−2、1104、1111−1、1111−2・・・通信インタフェース
1101・・・サーバ
1106・・・ネットワーク
1107−1、1107−2・・・端末
Claims (11)
- 音声合成処理に用いる音声データベースを生成する音声データベース生成システムであって、
それぞれ音質が異なる、複数の既存音声データベースと、
前記複数の既存音声データベースから1つの既存音声データベースを選択し、特定ユーザ用の音声データベースを生成するための処理を実行するプロセッサと、を有し、
前記プロセッサは、
第1のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、前記特定ユーザの声質に最も近い既存音声データベースを選択する処理と、
前記第1のテキストとは異なる第2のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新する処理と、
を実行することを特徴とする音声データベース生成システム。 - 請求項1において、
さらに、複数のテキストコーパスを格納するテキストコーパス記憶部を有し、
前記プロセッサは、予め設定されたテキスト評価ルールに従って、前記テキストコーパス記憶部に格納されている前記複数のテキストコーパスのうち何れのテキストコーパスが最も効率よく前記既存音声データベースの音声素片を置き換えることができるかを評価することにより、前記特定ユーザに提示すべき前記第2のテキストを生成する処理を実行することを特徴とする音声データベース生成システム。 - 請求項2において、
前記プロセッサは、前記選択された既存音声データベースを用いて前記第2のテキストに対して音声合成処理を実行して置き換え候補となるラベル付き音声素片を生成する処理を実行し、
前記音声データベースを更新する処理において、前記プロセッサは、前記特定ユーザのラベル付き音声素片によって前記置き換え候補となるラベル付き音声素片を置き換えることを特徴とする音声データベース生成システム。 - 請求項2において、
前記音声データベースを更新する処理において、前記プロセッサは、前記特定ユーザのラベル付き音声素片について、置き換え対象の音声素片の音素表記だけでなく、当該置き換え対象の音声素片に先行する音声素片及び後続する音声素片の音素表記をも比較し、前記先行音声素片、前記置き換え対象の音声素片、及び前記後続する音声素片の全ての音素表記が一致した場合のみ、前記置き換え対象の音声素片で前記選択された既存音声データベースの音声素片を置き換えることを特徴とする音声データベース生成システム。 - 請求項2において、
前記プロセッサは、さらに、
前記特定ユーザによって入力された音声に対して音声認識処理又は/及びアクセント抽出処理を実行することにより、前記特定ユーザによって入力された音声が前記第1又は第2のテキストの通りに読み上げられたか否かを判定する発話正確度判定処理と、
前記発話正確度判定処理の判定結果が予め設定された所定の条件を満たさない場合に前記第1又は第2のテキストを再度読み上げるように前記特定ユーザに要求する処理と、
を実行することを特徴とする音声データベース生成システム。 - 音声合成処理に用いる音声データベースを生成する音声データベース生成方法であって、
プロセッサが、第1のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、予め用意され、それぞれ音質が異なる、複数の既存音声データベースの中から前記特定ユーザの声質に最も近い既存音声データベースを選択するステップと、
前記プロセッサが、前記第1のテキストとは異なる第2のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新するステップと、
を含むことを特徴とする音声データベース生成方法。 - 請求項6において、さらに、
前記プロセッサが、予め設定されたテキスト評価ルールに従って、予め用意されたテキストコーパス記憶部に格納されている複数のテキストコーパスのうち何れのテキストコーパスが最も効率よく前記既存音声データベースの音声素片を置き換えることができるかを評価することにより、前記特定ユーザに提示すべき前記第2のテキストを生成するステップを含むことを特徴とする音声データベース生成方法。 - 請求項7において、
さらに、前記プロセッサが、前記選択された既存音声データベースを用いて前記第2のテキストに対して音声合成処理を実行して置き換え候補となるラベル付き音声素片を生成するステップを含み、
前記音声データベースを更新するステップにおいて、前記プロセッサは、前記特定ユーザのラベル付き音声素片によって前記置き換え候補となるラベル付き音声素片を置き換えることを特徴とする音声データベース生成方法。 - 請求項7において、
前記音声データベースを更新するステップにおいて、前記プロセッサは、前記特定ユーザのラベル付き音声素片について、置き換え対象の音声素片の音素表記だけでなく、当該置き換え対象の音声素片に先行する音声素片及び後続する音声素片の音素表記をも比較し、前記先行音声素片、前記置き換え対象の音声素片、及び前記後続する音声素片の全ての音素表記が一致した場合のみ、前記置き換え対象の音声素片で前記選択された既存音声データベースの音声素片を置き換えることを特徴とする音声データベース生成方法。 - 請求項7において、さらに、
前記プロセッサが、前記特定ユーザによって入力された音声に対して音声認識処理又は/及びアクセント抽出処理を実行することにより、前記特定ユーザによって入力された音声が前記第1又は第2のテキストの通りに読み上げられたか否かを判定する発話正確度判定ステップと、
前記プロセッサが、前記発話正確度判定ステップにおける判定結果が予め設定された所定の条件を満たさない場合に前記第1又は第2のテキストを再度読み上げるように前記特定ユーザに要求するステップと、
を含むことを特徴とする音声データベース生成方法。 - 音声合成処理に用いる音声データベースを生成するためのプログラムであって、
コンピュータに、
第1のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、予め用意され、それぞれ音質が異なる、複数の既存音声データベースの中から前記特定ユーザの声質に最も近い既存音声データベースを選択する処理と、
前記第1のテキストとは異なる第2のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新する処理と、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013186498A JP6170384B2 (ja) | 2013-09-09 | 2013-09-09 | 音声データベース生成システム、音声データベース生成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013186498A JP6170384B2 (ja) | 2013-09-09 | 2013-09-09 | 音声データベース生成システム、音声データベース生成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015052748A JP2015052748A (ja) | 2015-03-19 |
JP6170384B2 true JP6170384B2 (ja) | 2017-07-26 |
Family
ID=52701792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013186498A Active JP6170384B2 (ja) | 2013-09-09 | 2013-09-09 | 音声データベース生成システム、音声データベース生成方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6170384B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971009B (zh) * | 2017-05-11 | 2020-05-22 | 网易(杭州)网络有限公司 | 语音数据库生成方法及装置、存储介质、电子设备 |
CN108877765A (zh) * | 2018-05-31 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音拼接合成的处理方法及装置、计算机设备及可读介质 |
CN113742517B (zh) * | 2021-08-11 | 2022-09-27 | 北京百度网讯科技有限公司 | 语音包的生成方法、装置、电子设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132287A (ja) * | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
JP3960928B2 (ja) * | 2003-02-14 | 2007-08-15 | 日本電信電話株式会社 | テキスト選択方法、装置及びプログラム |
JP4564416B2 (ja) * | 2005-07-13 | 2010-10-20 | 日本放送協会 | 音声合成装置および音声合成プログラム |
JP2007322835A (ja) * | 2006-06-01 | 2007-12-13 | Oki Electric Ind Co Ltd | 音声データベースおよび音声合成装置 |
US8510112B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
JP5155836B2 (ja) * | 2008-12-02 | 2013-03-06 | 日本電信電話株式会社 | 収録テキスト生成装置、その方法、そのプログラム |
JP2013007879A (ja) * | 2011-06-24 | 2013-01-10 | Panasonic Corp | 車載電子装置 |
-
2013
- 2013-09-09 JP JP2013186498A patent/JP6170384B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015052748A (ja) | 2015-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
TWI721268B (zh) | 用於語音合成的系統和方法 | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
US20190130894A1 (en) | Text-based insertion and replacement in audio narration | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
EP2595143A1 (en) | Text to speech synthesis for texts with foreign language inclusions | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
US9508338B1 (en) | Inserting breath sounds into text-to-speech output | |
US20130325477A1 (en) | Speech synthesis system, speech synthesis method and speech synthesis program | |
US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
WO2012164835A1 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2020060642A (ja) | 音声合成システム、及び音声合成装置 | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP2011197542A (ja) | 韻律パターン生成装置 | |
JP2013195928A (ja) | 音声素片切出装置 | |
JP2018041116A (ja) | 音声合成装置、音声合成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160404 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6170384 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |