JP6170384B2 - 音声データベース生成システム、音声データベース生成方法、及びプログラム - Google Patents

音声データベース生成システム、音声データベース生成方法、及びプログラム Download PDF

Info

Publication number
JP6170384B2
JP6170384B2 JP2013186498A JP2013186498A JP6170384B2 JP 6170384 B2 JP6170384 B2 JP 6170384B2 JP 2013186498 A JP2013186498 A JP 2013186498A JP 2013186498 A JP2013186498 A JP 2013186498A JP 6170384 B2 JP6170384 B2 JP 6170384B2
Authority
JP
Japan
Prior art keywords
speech
voice
text
unit
specific user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013186498A
Other languages
English (en)
Other versions
JP2015052748A (ja
Inventor
慶華 孫
慶華 孫
永松 健司
健司 永松
竹雄 森
竹雄 森
孝則 貴堂
孝則 貴堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Technology Ltd
Original Assignee
Hitachi ULSI Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi ULSI Systems Co Ltd filed Critical Hitachi ULSI Systems Co Ltd
Priority to JP2013186498A priority Critical patent/JP6170384B2/ja
Publication of JP2015052748A publication Critical patent/JP2015052748A/ja
Application granted granted Critical
Publication of JP6170384B2 publication Critical patent/JP6170384B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声データベース生成システム、方法、及びプログラムに関し、例えば、特定話者(ユーザ)の声で音声合成を実現するための音声データベースを生成する技術に関するものである。
近年、生活の多くの場面で音声合成処理された音声を耳にする機会が増えている。波形接続方式の導入などにより、音質的にもかなり改善が進んでおり、車載用ナビゲーション装置、公共施設における自動放送装置、メール読み上げ装置、自動通訳システムなど、音声を用いて自動的に情報を提供するサービスが広く普及している。
音声合成技術は大きく、波形接続方式とパラメータ合成方式に分類される。波形接続方式の音声合成では、録音した音声をそのまま用いるため、肉声感が高いが、大量な音声データが必要のため、データサイズが大きい。一方、HMM(Hidden Markov Model)を代表としたパラメータ合成手法では、大量の肉声の蓄積を必要としないので、データサイズが非常に小さいが、合成した有声音の肉声感が低い。
近年、自分の声(親族の声など)で音声を合成したいというニーズが高まっている。これに応えるために、既にいくつかの手法がすでに提案されている。例えば、特許文献1には、少量のユーザ音声を用いて、複数話者から学習した平均声パラメータを変形することにより、ユーザの声を近づける手法が提案されている。
特表2004−522186号公報
しかしながら、特許文献1に開示されているような手法を用いる場合、パラメータ音声合成に特有な機械音となるため、音質が悪い。また、この手法は、パラメータ全体をユーザの音声にシフトしていくため、音質の劣化が顕著となる。
一方、より音質の高い波形接続方式を用いた場合、ユーザの声から音声データベース(以降、DBとする)を作成するために、予め少なくとも80文章以上の音声収録が必要である。これはユーザにとって非常に負担が大きい。特に、従来の手法では、80文章がすべて揃わなければ、音声合成ができないため、手軽に作成することが難しい。より高音質の音声合成を実現するために、数時間から数十時間の音声が必要となるため、ユーザの声で音声合成を実現するため、膨大な労力が必要となる。さらに、発声について素人であるユーザが80以上もの文章を適切に読み上げるのは困難であり、ユーザへの負担が過大となってしまう。
本発明はこのような状況に鑑みてなされたものであり、ユーザへの負担を減らし、高品質で話者(ユーザ)の音質に近い音声データベース(DB)を提供するものである。
上記課題を解決するために、本発明では、プロセッサは、第1のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、予め用意され、それぞれ音質が異なる、複数の既存音声データベースの中から特定ユーザの声質に最も近い既存音声データベースを選択する。また、プロセッサは、第1のテキストとは異なる第2のテキストを特定ユーザが読み上げることにより入力された音声を用いて特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、選択された既存音声データベースの音声素片を特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新する。
なお、本発明では、素片置き換えの基準として、コンテキストや素片の音韻・韻律特徴を用いている。また、読み上げテキストの生成に用いる基準は、置き換えられる素片の数や置き換えられる素片の重要度(使用頻度など)を用いるようにしても良い。
この構成では、ごく少量の発話(1単語や1文から)から、ユーザに近い既存話者音声データベースを選択し、ユーザに似た音声データベースを初期化してから、少しずつ録音を蓄積していくと、ユーザの声から作成した音声素片と、音声データベースに入っていた既存話者の音声素片と置き換えることによって、合成音声が段々とユーザの声に近づけることができる。
本発明によれば、合成音声の高品質を維持しながら、少量の録音データからユーザの声に似た音声合成が実現でき、録音のデータを増やせば増やすほど、合成音声がユーザの声に近づいていくという効果を期待することができる。
本発明の実施形態によるユーザ音声DB作成装置のハードウェア概略構成を示すブロック図(1)である。 本発明の実施形態によるユーザ音声DB作成装置のハードウェア概略構成を示すブロック図(2)である。 本発明の実施形態によるユーザ音声DB作成装置及び音声合成装置のハードウェア概略構成を示すブロック図(1)である。 本発明の実施形態によるユーザ音声DB作成装置及び音声合成装置のハードウェア概略構成を示すブロック図(2)である。 本発明の実施形態によるユーザ音声DB作成装置及び音声合成装置のハードウェア概略構成を示すブロック図(3)である。 ユーザ音声DB作成装置の機能的構成を示すブロック図である。 テキスト提示の仕方の例を示す図である。 ユーザ音声DB作成装置の音声収録部の機能的構成を示すブロック図である。 ユーザ音声DB作成装置のDB初期化部の機能的構成を示すブロック図である。 音声合成装置の機能的構成を示すブロック図である。 ユーザ音声DB作成装置のDB更新部の機能的構成(1)を示すブロック図である。 素片間距離評価尺度(評価ルール)に用いることができるコンテキストの例を示す図である。 ユーザ音声DB作成装置のDB更新部の機能的構成(2)を示すブロック図である。 ユーザ音声DB作成装置のテキスト生成部の機能的構成を示すブロック図である。 ユーザ音声DB作成装置で実行される全体的な処理動作を説明するためのフローチャートである。
本発明による実施形態では、波形接続方式の音声合成において、用いる音声データベース(以降、音声DBとする)を目標話者(以降、ユーザとする)の音声に近づけるために、まず、ユーザに録音用テキストを提示し、ユーザの声を収録する。そして、初回のみユーザの声を評価し、事前に用意されている複数の音声DBから、最もユーザの声に似ている音声DB(既存音声DB)を選択する。それ以降、ユーザの発話から取得された音声に基づいて音声素片を作成し、ユーザの音声素片と既存話者の音声素片(既存音声DBの音声素片)と置き換えることで、合成音声が既存話者の声質からユーザの音声に変化する。さらに、次の読み上げ用テキストを生成するために、大量テキストコーパスから、最も効率よく素片を置き換えられるように自動生成することで、素片の置き換えが効率よく行うことができる。
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明することもあるが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
<ユーザ音声DB作成装置の構成>
図1Aは、本発明の実施形態によるユーザ音声DB作成装置の概略構成例を示す図である。
当該ユーザ音声DB作成装置100は、記憶装置101と、音声入力I/F(インタフェース)102と、CPU103と、主記憶装置であるメモリ104と、スピーカーに接続するための音声出力I/F105と、テキスト提示I/F106と、を有し、これらの構成部はバス107によって相互に接続されている。
ユーザ音声DB作成装置100は、例えば、カーナビゲーション装置、携帯電話機、パーソナルコンピュータ等のデバイスに、ユーザ音声DB作成ユニットとして組み込まれている。そのため、図1に示した各ハードウェアは、ユーザ音声DB作成装置が組み込まれたデバイスの構成を用いて実現しても良いし、ユーザ音声DB作成装置が組み込まれたデバイスとは別個に設けられていても良い。
ユーザ音声DB作成にすべての機能を一つのデバイスだけで実現しても良いが、図1Bに示す変形例のように、ユーザインタフェース(音声入力I/F1110−1及び1110−2・・・、通信I/F1111−1及び1111−2・・・、音声出力I/F1112−1及び1112−2・・・、テキスト提示I/F1113−1及び1113−2・・・)を端末側のデバイスに設け、後述する「素片作成部」、「DB初期化部」、「DB更新部」などの機能の全部もしくは一部を実現するハードウェアをサーバ1101に設け、その間に通信I/F1104、1111−1及び1111−2・・・によって相互に接続されている場合も考えられる。
<ユーザ音声DB作成機能と音声合成機能を有する音声処理システムの構成>
図1C乃至1Eはそれぞれ、ユーザ音声DB作成機能と音声合成機能を有するシステムの概略構成例を示す図である。図1A或いは1Bによるユーザ音声DB作成装置で作成した音声DBを使って音声合成するためには、音声合成の機能を実現するハードウェア(音声合成装置)から、ユーザ音声DBを格納する記憶装置にアクセスできなければならない。図1C乃至1Eは、そのためのいくつかの形態を示している。
図1Cは、同じデバイス(ハードウェア(コンピュータ装置))でユーザ音声DB作成装置と音声合成装置を実現する場合であり、音声合成装置は直接に記憶装置に格納されているユーザ音声DB作成装置で作成した音声DBをアクセスできる。
図1Dは、ユーザ音声DB作成装置と音声合成装置を別々のデバイスで構成し、音声処理システムを実現する形態を示している。当該システムでは、データ入・出力装置を用いて、データの受け渡しを行う。ここで、データ入・出力装置とは、DVD、CD、USBメモリなどの移動データ記録媒体を書き込み・読み込みできるデバイスのことである。
図1Eも、ユーザ音声DB作成装置と音声合成装置を別々のデバイスで構成し、音声処理システムを実現する形態を示している。図1Eによるシステムでは、音声合成装置100−2は通信I/F111−1、111−2及びネットワーク1106を経由して、記憶装置に格納されているユーザ音声DB作成装置100−1で作成した音声DBにアクセスできるようになっている。
図1A乃至Eにおいて、ユーザ音声DB作成装置や音声合成装置のCPU103、1102、103−1、及び103−2はそれぞれ、ユーザ音声DB作成装置や音声合成装置の全体の制御を司る。
メモリ104、1103、104−1、及び104−2は、CPU103等のワークエリアとして使用される。
記憶装置101、1105、101−1、及び101−2は、不揮発性の記憶媒体であり、具体的には、例えば、HDD(ハードディスク)、FD(フレキシブルディスク)、フラッシュメモリ等を用いることができる。当該記憶装置には、例えば、後記する音質評価プログラムや素片置き換えプログラム等の各種プログラム、音声合成用既存音声データベース等の各種データが記録される。
音声入力I/F102、102−1、1110−1、1110−2・・・は、マイクロフォンなどの音声入力装置(不図示)を接続するインタフェースであり、入力装置から音声の入力を受け付ける。
音声出力I/F105、1112−1、1112−2、105−1、及び105−2は、スピーカーなどの音声出力装置(不図示)を接続するインタフェースである。
通信I/F1104、1111−1、1111−2、111−1、及び111−2は、装置の間にデータを交換する(通信する)ためのハードウェアである。例えば、有線LANカード、無線LANカード、モデムなどが考えられる。
テキスト提示I/F106、1113−1、1113−2は、パソコンモニターや携帯画面など、テキストを表示できる装置である。音声でテキストをユーザに提示する場合、テキスト提示I/Fは音声出力I/Fで代用(併用)することも可能である。
<ユーザ音声DB作成装置の機能的構成の概要>
図2は、ユーザ音声DB作成装置の機能構成を示す図である。
図2に示すように、ユーザ音声DB作成装置100−1は、テキスト提示部(テキスト提示プログラム)201と、音声収録部(音声収録プログラム)202と、DB初期化部(DB初期化プログラム)203と、DB更新部(DB更新プログラム)204と、テキスト生成部(テキスト生成プログラム)205と、を機能として有している。以下、それぞれについて詳細に説明する。
テキスト提示部201は、ユーザが発話すべきテキストを提示するインタフェースであり、例えば、パソコンのモニタ、携帯画面などの画面表示装置や、スピーカーはヘッドフォンなどの音声再生装置などである。テキストを正しく読ませるために、テキストのみではなく、その読み方まで提示すると、より良い(システムにとって)発話が得られる。例えば、画面にテキストに一緒に読み情報やアクセント情報などを同時に提示する。もしくは、テキストを音声に変換して、サンプル音声を提供する。なお、画面と音声と組み合わせて提示することもできる。図3A乃至Eには、いくつかのテキスト提示の例が示されている。
例えば、図3Aは、画面に読み上げテキスト(文字列)「これは日立の合成音声です。」のみを画面に表示し、ユーザに読み上げるべきテキストを提示する例を示している。図3Bは、画面に読み上げテキスト(文字列)「これは日立の合成音声です。」を表示するとともに、テキストの読み情報(日本語の場合、ふりがな、ローマ字など)もユーザに提示する例を示している。図3Cは、画面に読み上げテキスト(文字列)「これは日立の合成音声です。」を表示するとともに、テキストの読み情報と韻律情報(アクセント記号やイントネーション記号など)もユーザに提示する例を示している。図3Dは、音声出力I/F(スピーカー)から、読み上げテキストの音声(のみ)を再生してユーザに提示する例を示している。この場合、読み情報と韻律情報と、同時に提示することが可能となるため、ユーザがより正しく発話されることが期待できる。しかし、音声の揮発性を考えると、長い文章を覚えられない可能性もあるので、図3Eで示したように、画面と音声を併用してユーザに提示したほうが、より高い品質の発話音声が得られると期待できる。
<音声収録部の詳細>
図4は、音声収録部202で実行される処理を説明するための図である。音声収録部202は、音声入力インタフェース2021を有し、マイクロフォンなどの音声からデジタル信号に変換する。当該音声収録部202を用いてユーザの発話を録音し、システム(ユーザ音声DB作成装置)に音声波形を入力する。
ここで、より高品質な音声DBを作成するためには、発話正確度判別処理2022を実行しても良いが、必須の処理ではない。発話正確度判別処理2022は、ユーザの発話した音声が提示したテキスト(読み情報や韻律情報も考慮)通りに読み上げられているかどうかを判別する処理である。例えば、読み間違いがあるかどうか(例えば、読み上げられたテキストを音声認識して得られた結果(認識結果:テキスト)が読み上げられたテキストと異なっているか判定することにより読み間違いを検出する)、提示したアクセントと同じかどうか(例えば、読み上げられたテキストの音声データからアクセントを抽出し、アクセントの正誤を判定する)、雑音が入っているかどうか、ポーズの位置があっているかどうかなどをチェックし、要求(予め設定された閾値)を満たしていない音声について、テキスト提示部201に指示を送り、ユーザに再読み上げを要求する(処理2023)。ただし、この発話正確度判別処理2022のチェックが厳しくなると、ユーザが複数回に発話しなければならなく、大きな負担がかかるため、閾値を低く設定したほうが良い。
そして、DB初期化部203は、初回の処理時のみ、ユーザによって入力された音声(音声収録部202によって取得された音声)に基づいて既存DBを選択し、それを使用する音声DB206として登録する。当該DB初期化部203の詳細については、さらに図5を参照して説明する。
一方、次回処理時からは、DB更新部204が、ユーザによって入力された音声から音声DB(選択された既存DB)206を順次更新していくことになる。当該DB更新部204の詳細については、さらに図6を参照して説明する。
<DB初期化部の詳細>
図5は、DB初期化部203で実行される処理を説明するための図である。
初回の処理時には、音声収録部202から出力された音声が、DB初期化部203に入力される。DB初期化部203は、話者音声評価処理2031を実行する。この話者音声評価処理2031では、音声収録部202からの入力音声を用いて話者声質が評価(例えば、声紋等の音声の特徴量を評価)され、事前に用意した複数の音声DB(1)〜(N)の中から、最もユーザの声質に似たDBが選ばれる。話者音質評価処理2031によって選択された既存話者DB2032が初期音声DB206として設定される。なお、話者声質評価のための技術については、すでに複数の手法が提案されていて、例えば、特開2012−141354号公報や特開2012−141354号公報等に開示されている技術がある。ここで、さらにユーザの声に似させるために、音質変更処理(モーフィング)2033を実行しても良い。音質変換処理を実行する場合、異なる話者からの音声素片を接続するときに起きやすい音声の不連続現象を抑えることも可能である。具体的には、例えば、特開2011−53404号公報や特開2011−53404号公報等に開示されている手法を用いて、選択されたDBに含まれるすべての音声素片を音質変更し、話者の声質に近づけることができる。ただし、この変質変換処理(モーフィング)2033は音質向上させるためのものであり、必須の処理ではない。
<音声合成処理>
図6は、音声合成装置100−2で実行される処理を説明するための図である。図6による形態では、音声合成装置100−2は、ユーザ音声DB作成装置100−1とは独立しており、ユーザ音声DB作成装置100−1で作成された音声DBを用いて、音声合成処理を実行する。以下、音声合成装置による処理(機能)について簡単に説明する。
音声合成装置100−2は、テキスト解析処理601と、素片選択処理603と、波形接続処理605を実行し、波形接続音声合成方式により、テキストから音声に変換する。
まず、テキスト解析処理601では、入力テキストから、読みやアクセントなどの言語情報が解析され、「中間言語」と呼ばれる発音記号列(602)が生成される。なお、中間言語が直接入力される場合には、テキスト解析処理は不要となる。
素片選択処理603では、入力される中間言語をもとに、音声DB(初回はDB初期化部で生成され、それ以降DB更新部で更新される)206から、最も良い音声素片の系列604が選択される。
最後に、波形接続処理605では、素片選択処理603によって選択された音声波形(音声素片604)がつなぎ合わせられて、合成音声606が出力される。
<DB更新部の詳細>
DB更新部204は、既存音声DB206に格納されている音声素片をユーザ(話者)の音声から生成された音声素片で置き換える処理を行うが、基となるユーザ音声は、自然な状態で行われる会話から抽出された音声であっても良いし、既存DBを更新するために意図的に読み上げて入力された音声であっても良い。
図7Aは、DB更新部204の処理内容の一形態を示す図である。DB更新部204は、音声素片作成処理2041と、素片置き換え処理2044を実行する。
まず、DB更新部204は、音声収録部202によって収録された音声を受信する。
DB更新部204は、音声素片作成処理において、入力された音声波形に対して、素片単位(音素単位や音節単位が一般的に使われる)に自動セグメンテーションや自動ラベリングなど(例えば、特開平6−266389号公報参照)を行い、ユーザ声のラベル付き音声素片2042を作成する。音声素片作成処理2041では、音声を切り出すセグメンテーション処理と、切り出された音声波形にラベルを付与するラベリング処理が実行される。その後、生成されたラベル付き音声素片が、素片置き換え処理に用いられる。例えば、音声収録部202から入力されている音声「こんにちは」(白色)を、音声素片作成処理によって、/コ//ン//ニ//チ//ワ/と5つの音素単位(この例では音素単位にしているが、音節単位や半音素単位、フレーム単位など音声合成に用いられる素片単位も用いることが可能である)の音声波形(音声断片)に切り分けられた後、それぞれの音声波形にラベルが自動付与される。例えば、この例では五つの音声波形にそれぞれ“コ”“ン”“ニ”“チ”“ワ”と音素表記だけのラベルがつけられている。ラベルには、音素の種類を示す音素表記、前後の音韻環境を示す先行・後続音素表記、該当音素が文、フレーズ、ワードに占める位置などのコンテキスト情報、音声波形から抽出される基本周波数(以降、F0)、継続長、パワーなどの韻律情報、音声波形から抽出されケプストラムなどの音韻情報などが考えられる。
DB更新処理部204は、素片置き換え処理2044によって、ユーザの音声素片で音声DB206に含まれている従来話者の音声素片を置き換える。この処理を継続していくことにより、音声DB206に含まれるユーザ声の音声素片の比率を増やすことができる。より具体的に、素片置き換え処理2044では、音声素片作成処理2041によって作成されたそれぞれの音素素片について、事前に定義された素片間距離評価尺度(評価ルール)2043を用いて、音声DB206に含まれている従来話者声の音声素片と距離を計算し、「置き換え可能」と判断した素片との置き換えを行うようにしている。どの素片に関しても「置き換え可能」とならなかった場合は、そのユーザ声音声素片が音声DB206に追加(新規登録)される。DB更新部204の処理によって、音声DB206に含まれるユーザ声の音声素片が増える。この音声DB206を用いて音声合成した場合、ユーザ声の素片が選択される確率が高くなり、合成音声をユーザの声に近づけることが可能となる。
当該実施の形態では、音素間距離評価尺度を「音素表記が一致?」と定義しているので、作成されたユーザ声(白色)の五つのラベル付き音声素片のそれぞれについて、データベースにある従来話者声(灰色)の音声素片と比較し、音素表記が一致しているものに対して、置き換えを行われる。ここで、置き換えられた従来話者声の音声素片は廃棄される。その結果、音声DB206に含まれる従来話者声の音声素片が5つ減り、ユーザ声の音声素片が5つ増え、音声DB206がユーザ声で更新されたことになる。更新される前にユーザ声素片は入力されていないので、音声DB206を用いた音声合成では、従来話者の声の音声でしか音声合成できないのに対して、更新された音声DB206には、ユーザ声の音声素片も入っているため、合成した音声がユーザの声になる確率が高くなる。しかし、従来手法のように、少しずつパラメータを修正し、ユーザの声に近づけるのと違って、合成時にユーザ声の素片が選ばれなければ、ユーザの声に近づけるとこができない。その代わりに、従来手法のようにパラメータを修正することによる音質の劣化が起りにくいと考えられる。つまり、上述のように音声DB206を更新しても、高い合成音質を保障される。ここで、より多くのユーザ素片が合成時に使われる確率を上げるために、ユーザ素片が全体音声DBに占める確率を上げることや、使われやすい素片を優先的に置き換えることが必要となる。そのため、次にユーザに読ませるテキストの選別が重要となる。つまり、効率よく(よりユーザ素片の使われる確率を上げる)置き換えを行うために、録音テキストを現在DBの状態を考慮した最適化が必要となる。
なお、素片間距離評価尺度(評価ルール)としては様々な内容が考えられる。最もシンプルなものは、上述のように、音素表記のみを比較し、同じ音素表記を持つ素片をすべて置き換えてしまう手法である。しかし、このような単純な手法では、生成された音声DB206の品質が落ちてしまう可能性もある。
そこで、より高品質のDBに更新するために、前後のコンテキストを音声素片間距離尺度とする手法が考えられる。例えば、トライフォン(Triphone)を考慮した音声素片置き換えルールでは、当該音声素片の音素表記のみならず、当該音声素片の先行・後続音声素片についても、音素表記を比較し、先行・当該・後続音声素片のすべての音素表記が一致した場合のみ、置き換えるようにする。ここで、考慮できるコンテキストは、図7B(素変換距離評価尺度に用いることができるコンテキストの例)に示したものが考えられる。これらのコンテキストを複数に用いて、音素間距離を評価することも考えられる。この場合、「先行音素を外した場合は2ポイント」、「当該音節が当該韻律ワードに占める位置が異なった場合は5ポイント」・・・などを定義すれば、コンテキストの違いを定量的に評価することができるようになる。
当該音素表記やコンテキストで素片間距離尺度を定義した場合、ある程度音声の違いを評価できるが、人間の聴覚上における音声の違いを評価するために、スペクトル、ピッチ、パワーなどの音声物理特徴量を用いた素片間距離尺度を定義するようにしても良い。ここで、音声物理特徴量とは、声道形状の特徴に関係するケプストラム、FFTCep、MelCep、MFCCなど、声帯振動の特徴に関係する基本振動周波数(F0)、パワーなどが考えられる。
図7Cは、別の態様によるDB更新部204の処理内容を説明するための図である。当該態様では、テキスト提示部201によって提示されたテキストを読み上げてユーザの音声が得られた場合、まず、当該音声に基づいて、音声素片作成処理2041によってラベル付き音声素片2042が生成される。一方、当該テキストに対して現在の音声DB206を用いて音声合成処理701が実行される(音声合成処理は、音声合成装置100−2を用いて実行しても良いし、ユーザ音声DB作成装置100−1内で実行するようにしても良い)。そして、実際に音声合成に用いた従来話者の音声素片2045と、ユーザ音声から生成された音声素片2042とが入れ替えられる(つまり、合成音声に使われた従来話者の素片がすべてユーザ素片と置き換えられることになる)。図7Cで示したように、テキスト“こんにちは”に対して音声DB206を用いて音声合成した場合、/コ//ン//ニ//チ/は従来話者の素片が使われて、/ワ/はユーザ声の素片が使われたとして、使われた/コ//ン//ニ//チ/の4つの音素素片について、ユーザ声の音素素片と置き換えられることになる。なお、ここでは「ワ」の素片はすでにユーザ素片としているため置き換えられない。
<テキスト生成部の詳細>
図8は、テキスト生成部205の処理(機能)を説明するための図である。
テキスト生成部205は、テキスト評価ルール2051に基づいて、予め用意されているテキストコーパス801に格納されているテキストの中から最も評価の高いテキストを選択するテキスト評価処理2052を実行し、テキスト提示部201によって次に提示すべきテキスト(収録用テキスト)2053を生成する。
テキスト生成部205は、テキスト評価処理2052において、ある文書をユーザに発話させた場合、収録するユーザ声から作られるユーザ声音声素片を用いて、音声DB206を更新したときに、どれぐらいの素片を置き換えられて、置き換えられる従来話者の素片が良く使われている素片かどうかなどを計算(評価)する。この評価に基づいて、最適なテキストを選ぶことができる。例えば、図8で示す一例では、テキスト評価ルールは、「”置きかえられる素片の数を最大にする”テキストを選択する」と定義されている。ここで、テキストコーパスの中にある「こんにちは」、「こんばんは」、「おはよう」の3つのテキストについて、ユーザが読み上げた音声を用いて素片DBを更新した場合に、置き換えられる従来話者音声素片の数を計算(予測)する。まず「こんにちは」の場合、既に処理したテキストであるため、置き換えられる従来話者の音声素片が存在せず、置き換えられる素片の数がゼロである。そして、「こんばんは」の場合、従来話者の音声素片/ハ゛/が置き換えられるため、置き換えられる素片の数が1である。さらに、「おはよう」の場合、従来話者の音声素片/オ//ハ//ヨ//ウ/が置き換えられるため、置き換えられる素片の数が4である。つまり、「こんにちは」、「こんばんは」、「おはよう」の3つのテキストについては、「おはよう」をユーザに読み上げさせるのが最も効率よく素片を置き換えられるということになる。
さらに、上述の素片置き換え処理2044の説明で挙げた全ての音素間距離評価尺度についても、同じように置き換えられる素片の数を計算(予測)し、最適な読み上げテキストを探索できる。
なお、「”置きかえられる素片の数を最大にする”テキストを選択する」というテキスト評価ルールは、ユーザ素片の数が多ければ多いほど、合成時に使われる確率が高くなるという仮説を基にしている。しかし、実際に音声DBに各音声素片の使われる確率がかなり異なっていることが分かっている。例えば、5万文書を音声合成した場合、5000回以上使われた音声素片もあれば、1回も使われていなかった素片もある。同じ数の素片を置き換えられたとしても、使われる頻度の高い素片を置き換えたほうが、よりユーザ素片の使われる確率が向上できる。そのため、音声DBに含まれているすべての素片について、使われる頻度(確率)を付与(計算)する。
したがって、「”置きかえられる素片の使用頻度を最大にする”テキストを選択する」というルールにすると、より効率よく音声DB206を更新することができる。例えば、素片/ハ゛//オ//ハ//ヨ//ウ/の使用頻度がそれぞれ100,30,15,13,20だとする。テキストコーパスの中にある「こんにちは」、「こんばんは」、「おはよう」の3つのテキストについて、ユーザが読み上げた音声を用いて音声DB206を更新する場合に、置き換えられる従来話者音声素片の使用頻度(合計値)を計算(予測)する。まず、「こんにちは」の場合、置き換えられる従来話者の音声素片が存在しないため、置き換えられる素片の使用頻度がゼロである。そして、「こんばんは」の場合、従来話者の音声素片/バ/が置き換えられるため、置き換えられる素片の使用頻度が100である。一方、「おはよう」の場合、従来話者の音声素片/オ//ハ//ヨ//ウ/が置き換えられるため、置き換えられる素片の頻度が30+15+13+20=78である。つまり、「こんにちは」、「こんばんは」、「おはよう」の3つのテキストについて、「こんばんは」をユーザに読み上げさせるのが最も効率よく素片を置き換えられることになる。
<ユーザ音声DB作成装置の全体処理>
図9は、ユーザ音声DB作成装置で実行される処理の全体的概要を示す図である。
図9に示されるように、ユーザ音声DB作成装置100では、初回の処理(既存DBの選択(初期化処理903))以降、テキストを話者(ユーザ)に提示するテキスト提示処理901と、音声収録処理902と、DB更新処理904と、テキスト評価処理905と、テキスト生成処理906が繰り返される。なお、各処理の詳細については既に説明したので、ここでは再度説明しない。
このような処理を繰り返していくことにより、音声DB206に含まれるユーザ声の素片の比率の大きくなっていく。したがって、音声DB206を用いて生成された合成音声は、高音質を保ちながら、ユーザの声に近づけることが可能である。
<その他>
本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
100、100−1・・・ユーザ音声DB作成装置
100−2・・・音声合成装置
101、101−1、101−2、1105・・・記憶装置
102、102−1、102−2、1110−1、1110−2・・・音声入力インタフェース
103、103−1、103−2、1102、1108−1、1108−2・・・CPU
104、104−1、104−2、1103、1109−1、1109−2・・・メモリ
105、105−1、105−2、1112−1、1112−2・・・音声出力インタフェース
106、1113−1、1113−2・・・テキスト提示インタフェース
107、107−1、107−2、1107、1118−1、1118−2・・・バス
108・・・データ出力装置
109・・・データ入力装置
111−1、111−2、1104、1111−1、1111−2・・・通信インタフェース
1101・・・サーバ
1106・・・ネットワーク
1107−1、1107−2・・・端末

Claims (11)

  1. 音声合成処理に用いる音声データベースを生成する音声データベース生成システムであって、
    それぞれ音質が異なる、複数の既存音声データベースと、
    前記複数の既存音声データベースから1つの既存音声データベースを選択し、特定ユーザ用の音声データベースを生成するための処理を実行するプロセッサと、を有し、
    前記プロセッサは、
    第1のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、前記特定ユーザの声質に最も近い既存音声データベースを選択する処理と、
    前記第1のテキストとは異なる第2のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新する処理と、
    を実行することを特徴とする音声データベース生成システム。
  2. 請求項1において、
    さらに、複数のテキストコーパスを格納するテキストコーパス記憶部を有し、
    前記プロセッサは、予め設定されたテキスト評価ルールに従って、前記テキストコーパス記憶部に格納されている前記複数のテキストコーパスのうち何れのテキストコーパスが最も効率よく前記既存音声データベースの音声素片を置き換えることができるかを評価することにより、前記特定ユーザに提示すべき前記第2のテキストを生成する処理を実行することを特徴とする音声データベース生成システム。
  3. 請求項2において、
    前記プロセッサは、前記選択された既存音声データベースを用いて前記第2のテキストに対して音声合成処理を実行して置き換え候補となるラベル付き音声素片を生成する処理を実行し、
    前記音声データベースを更新する処理において、前記プロセッサは、前記特定ユーザのラベル付き音声素片によって前記置き換え候補となるラベル付き音声素片を置き換えることを特徴とする音声データベース生成システム。
  4. 請求項2において、
    前記音声データベースを更新する処理において、前記プロセッサは、前記特定ユーザのラベル付き音声素片について、置き換え対象の音声素片の音素表記だけでなく、当該置き換え対象の音声素片に先行する音声素片及び後続する音声素片の音素表記をも比較し、前記先行音声素片、前記置き換え対象の音声素片、及び前記後続する音声素片の全ての音素表記が一致した場合のみ、前記置き換え対象の音声素片で前記選択された既存音声データベースの音声素片を置き換えることを特徴とする音声データベース生成システム。
  5. 請求項2において、
    前記プロセッサは、さらに、
    前記特定ユーザによって入力された音声に対して音声認識処理又は/及びアクセント抽出処理を実行することにより、前記特定ユーザによって入力された音声が前記第1又は第2のテキストの通りに読み上げられたか否かを判定する発話正確度判定処理と、
    前記発話正確度判定処理の判定結果が予め設定された所定の条件を満たさない場合に前記第1又は第2のテキストを再度読み上げるように前記特定ユーザに要求する処理と、
    を実行することを特徴とする音声データベース生成システム。
  6. 音声合成処理に用いる音声データベースを生成する音声データベース生成方法であって、
    プロセッサが、第1のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、予め用意され、それぞれ音質が異なる、複数の既存音声データベースの中から前記特定ユーザの声質に最も近い既存音声データベースを選択するステップと、
    前記プロセッサが、前記第1のテキストとは異なる第2のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新するステップと、
    を含むことを特徴とする音声データベース生成方法。
  7. 請求項6において、さらに、
    前記プロセッサが、予め設定されたテキスト評価ルールに従って、予め用意されたテキストコーパス記憶部に格納されている複数のテキストコーパスのうち何れのテキストコーパスが最も効率よく前記既存音声データベースの音声素片を置き換えることができるかを評価することにより、前記特定ユーザに提示すべき前記第2のテキストを生成するステップを含むことを特徴とする音声データベース生成方法。
  8. 請求項7において、
    さらに、前記プロセッサが、前記選択された既存音声データベースを用いて前記第2のテキストに対して音声合成処理を実行して置き換え候補となるラベル付き音声素片を生成するステップを含み、
    前記音声データベースを更新するステップにおいて、前記プロセッサは、前記特定ユーザのラベル付き音声素片によって前記置き換え候補となるラベル付き音声素片を置き換えることを特徴とする音声データベース生成方法。
  9. 請求項7において、
    前記音声データベースを更新するステップにおいて、前記プロセッサは、前記特定ユーザのラベル付き音声素片について、置き換え対象の音声素片の音素表記だけでなく、当該置き換え対象の音声素片に先行する音声素片及び後続する音声素片の音素表記をも比較し、前記先行音声素片、前記置き換え対象の音声素片、及び前記後続する音声素片の全ての音素表記が一致した場合のみ、前記置き換え対象の音声素片で前記選択された既存音声データベースの音声素片を置き換えることを特徴とする音声データベース生成方法。
  10. 請求項7において、さらに、
    前記プロセッサが、前記特定ユーザによって入力された音声に対して音声認識処理又は/及びアクセント抽出処理を実行することにより、前記特定ユーザによって入力された音声が前記第1又は第2のテキストの通りに読み上げられたか否かを判定する発話正確度判定ステップと、
    前記プロセッサが、前記発話正確度判定ステップにおける判定結果が予め設定された所定の条件を満たさない場合に前記第1又は第2のテキストを再度読み上げるように前記特定ユーザに要求するステップと、
    を含むことを特徴とする音声データベース生成方法。
  11. 音声合成処理に用いる音声データベースを生成するためのプログラムであって、
    コンピュータに、
    第1のテキストを特定ユーザが読み上げることにより入力された音声の声質を評価し、予め用意され、それぞれ音質が異なる、複数の既存音声データベースの中から前記特定ユーザの声質に最も近い既存音声データベースを選択する処理と、
    前記第1のテキストとは異なる第2のテキストを前記特定ユーザが読み上げることにより入力された音声を用いて前記特定ユーザのラベル付き音声素片を生成し、予め設定された素片置き換えルールに従って、前記選択された既存音声データベースの音声素片を前記特定ユーザのラベル付き音声素片によって置き換えることにより音声データベースを更新する処理と、
    を実行させるためのプログラム。
JP2013186498A 2013-09-09 2013-09-09 音声データベース生成システム、音声データベース生成方法、及びプログラム Active JP6170384B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013186498A JP6170384B2 (ja) 2013-09-09 2013-09-09 音声データベース生成システム、音声データベース生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013186498A JP6170384B2 (ja) 2013-09-09 2013-09-09 音声データベース生成システム、音声データベース生成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015052748A JP2015052748A (ja) 2015-03-19
JP6170384B2 true JP6170384B2 (ja) 2017-07-26

Family

ID=52701792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013186498A Active JP6170384B2 (ja) 2013-09-09 2013-09-09 音声データベース生成システム、音声データベース生成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6170384B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971009B (zh) * 2017-05-11 2020-05-22 网易(杭州)网络有限公司 语音数据库生成方法及装置、存储介质、电子设备
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN113742517B (zh) * 2021-08-11 2022-09-27 北京百度网讯科技有限公司 语音包的生成方法、装置、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
JP3960928B2 (ja) * 2003-02-14 2007-08-15 日本電信電話株式会社 テキスト選択方法、装置及びプログラム
JP4564416B2 (ja) * 2005-07-13 2010-10-20 日本放送協会 音声合成装置および音声合成プログラム
JP2007322835A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd 音声データベースおよび音声合成装置
US8510112B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
JP5155836B2 (ja) * 2008-12-02 2013-03-06 日本電信電話株式会社 収録テキスト生成装置、その方法、そのプログラム
JP2013007879A (ja) * 2011-06-24 2013-01-10 Panasonic Corp 車載電子装置

Also Published As

Publication number Publication date
JP2015052748A (ja) 2015-03-19

Similar Documents

Publication Publication Date Title
JP4328698B2 (ja) 素片セット作成方法および装置
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
TWI721268B (zh) 用於語音合成的系統和方法
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US20190130894A1 (en) Text-based insertion and replacement in audio narration
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
EP2595143A1 (en) Text to speech synthesis for texts with foreign language inclusions
JP5148026B1 (ja) 音声合成装置および音声合成方法
US9508338B1 (en) Inserting breath sounds into text-to-speech output
US20130325477A1 (en) Speech synthesis system, speech synthesis method and speech synthesis program
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
WO2012164835A1 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP5271299B2 (ja) 音声認識装置、音声認識システム、及び音声認識プログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP2016151736A (ja) 音声加工装置、及びプログラム
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP2011197542A (ja) 韻律パターン生成装置
JP2013195928A (ja) 音声素片切出装置
JP2018041116A (ja) 音声合成装置、音声合成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170630

R150 Certificate of patent or registration of utility model

Ref document number: 6170384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150