JP4559950B2 - 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム - Google Patents

韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム Download PDF

Info

Publication number
JP4559950B2
JP4559950B2 JP2005306086A JP2005306086A JP4559950B2 JP 4559950 B2 JP4559950 B2 JP 4559950B2 JP 2005306086 A JP2005306086 A JP 2005306086A JP 2005306086 A JP2005306086 A JP 2005306086A JP 4559950 B2 JP4559950 B2 JP 4559950B2
Authority
JP
Japan
Prior art keywords
boundary
prosodic
language units
language
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005306086A
Other languages
English (en)
Other versions
JP2007114507A (ja
Inventor
大威 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005306086A priority Critical patent/JP4559950B2/ja
Priority to CNA2006101729230A priority patent/CN1971708A/zh
Priority to US11/583,969 priority patent/US7761301B2/en
Publication of JP2007114507A publication Critical patent/JP2007114507A/ja
Application granted granted Critical
Publication of JP4559950B2 publication Critical patent/JP4559950B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声合成に関する。
従来のテキスト音声合成装置には、テキストから韻律制御の手掛かり情報を得るために、テキストの係り受け関係を分析するという構文解析を行うことが多い。1文の係り受け関係を完全に分析するための構文解析は一般的に計算量が多い。そこで、少ない計算量でテキストの係り受け情報を得るために、例えば、特許文献1には、予め規定された韻律語種類間の依存強度に基づいて構文解析を行い、韻律句境界強度を決定する方法が開示されている。音声合成装置はテキストから得られた韻律句境界強度を加味してテキスト情報の韻律情報を生成することを特徴とする韻律情報生成手段を用いて韻律制御を行う。
特開平10−83192号公報
上記特許文献1は、韻律語種類間の依存強度を規定するに当たって、高度な専門知識が必要であるため、TTSシステムの新規開発や既存TTSシステムの保守に手間が掛かる問題があった。また、計算量の多い構文解析を避けることはできなかったため、計算能力の比較的低い組込システムに応用しにくい問題があった。
そこで、本発明は、上記従来技術の問題点に鑑み、テキストの構文解析を行うことなく、人の発声に近い合成音声を生成することのできる韻律制御規則を容易に生成することができる韻律制御規則生成方法及び装置、当該韻律制御規則生成方法を用いて生成された韻律制御規則を用いて、人の発声に近い合成音声を容易に生成することができる音声合成装置を提供することを目的とする。
(1)入力テキスト中の言語単位間の境界における句読点生起率を、当該境界近傍の複数の言語単位の属性を基に求め、前記入力テキスト中の言語単位間の前記句読点生起率を含む、韻律に関する複数の学習データを基に、言語単位間の前記句読点生起率に対する条件を含む音声合成のための韻律制御規則を生成する。
(2)入力テキスト中の言語単位間の境界における句読点生起率を、当該境界近傍の複数の言語単位の属性を基に求め、前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する。
さらに、前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する。
(3)入力テキスト中の言語単位間の境界における句読点生起率を、当該境界近傍の複数の言語単位の属性を基に求め、言語単位間の句読点生起率を基に、音声合成のための韻律制御規則を選択し、選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する。
(4)入力テキスト中の言語単位間の境界における句読点生起率を、当該境界近傍の複数の言語単位の属性を基に求め、言語単位間の句読点生起率を基に当該言語単位間の韻律境界の種類を決定し、決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択し、選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する。
人の発声に近い合成音声を生成することのできる韻律制御規則を容易に生成することができる。
また、人の発声に近い合成音声を容易に生成することができる。
以下、本発明の実施形態について図面を参照して説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る、音声合成のための韻律制御規則生成装置の構成例を示すブロック図である。
図1の韻律制御規則生成装置は、言語解析部101、句読点生起率データベース(句読点生起率DB)102、句読点生起率推定部103、接続強度計算部104、韻律制御規則生成部105、韻律制御規則データベース(韻律制御規則DB)106を含む。
なお、言語解析部101、句読点生起率推定部103、接続強度計算部104、韻律制御規則生成部105の各機能は、プログラムをコンピュータに実行させることにより実現することができる。
この韻律制御規則生成装置では、自然言語の種類に応じて、適切な言語単位を用いて実装する。例えば、中国語の場合は、文字を言語単位にしても良いし、単語を言語単位にしても良い。日本語の場合は、形態素と仮名のいずれでも言語単位としてよい。以下は日本語を対象に、形態素を言語単位とする場合で説明する。
言語解析部101には、音声データベース(図示せず)に記憶されている各音声に対応する各テキスト(読み上げ用のテキスト)が入力され、当該入力テキストの言語解析を行い、当該入力テキストを、言語単位(例えば、ここでは形態素単位)に切り分けるとともに、各形態素の品詞や読みなど、当該形態素に属する情報(形態素情報)などを出力する。
句読点生起率DB102には、あらゆる品詞のうちの任意の2つの品詞からなる品詞系列について、その直前、当該2つの品詞の間、及び当該2つの品詞の直後のそれぞれにおいて句読点が生起する度合い、すなわち句読点生起率が予め記憶されている。
句読点生起率推定部103は、言語解析部101で入力テキストに対し行った言語解析の結果得られる、当該入力テキストに対応する形態素系列中の連続する2つの形態素の間(2つの形態素の境界)の句読点生起率を求める。すなわち、ここでは、当該入力テキストの先頭の形態素から数えて、「j−1」番目と「j」番目の2つの連続する形態素の間の句読点生起率、すなわち、「j」番目の形態素の直前の形態素境界における句読点生起率として、以下に示すような「I+1」個の句読点生起率を求める。なお、Iは「1」以上の任意の正の整数である。
(1)当該入力テキストの「j」番目の形態素からI個の形態素で構成される形態素系列v(j)における、「j」番目の形態素の直前の形態素境界での句読点生起率P(v(j))。これを第1の句読点生起率P(v(j))とする。
(2)当該入力テキストの「j−1」番目の形態素からI個の形態素で構成される形態素系列v(j−1)における、「j」番目の形態素の直前の形態素境界での句読点生起率P(v(j−1))。これを第2の句読点生起率P(v(j−1))とする。
(3)当該入力テキストの「j−I」番目の形態素からI個の形態素で構成される形態素系列v(j−I)と、「j」番目の形態素との間の形態素境界での句読点生起率P(v(j−I))。これを第「I+1」の句読点生起率P(v(j−I))とする。
そして、「I+1」個の第1〜第「I+1」の句読点生起率からなる句読点生起率ベクター(P(v(j)), P(v(j−1)),…, P(v(j−I)))を出力する。
例えば、I=2とすると、句読点生起率推定部103は、「j−1」番目と「j」番目の2つの連続する形態素の間の句読点生起率として、以下に示すような第1〜第3の句読点生起率を上記句読点生起率DB102から検索する。
(1)「j」番目の形態素及びその次の「j+1」番目の形態素からなる形態素系列v(j)の直前における句読点生起率。これを第1の句読点生起率P(v(j))とする。
(2)「j−1」番目の形態素及びその次の「j」番目の形態素からなる形態素系列(v(j−1))の「j−1」番目の形態素と「j」番目の形態素の間における句読点生起率。これを第2の句読点生起率P(v(j−1))とする。
(3)「j−2」番目の形態素及びその次の「j−1」番目の形態素からなる形態素系列v(j−2)の直後における句読点生起率。これを、第3の句読点生起率P(v(j−2))とする。
句読点生起率推定部103は、入力テキスト中の連続する2つの形態素毎に、この2つの形態素の間の句読点生起率として、上記第1〜第3の句読点生起率からなる句読点生起率ベクター(P(v(j))、 P(v(j−1))、 P(v(j−2))を出力する。
接続強度計算部104は、入力テキスト中の連続する2つの形態素毎の上記句読点生起率ベクターから、当該連続する2つの形態素間の接続強度を算出する。言語単位間(ここでは形態素間)の接続強度は、後述するように、第1〜第Iの句読点生起率の加重平均値であり、当該言語単位間に句読点の生起する度合い、すなわち当該言語単位間の句読点生起率である。
韻律制御規則生成部105には、当該入力テキストに対応する韻律情報と、接続強度計算部104で算出された、当該入力テキストの上記連続する2つの形態素間の接続強度、各形態素の品詞や読みなどが入力される。そして、2つの形態素毎に、各形態素の品詞や、その間の接続強度などが得られるので、これらを基に、韻律に対する制御規則、すなわち、韻律制御規則を生成する。
韻律制御規則生成部105で生成された韻律制御規則は韻律制御規則DB106に記憶される。
なお、ここでいう句読点は、日本語で用いられる、いわゆる句点と読点に限った狭い意味ではなく、英語のpunctuation markに相当し、括弧や引用符なども含まれる広い意味である。
また、韻律制御規則生成部105では、入力テキストに対応する韻律情報は、当該入力テキストを人に読み上げてもらって得られた自然音声から予め求めたもので、例えば、基本周波数(ピッチ)、声の高さの変化パターンであるピッチパターン(F0パターン)、音韻継続時間長、ポーズの位置、などである。これら韻律情報は、上記音声データベースに記憶されている各音声から求めたものである。
句読点生起率DB102には、各品詞系列について、当該品詞系列の3つの品詞境界のそれぞれにおける句読点生起率P(u)、すなわち、当該品詞系列の直前における句読点生起率、当該品詞系列の真ん中(当該品詞系列は2つの品詞からなるので、当該2つの品詞の間)における句読点生起率、及び当該品詞系列の直後の句読点生起率が記憶されている。
例えば、図2に示すように、「副詞」と「体言」からなる品詞系列(副詞、体言)の場合、当該品詞系列の直前の句読点生起率P(副詞、体言)、「副詞」と「体言」の間の句読点生起率P(副詞、体言)、当該品詞系列の直後の句読点生起率P(副詞、体言)が、当該品詞系列中の品詞で索引を付けて記憶されている。
この各品詞系列についての3つの句読点生起率は、大量のテキストが記憶されているテキストデータベース(図示せず)に予め記憶されている多くのテキストから、当該品詞系列について、次式(1)を用いて算出したものである。
Figure 0004559950
ここで、uは、言語単位の系列を表し、ここでは、例えば、2つの品詞からなる品詞系列(u,u)である。当該品詞系列の長さIは、ここでは、当該品詞系列が2つの品詞からなるので、I=2である。当該品詞系列に含まれる2つの品詞のそれぞれは、「1」からIまでの番号を用いて、u、uと表す。
iは、品詞系列の品詞境界の位置、すなわち、当該品詞系列の直前、当該品詞系列の真ん中(ここでは、当該品詞系列が2つの品詞からなるので、当該2つの品詞の間)、及び当該品詞系列の直後のそれぞれを表す。従って、iは、「0」からIまでの値、すなわちI=2の場合、「0」、「1」、「2」を取る。
例えば、2つの品詞からなる品詞系列uの0番目の品詞境界(i=0)は、当該品詞系列の直前であり、この0番目の品詞境界の句読点生起率は、P(u)と表す。当該品詞系列uの1番目の品詞境界(i=1)は、当該2つの品詞の間であり、この1番目の品詞境界の句読点生起率は、P(u)と表す。当該品詞系列uの2番目の品詞境界(i=2)は、当該品詞系列の直後であり、この2番目の品詞境界の句読点生起率は、P(u)と表す。
C(u)は、品詞系列uが、テキストデータベース中のテキストに観察された回数である。
punc(u,i)は、i番目の品詞境界に句読点が付いている品詞系列uが、テキストデータベース中のテキストに観察された回数である。
利用上の便宜を計るため、句読点生起率は自然対数軸上の正の値を取っている。 従って、句読点生起率P(u)は、値が小さければ小さいほど、句読点生起位置における句読点が生じる度合い(確率)が高いという意味を持っている。
句読点生起率DB102には、例えば、図3に示すように、副詞と体言からなる品詞系列(副詞、体言)の0番目の句読点生起率として、P(副詞,体言)=45.2、格助詞と副詞からなる品詞系列(格助詞、副詞)の1番目の句読点生起率として、P(格助詞,副詞)=26.2、同様に、品詞系列(体言,格助詞)の2番目の句読点生起率としてP(体言,格助詞)=15.0、などが記憶されている。
I=2の場合、句読点生起率推定部103は、入力テキストの先頭の形態素から数えて、「j−1」番目と「j」番目の2つの連続する形態素の間の句読点生起率として、図4に示すように、第1〜第3の句読点生起率を、当該2つの連続する形態素の間の境界近傍の(関連する)形態素の属性(例えば、ここでは品詞)を通して、上記句読点生起率DB102から検索する。
なお、ここでは、言語単位を形態素としているが、この場合には、句読点生起率の推定は、上述したように、当該言語単位の属性として、例えば品詞を用いる。一方、形態素より小さい単位の1文字を言語単位とする場合、句読点生起率の推定は、当該言語単位の属性として品詞ではなく文字の見出しを用いる。
(1)「j」番目の形態素の品詞及びその次の「j+1」番目の形態素の品詞からなる品詞系列u[1]について、その直前の句読点生起率P(u[1])を、句読点生起率DB102から検索する。検索された句読点生起率P(u[1])が、「j−1」番目と「j」番目の連続する2つの形態素の間の第1の句読点生起率P(v(j))である。
(2)「j−1」番目の形態素の品詞及びその次の「j」番目の形態素の品詞からなる品詞系列u[2]について、当該2つの品詞の間の句読点生起率P(u[2])を、句読点生起率DB102から検索する。検索された句読点生起率P(u[2])が、「j−1」番目と「j」番目の連続する2つの形態素の間の第2の句読点生起率P(v(j−1))である。
(3)「j−2」番目の形態素の品詞及びその次の「j−1」番目の形態素の品詞からなる品詞系列u[3]について、その直後の句読点生起率P(u[3])を、句読点生起率DB102から検索する。検索された句読点生起率P(u[3])が、「j−1」番目と「j」番目の連続する2つの形態素の間の第3の句読点生起率P(v(j−2))である。
本実施形態では、句読点生起率推定部103で形態素の品詞を用いて、句読点生起率DB102を検索することで、入力テキスト中の連続する2つの形態素毎に、当該2つの形態素の間の3種類の句読点生起率を求めているが、この場合に限らない。例えば、テキストデータベース(図示せず)中のテキストと、上式(1)とを用いて、所望の品詞系列について句読点生起率を算出することにより、入力テキスト中の連続する2つの形態素毎に、当該2つの形態素の間の上記3種類の句読点生起率を求めるようにしてもよい。
接続強度計算部103は、入力テキスト中の連続する2つの形態素、すなわち、「j−1」番目の形態素と「j」番目の形態素の間の境界(「j」番目の形態素の直前の形態素境界)に対して、句読点生起率推定部103で求めた句読点生起率P(v(j)), P(v(j−1)),…, P(v(j−I))を用いて、「j」番目の形態素の直前の形態素境界の接続強度Dを次式(2)を用いて計算する。
Figure 0004559950
、a、…aは、第1〜第Iの句読点生起率のそれぞれに対応する1次線形係数である。
例えば、I=2の場合、上述したように、第1〜第3の句読点生起率(句読点生起率ベクター(P(v(0))、 P(v(−1))、 P(v(−2)))が得られるから、これらを用いて、「j」番目の形態素の直前の形態素境界の接続強度Dを式(2)を用いて計算する。この場合、次式(3)により、「j」番目の形態素の直前の形態素境界の接続強度Dを計算することができる。
=a(v(j))+a(v(j−1))+a(v(j−2)
…(3)
ここで、a、a、aは、第1〜第3の句読点生起率のそれぞれに対応する1次線形係数であり、a=a=a=1/3でも良いし、最良のパフォーマンスを出すために最適化された値をそれぞれ用いても良い。
接続強度Dは、値が大きければ大きいほど、「j−1」番目の形態素と「j」番目の形態素との間に句読点が生起する度合いが低い、すなわち、「j−1」番目の形態素と「j」番目の形態素との間の接続強度が強いという意味を持っている。
韻律制御規則生成部105は、形態素境界の接続強度とその他の形態素情報に基づいて、例えば、機械学習ツールc4.5を用いて、ピッチパターン情報や、ポーズ情報を分析して、ピッチパターン選択の規則やポーズ推定規則を生成する。機械学習方法は回帰木ツールCARTや、ニューラルネットワークを用いた方法を使っても良い。
次に、図1の韻律制御規則生成装置で韻律制御規則を生成する手順を、より具体的に説明する。ここでは、言語解析部101に入力されるテキストが「あらゆる現実をすべて自分の方へねじ曲げたのだ。」の場合を例にとり、図5に示すフローチャートを参照して説明する。
なお、ここでは、I=2の場合について説明する。
言語解析部101に上記テキストが入力されると(ステップS1)、言語解析部101では、このテキストを、「あらゆる」、「現実」、「を」、「すべて」、「自分」、「の」、「方」、「へ」、「ねじ曲げた」、「の」、「だ」と、形態素に分けたうえ、各形態素について、「連体詞」、「体言」、「格助詞」、「副詞」などの品詞や、読み、アクセント型情報などを出力する(ステップS2)。
ここでは、例えば、jの初期値を「3」と設定し(ステップS3)、句読点生起率推定部103は、上記入力テキストの先頭から3番目の形態素から順に、当該形態素と、その直前の形態素との間の形態素境界に対して、第1〜第3の句読点生起率を求める(ステップS4)。
ここでは、上記テキスト中の4番目(j=4)の形態素「すべて」と、その直前の3番目(j−1=3)の形態素「を」との間の形態素境界に対して、第1〜第3の句読点生起率を求める場合を例にとり説明する。
句読点生起率推定部103は、上記テキスト中の3番目の形態素「を」と、4番目の形態素「すべて」との間の形態素境界、すなわち、4番目の形態素の直前の形態素境界に対して、図4に示したように、第1〜第3の句読点生起率を句読点生起率DB102から求める。
(1)4番目の形態素「すべて」と5番目の形態素「自分」の品詞「副詞」、「体言」から、u=(副詞、体言)なる品詞系列の0番目の品詞境界(i=0)における句読点生起率P(副詞、体言)を、句読点生起率DB102から検索する。検索された句読点生起率P(副詞、体言)=45.2が、第1の句読点生起率である。
(2)3番目の形態素「を」と4番目の形態素「すべて」の品詞「格助詞」、「副詞」から、u=(格助詞、副詞)なる品詞系列の1番目の品詞境界(i=1)における句読点生起率P(格助詞、副詞)を、句読点生起率DB102から検索する。検索された句読点生起率P(格助詞、副詞)=26.2が、第2の句読点生起率である。
(3)2番目の形態素「現実」と3番目の形態素「を」の品詞「体言」、「格助詞」から、u=(体言、格助詞)なる品詞系列の2番目の品詞境界(i)=2における句読点生起率P(体言、格助詞)を、句読点生起率DB102から検索する。検索された句読点生起率P(体言、格助詞)=15.0が、第3の句読点生起率である。
結果として、(45.2, 26.2, 15.0)という句読点生起率ベクターが得られる。
次に、接続強度計算部104は、上記式(3)に、句読点生起率推定部103で求めた第1〜第3の句読点生起率を代入して、「j」番目の形態素と、その直前の「j−1」番目の形態素との間の形態素境界の接続強度Dを算出する(ステップS5)。
ここでは、上述の例の場合、上記テキスト中の3番目の形態素「を」と、4番目の形態素「すべて」との間の形態素境界に対して求めた第1〜第3の句読点生起率「45.2」「26.2」「15.0」を上記式(3)に代入し、接続強度Dを算出する。
式(3)において、a=a=a=1/3であるとすると、接続強度Dは、第1〜第3の句読点生起率の平均値となり、上記例の場合、「28.8」と求まる。
次に、jの値を1つインクリメントし(ステップS6)、次の形態素に対する処理に移行する。当該次の形態素が当該入力テキスト中の最後の形態素ではない場合(ステップS7)、当該次の形態素について、上記ステップS4〜ステップS6を行う。一方、当該次の形態素が、当該入力テキスト中の最後の形態素の場合には(ステップS7で「yes」の場合)、ステップS8へ進む。ステップS8において、当該入力テキストが、音声データベース中の未処理の最後のテキストでない場合(ステップS8で「no」の場合)、当該音声データベース中の未処理の新たなテキストを図1の音声合成用韻律制御規則生成装置に入力し、当該新たなテキストに対し、上記ステップS1〜ステップS7を繰り返す。当該入力テキストが音声データベース中の最後のテキストの場合(ステップS8で「yes」の場合)には、ここで、処理が終了し、次に、韻律制御規則生成部105の処理が実行される(ステップS9)。
韻律制御規則生成部105は、音声データベース中の全てのテキストから、図5に示したように算出された、形態素間の接続強度や、品詞や読みなどの各形態素に関する情報と、音声データベース中の各テキストから得られた韻律情報を用いて、韻律制御規則を生成する。
ここでは、「決定木」という分類木を生成する、例えば機械学習プログラム“C4.5”を使って、韻律制御規則を生成する幾つかの例を示す。
(基本周波数代表パターンの選択規則の生成)
日本語音声合成の基本周波数制御方式では、例えば、特開平11−95783号公報で開示されたような、アクセント句単位の基本周波数代表パターンから文章全体の基本周波数軌跡を生成する方式がある。この方式は、各アクセント句の属性に基づいてアクセント句の基本周波数代表パターンと基本周波数代表パターンに対する変形規則とを選択して、各アクセント句の基本周波数代表パターンを変形して繋げることで、文章全体の基本周波数軌跡を出力する方式である。この方式で利用することができる、代表パターン選択規則を生成する場合を、以下説明する。
ここでは、予め用意されたN個の基本周波数の代表パターンを選択する規則を音声データベースの内容から機械学習の手法で生成する。音声データベースに記憶されている音声に付随する各アクセント句の基本周波数パターンに対しては、最適な代表パターンは誤差最小法などの手法で事前に求めておき、得られた代表パターン及びその番号が音声データベースに格納されているとする。
本実施形態の韻律制御規則生成部105は、前述のように、音声データベースに記憶されている読み上げ用のテキストを用いて、接続強度計算部104で計算された、形態素間の接続強度、当該読み上げ用テキストに含まれる各アクセント句に関する情報などを用いて、まず、機械学習プログラムに与える学習データを作成する。
各学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる各アクセント句の属性情報である入力情報と、そのアクセント句に対応する基本周波数の代表パターンの番号である出力情報とを含む。
この学習データの入力情報には、各アクセント句の直前(先頭)と直後(末尾)の境界における(接続強度計算部104で計算された)接続強度をそのアクセント句の属性情報として含まれている。
例えば、属性情報が接続強度と品詞情報を含むとすると、あるアクセント句に対する学習データには、次のような情報が含まれている。
当該アクセント句の先頭境界における接続強度;
当該アクセント句の末尾境界における接続強度;
当該アクセント句の前のアクセント句の主要品詞;
当該アクセント句の主要品詞;
当該アクセント句の次のアクセント句の主要品詞;
当該アクセント句に対応する最適な代表パターンの番号。
前述の説明で用いた、「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「すべて」というアクセント句に対しては、次のような学習データが作成される。
「28.8; 36.2; 名詞; 副詞; 名詞; 2」
ここで、「28.8」は「を」と「すべて」との境界に対して計算された接続強度であり、「36.2」は「すべて」と「自分」との境界に対して計算された接続強度である。「36.2」の次にある「名詞」は前のアクセント句である「現実を」の主要品詞であり、その次の「副詞」は当該アクセント句の主要品詞であり、さらにその次の2個目の「名詞」は次のアクセント句である「自分の」の主要品詞である。最後の「2」は「すべて」というアクセント句に対して、事前に付けられた基本周波数の最適な代表パターンの番号である。
このような形式の大量の学習データを、音声データベースに記憶されている全データから作成して、機械学習プログラムC4.5に与える。C4.5で学習した結果として、入力された大量の学習データの中から、あるアクセント句に対し最適な代表パターンを選択するための、当該アクセント句と、その前後のアクセント句との間の品詞や接続強度に対する条件を含む代表パターンの選択規則が得られる。
「 If (前のアクセント句の主要品詞 = 名詞)
and (当該アクセント句の主要品詞 = 副詞)
and (先頭境界における接続強度 < 30)
and (末尾境界における接続強度 > 30)
then 代表パターン番号 = 2」
この代表パターンの選択規則は、「主要品詞が「副詞」であるアクセント句では、当該アクセント句の前に、主要品詞が「名詞」であるアクセント句が存在し、当該アクセント句と当該前のアクセント句との間の接続強度が「30」より小さく、しかも、当該アクセント句とその次のアクセント句との間の接続強度が「30」より大きい場合には、当該アクセント句に対応する最適な代表パターンの番号は「2」である」、というものである。
韻律制御規則生成部105で生成された、このような代表パターン選択規則が韻律制御規則DB106に記憶される。
基本周波数の代表パターンの選択規則を生成する場合と同様にして、他の韻律に対する制御規則、例えば、音韻継続時間長やポーズ挿入の推定規則なども生成することができる。
(音韻継続時間長の推定規則の生成)
音声データベースに記憶されている各音声に含まれる音韻継続時間長の分布特性に基づいて事前にいくつかの音韻継続時間長に分類しておくことにより、上記同様にして、音韻継続時間長を推定する規則を生成することができる。
ここでは、ある音韻の対する学習データの入力情報には、当該音韻について、少なくとも当該音韻を含む形態素と、その前後の形態素との間の接続強度が含まれる。また、当該学習データの出力情報には、当該音韻の継続時間長が含まれている。
韻律制御規則制御部105は、機械学習プログラムC4.5を用いて、このような大量の学習データから、ある音韻に対し最適な音韻継続時間長を選択するための当該音韻を含む形態素と、その前後の形態素との間の接続強度や品詞に対する条件を含む音韻継続時間長の推定規則を抽出する。
(ポーズ挿入の推定規則の生成)
形態素境界にポーズを挿入するかどうかを推定するための規則を生成する場合、学習データの入力情報には、例えばある形態素について、少なくともその直前(あるいは直後)の形態素との間の接続強度が含まれる。また、当該学習データの出力情報には、当該形態素の直前(あるいは直後)の他の形態素との間にポーズがあるか否かを示す情報が含まれている。
韻律制御規則制御部105は、機械学習プログラムC4.5を用いて、このような大量の学習データから、ある形態素に対し、その直前(あるいは直後)の他の形態素との間にポーズを挿入するか否かを判定するための、当該形態素と、その前後の形態素との間の接続強度や当該形態素の品詞に対する条件を含むポーズ挿入の推定規則を抽出する。
以上説明したように、上記第1の実施形態によれば、言語単位境界(例えば2つの形態素間の境界)の句読点生起率を求め、さらに、求めた句読点生起率を用いて当該言語単位境界の接続強度を計算し、得られた言語単位境界の接続強度と品詞情報などを含む学習データを用いて、韻律制御を機械学習することで、言語単位境界の接続強度に対する条件を含む、最適な韻律制御のための韻律制御規則を生成する。
(第2の実施形態)
図6は、本発明の第2の実施形態に係る、音声合成のための韻律制御規則生成装置の構成例を示すブロック図である。
この韻律制御規則生成装置では、自然言語の種類に応じて、適切な言語単位を用いて実装する。例えば、中国語の場合は、文字を言語単位にしても良いし、単語を言語単位にしても良い。日本語の場合は、形態素と仮名のいずれでも言語単位としてよい。以下は日本語を対象に、形態素を言語単位とする場合で説明する。
なお、図6において、図1と同一部分には同一符号を付し、異なる部分について説明する。すなわち、図6の韻律制御規則生成装置には、形態素間の接続強度と形態素情報などを用いて、まず韻律境界推定規則を生成する韻律境界推定規則生成部111と、韻律境界推定規則生成部111で生成された韻律境界推定規則を記憶する韻律境界推定規則データベース(韻律境界推定規則DB)112とが追加されている点、韻律制御規則生成部105は、さらに韻律境界情報を用いて韻律制御規則を生成する点が、図1の韻律制御規則生成装置と異なる。
韻律境界推定規則生成部111は、形態素間の接続強度、各形態素の品詞などを含む形態素情報、その他の情報に基づいて、音声データベースに記憶されている韻律境界情報を、機械学習プログラムC4.5を使って分析することで、韻律境界推定規則を生成する。生成された韻律境界推定規則は韻律境界推定規則DB112に記憶される。
韻律制御規則生成部105は、音声データベースに記憶されている韻律境界情報と形態素情報などを基に、基本周波数パターン情報や、音素持続時間長情報、ポーズ情報などの韻律情報を分析して、対応する韻律制御規則を生成する。生成された韻律境界推定規則は韻律境界推定規則DB106に記憶される。
韻律境界推定規則生成部111と、韻律制御規則生成部105で用いる機械学習方法は、回帰木ツールCARTや、ニューラルネットワークを用いた方法を使っても良い。
なお、言語解析部101、句読点生起率推定部103、接続強度計算部104、韻律制御規則生成部105、韻律境界推定規則生成部111等の各機能は、プログラムをコンピュータに実行させることにより実現することができる。
ここでは、主に、図6の韻律制御規則生成装置の韻律境界推定規則生成部111と、韻律制御規則生成部105で、韻律境界推定規則や韻律制御規則を生成する手順をより具体的に説明する。
以下、言語解析部101に入力されるテキストが「あらゆる現実をすべて自分の方へねじ曲げたのだ。」の場合を例にとり説明する。
まず、韻律境界推定規則生成部111について説明する。
韻律境界は韻律語境界と韻律フレーズ境界と呼気段落境界の3種類とする。韻律語は1または複数の形態素で構成され、韻律フレーズは1または複数の韻律語で構成され、呼気段落は1または複数の韻律フレーズで構成される。上記入力テキストの場合では、韻律語は次の5つになる。
「あらゆる」
「現実を」
「すべて」
「自分の方へ」
「ねじ曲げたのだ」
この5つの韻律語の境界を韻律語境界という。また、韻律フレーズは次の3つになる。
「あらゆる現実を」
「すべて自分の方へ」
「ねじ曲げたのだ」
この3つの韻律フレーズの境界を韻律フレーズ境界という。韻律フレーズは韻律語を含むことから、韻律フレーズ境界は必ず韻律語境界であることになる。また、呼気段落は次の2つになる。
「あらゆる現実を」
「すべて自分の方へねじ曲げたのだ」
この2つの呼気段落の境界を呼気段落境界という。呼気段落は韻律フレーズと韻律語を含むことから、呼気段落境界は必ず韻律フレーズ境界であり、韻律語境界であることになる。
言語解析部101と、句読点生起率DB102と、句読点生起率推定部103と、接続強度計算部104の処理動作は、第1の実施形態と同様である(図5の説明参照)。
図5に示すようにして、音声データベースに記憶されている全ての読み上げ用のテキストから、接続強度計算部104や言語解析部101で、形態素間の接続強度と、各形態素の品詞や読みなどの形態素情報を求めた後、韻律境界推定規則生成部111は、これらの情報を用いて、音声データベースに記憶されている読み上げ用のテキストから求めた韻律語境界情報と韻律フレーズ境界情報と呼気段落境界情報をそれぞれ分析して、韻律語境界推定規則と韻律フレーズ境界推定規則と呼気段落境界推定規則を生成する。
ここでは、「決定木」という分類木を生成する機械学習プログラムC4.5を用いて、韻律語境界推定規則と韻律フレーズ境界推定規則と呼気段落境界推定規則をそれぞれ生成する。
(韻律語境界推定規則の生成)
ここでは、ある形態素について、その直前の形態素境界が韻律語境界であるか否かを判定するための推定規則を、音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースに記憶されている音声に対応する読み上げ用のテキストに対して、当該テキスト中の形態素境界が韻律語境界であるかどうかは人間の主観評価などによって決定される。音声データベースには、各読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であれば、例えば「1」、韻律境界でなければ「0」をつけて、音声データベースに記憶されていることとする。
韻律境界推定規則生成部111は、まず機械学習プログラムに与える学習データを生成する。学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる形態素の属性情報である入力情報と、その形態素の直前にある形態素との境界が韻律語境界であるか否かを示す出力情報とを含む。
この学習データの入力情報には、当該形態素と、その直前の形態素との間の接続強度を、当該形態素の属性情報として含まれている。
例えば、形態素の属性情報が接続強度と品詞情報を含むとすると、ある形態素に対する学習データは、次のような情報が含まれている。
当該形態素と、その直前の形態素との間の接続強度;
当該形態素の直前の形態素の品詞;
当該形態素の品詞;
当該形態素の直後の形態素の品詞;
当該形態素と、その直前の形態素との境界が韻律語境界であるか場合には「Yes」、当該境界が韻律語境界でない場合には「No」。
「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「すべて」という形態素に対しては、次のような学習データが作れる。
「28.8, 名詞, 副詞, 名詞, Yes」
ここで、「28.8」は「を」と「すべて」との境界に対して計算される接続強度である。「28.8」の次にある1個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある2個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Yes」により、このような場合に、形態素「すべて」の直前の境界は韻律語境界であることを示している。
このような形式の大量の学習データを、音声データベースに記憶されている全データから作成して、機械学習プログラムC4.5に与える。C4.5で学習した結果として、入力された大量の学習データの中から、ある形態素に対し、その直前の他の形態素との間の境界が韻律後境界であるか否かを判定するための、当該形態素と、その直前の形態素との間の品詞や接続強度に対する条件を含む、次のような韻律語境界推定規則が得られる。
「 If (当該形態素の直前の形態素の主要品詞 = 名詞)
and (当該形態素の主要品詞 = 副詞)
and (当該形態素とその直前の形態素との間の接続強度 < 50)
then 韻律語境界判定 = Yes」
この韻律語境界推定規則は、「品詞が「副詞」である形態素では、その直前に品詞が「名詞」である形態素が存在し、当該「名詞」の形態素との間の接続強度が「50」より小さい場合には、当該形態素と、その直前の形態素との間は韻律語境界である」というものである。
韻律語境界推定規則生成部111で生成された、このような韻律語境界推定規則が韻律語境界推定規則DB112に記憶される。
韻律語境界推定規則を生成する場合と同様にして、韻律フレーズ境界推定規則も生成することができる。
(韻律フレーズ境界推定規則の生成)
ここでは、ある韻律語について、その直前の境界が韻律フレーズ境界であるか否かを判定するための推定規則を音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースには、当該音声データベースに記憶されている音声に対応する読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であるか否かを示す記号とともに、韻律語境界の場合には、それが韻律フレーズ境界であるか否かを示す記号が記憶されている。例えば、ある形態素境界が韻律語境界でない場合には「0」、韻律語境界であるが、韻律フレーズ境界でない場合には「1」、韻律語境界であり、かつ韻律フレーズ境界である場合には「2」が記憶されている。
韻律境界推定規則生成部111は、まず機械学習プログラムに与える学習データを生成する。学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる形態素の属性情報である入力情報と、その形態素の直前にある形態素との間の境界が韻律フレーズであるか否かを示す出力情報とが含まれている。
この学習データの入力情報には、当該形態素と、その直前の形態素との間の接続強度を、当該形態素の属性情報として含まれている。
例えば、形態素の属性情報が接続強度と品詞情報を含むとすると、ある形態素に対する学習データは、次のような情報が含まれている。
当該形態素と、その直前の形態素との間の接続強度;
当該形態素の直前の形態素の品詞;
当該形態素の品詞;
当該形態素の直後の形態素の品詞;
当該形態素と、その直前の形態素との境界が韻律フレーズ境界である場合には「Yes」、当該境界が韻律フレーズ境界でない場合には「No」。
「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「すべて」という形態素に対しては、次のような学習データが作れる。
「28.8, 名詞, 副詞, 名詞, Yes」
ここで、「28.8」は「を」と「すべて」との境界に対して計算される接続強度である。「28.8」の次にある1個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある2個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Yes」により、このような場合に、形態素「すべて」の直前の境界は韻律フレーズ境界であることを示している。
このような形式の大量の学習データを、音声データベースに記憶されている全データから作成して、機械学習プログラムC4.5に与える。C4.5で学習した結果として、入力された大量の学習データの中から、ある形態素に対し、その直前の他の形態素との間の境界が韻律フレーズ境界であるか否かを判定するための、当該形態素と、その直前の形態素との間の品詞や接続強度に対する条件を含む、次のような韻律フレーズ境界推定規則が得られる。
「 If (当該形態素の直前の形態素の主要品詞 = 名詞)
and (当該形態素の主要品詞 = 副詞)
and (当該形態素とその直前の形態素との間の接続強度 < 40)
then 韻律フレーズ境界判定 = Yes」
これらの韻律フレーズ境界推定規則を韻律境界推定規則データベース206に格納する。
この韻律フレーズ境界推定規則は、「品詞が「副詞」である形態素では、その直前に品詞が「名詞」である形態素が存在し、当該「名詞」の形態素との間の接続強度が「40」より小さい場合には、当該形態素と、その直前の形態素との間は韻律フレーズ境界である」というものである。
韻律語境界推定規則を生成する場合と韻律フレーズ境界推定規則を生成する場合と同様にして、呼気段落境界推定規則も生成することができる。
(呼気段落境界推定規則の生成)
ここでは、ある韻律フレーズについて、その直前の境界が呼気段落境界であるか否かを判定するための推定規則を音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースには、当該音声データベースに記憶されている音声に対応する読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であるか否かを示す記号とともに、韻律語境界の場合には、それが韻律フレーズ境界であるか否かを示す記号が記憶されている。さらに、韻律語フレーズ境界の場合には、それが呼気段落境界であるか否かを示す記号が記憶されている。例えば、ある形態素境界が韻律語境界でない場合には「0」、韻律語境界であるが、韻律フレーズ境界でない場合には「1」、韻律語境界であり、かつ韻律フレーズ境界である場合には「2」、韻律語境界かつ韻律フレーズ境界であり、さらに呼気段落境界である場合には「3」が記憶されている。
韻律境界推定規則生成部111は、まず機械学習プログラムに与える学習データを生成する。学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる形態素の属性情報である入力情報と、その形態素の直前にある形態素との間の境界が呼気段落であるか否かを示す出力情報とが含まれている。
この学習データの入力情報には、当該形態素と、その直前の形態素との間の接続強度を、当該形態素の属性情報として含まれている。
例えば、形態素の属性情報が接続強度と品詞情報を含むとすると、ある形態素に対する学習データは、次のような情報が含まれている。
当該形態素と、その直前の形態素との間の接続強度;
当該形態素の直前の形態素の品詞;
当該形態素の品詞;
当該形態素の直後の形態素の品詞;
当該形態素と、その直前の形態素との境界が呼気段落境界である場合には「Yes」、当該境界が呼気段落境界でない場合には「No」。
「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「すべて」という形態素に対しては、次のような学習データが作れる。
「28.8, 名詞, 副詞, 名詞, Yes」
ここで、「28.8」は「を」と「すべて」との境界に対して計算される接続強度である。「28.8」の次にある1個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある2個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Yes」により、このような場合に、形態素「すべて」の直前の境界は呼気段落境界であることを示している。
このような形式の大量の学習データを、音声データベースに記憶されている全データから作成して、機械学習プログラムC4.5に与える。C4.5で学習した結果として、入力された大量の学習データの中から、ある形態素に対し、その直前の他の形態素との間の境界が韻律フレーズ境界であるか否かを判定するための、当該形態素と、その直前の形態素との間の品詞や接続強度に対する条件を含む、次のような韻律フレーズ境界推定規則が得られる。
「 If (当該形態素の直前の形態素の主要品詞 = 名詞)
and (当該形態素の主要品詞 = 副詞)
and (当該形態素とその直前の形態素との間の接続強度 < 30)
then 呼気段落境界判定 = Yes」
これらの呼気段落境界推定規則を韻律境界推定規則データベース206に格納する。
この呼気段落境界推定規則は、「品詞が「副詞」である形態素では、その直前に品詞が「名詞」である形態素が存在し、当該「名詞」の形態素との間の接続強度が「30」より小さい場合には、当該形態素と、その直前の形態素との間は呼気段落境界である」というものである。
次に、韻律制御規則生成部105について説明する。ここでは、韻律境界情報に基づいて、音韻継続時間長の代表値の推定規則を生成する場合を説明する。
音声データベースに記憶されている各音声に含まれる、子音と母音に分類された各音韻の継続時間長の分布に基づいて、音声データベースには、各音韻に対し、D(Dは任意の正の整数)個までの分類された代表値が記憶されている。ここでは、音声データベースに記憶されているデータを用いて、各音韻について、当該音韻が属する形態素の韻律境界情報から、その音韻の継続時間長の代表値を推定する規則を、機械学習プログラムC4.5用いて生成する。
韻律制御規則生成部105は、まず機械学習プログラムに与える学習データを生成する。学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる各音韻に対して、当該音韻が属する形態素の韻律境界情報である入力情報と、当該音韻の継続時間長の代表値である出力情報とが含まれている。
ある音韻に対する学習データの入力情報である韻律境界情報には、次のような情報が含まれている。
当該音韻を含む形態素と、その直前の形態素との境界における韻律境界の種類(例えば、「呼気段落境界」と、「韻律フレーズ境界」と、「韻律語境界」と、「呼気段落境界」や「韻律フレーズ境界」や「韻律語境界」でもない形態素間の境界を意味する「一般境界」とのうちのいずれか1つ);
当該音韻を含む形態素と、その直後の形態素との境界における韻律境界の種類(例えば、「呼気段落境界」と、「韻律フレーズ境界」と、「韻律語境界」と、「一般境界」とのうちのいずれか1つ);
当該音韻と、その直前の呼気段落境界との間のモーラ数;
当該音韻と、その直後の呼気段落境界との間のモーラ数;
当該音韻と、その直前の韻律フレーズ境界との間のモーラ数;
当該音韻と、その直後の韻律フレーズ境界との間のモーラ数;
当該音韻と、その直前の韻律語境界との間のモーラ数;
当該音韻と、その直後の韻律語境界との間のモーラ数;
「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「を」の音韻に対しては、次のような学習データが作れる。
なお、モーラは、仮名に相当し、音節の数え方は「ん」や「っ」や長音の「う」などは1音節としない。例えば、「現実」の読みは「げんじつ」であるため、3音節4モーラになる。
「一般境界, 呼気段落境界, 8, 0, 8, 0,
4, 0, 300ms」
ここで、「一般境界」は、「を」とその直前の形態素との境界における韻律境界の種類であり、「呼気段落境界」は、「を」とその直後の形態素との境界における韻律境界の種類である。次の「8」は、「を」と、その直前の呼気段落境界との間のモーラ数であって、上記入力テキストの場合は、文頭からのモーラ数になる。次の「0」は、「を」と、その直後の呼気段落境界との間のモーラ数であって、上記入力テキストの場合、「を」の直後の境界が呼気段落境界になるから、「0」の値を取る。その次の「8」は、「を」と、その直前の韻律フレーズ境界との間のモーラ数であって、上記入力テキストの場合は、文頭からのモーラ数になる。さらにその次の「0」は、「を」と、その直後の韻律フレーズ境界との間のモーラ数であって、上記入力テキストの場合、「を」の直後の境界が韻律フレーズ境界でもあるから、「0」の値を取る。その次の「4」は、「を」と、その直前の韻律語境界との間のモーラ数であって、上記入力テキストの場合、「現実」の「ゲンジツ」という4モーラになる。さらにその次の「0」は、「を」と、その直後の韻律語境界との間のモーラ数であって、「を」の直後が韻律語境界でもあるから、「0」の値を取る。さらにその次の「300ms」は、「を」の継続時間長の代表値である。
このような形式の大量の学習データを、音声データベースに記憶されている全ての音韻に対して作成して、機械学習プログラムC4.5に与える。C4.5で学習した結果として、入力された大量の学習データの中から、ある音韻に対し、その継続時間長を決定するための、当該音韻を含む形態素と、その直前/直後の形態素との境界における韻律境界の種類、その直前/直後の呼気段落境界/韻律フレーズ境界/韻律語境界との間のモーラ数に対する条件を含む、音韻継続時間長の代表値を推定する規則が得られる。例えば、「を」の音韻に対して、次のような音韻継続時間長の代表値を推定する規則が得られる。
「If (当該音韻を含む形態素と、その直前の形態素との境界における韻律境界の種類 = 一般境界)
and (当該音韻を含む形態素と、その直後の形態素との境界における韻律境界の種類 = 呼気段落境界)
and (当該音韻と、その直前の呼気段落境界との間のモーラ数 < 10 )
and (当該音韻と、その直前の韻律フレーズ境界との間のモーラ数 > 6 )
and (当該音韻と、その直後の呼気段落境界との間のモーラ数 = 0 )
and (当該音韻と、その直前の韻律語境界との間のモーラ数 > 2)
then 継続時間長の代表値 = 300ms」
このような音韻継続時間長の代表値推定規則は、韻律制御規則DB106に記憶される。
このように、上記第2の実施形態によれば、言語単位境界の句読点生起率を推定し、そこから言語単位境界の接続強度を計算し、接続強度と品詞情報などを用いて、ある形態素に対し、その直前の他の形態素との間の境界が、韻律語境界/韻律フレーズ境界/呼気段落であるか否かを判定するための、当該形態素と、その直前の形態素との間の品詞や接続強度に対する条件を含む、韻律境界推定規則を生成することができる。
また、形態素間の韻律境界の種類(例えば、「呼気段落境界」、「韻律フレーズ境界」、「韻律語境界」、「呼気段落境界」や「韻律フレーズ境界」や「韻律語境界」でもない形態素間の単なる境界を意味する「一般境界」など)と、形態素間の接続強度などを用いて、形態素間の韻律境界の種類や、韻律境界(呼気段落境界、韻律フレーズ境界、韻律語境界など)までのモーラ数などに対する条件を含む、音声合成のための韻律制御規則を生成することができる。
(第3の実施形態)
図3は、本発明の第3の実施形態に係わる音声合成装置を示すブロック図である。この音声合成装置は、第1の実施形態で説明した図1の韻律制御規則生成装置で生成される韻律制御規則を用いて、入力されたテキストに対応する音声合成を行う。なお、ここでは、形態素を言語単位とする。
第3の実施形態に係る音声合成装置は、大きく分けて、言語解析部301,韻律制御部300、音声波形生成部321から構成されている。
言語解析部301は、テキストが入力されると、当該テキストを言語単位(例えば、ここでは形態素単位)に切り分けるととともに、各形態素の品詞や読みなどの形態素情報などを出力する。
韻律制御部300は、言語解析部301から出力された各形態素の品詞や読みなどの情報や、図1の図1の韻律制御規則生成装置の韻律制御規則DB106に記憶された韻律制御規則を用いて、韻律情報を生成する。
音声波形生成部321は、上記韻律情報やテキストの読みを用いて、入力テキストに対応する合成音声の波形を生成する。
図1の音声合成装置の特徴は韻律制御部300にある。韻律制御部300は、句読点生起率データベース(句読点生起率DB)311、句読点生起率推定部312、接続強度計算部313、韻律制御規則適用部315、韻律制御規則データベース(韻律制御規則DB)106を含む。
なお、言語解析部301、句読点生起率推定部312、接続強度計算部313、韻律制御規則適用部315、音声波形生成部321等の各機能は、プログラムをコンピュータに実行させることにより実現することができる。
句読点生起率DB311は、図1の句読点生起率DB102と同様に、あらゆる品詞のうちの任意の2つの品詞からなる品詞系列について、その直前、当該2つの品詞の間、及び当該2つの品詞の直後のそれぞれにおいて句読点が生起する度合い、すなわち句読点生起率が予め記憶されている。
句読点生起率推定部312は、図1の句読点生起率推定部103と同様に、言語解析部101で入力テキストに対し行った言語解析の結果得られる、当該入力テキストに対応する形態素系列中の連続する2つの形態素の間(2つの形態素の境界)の句読点生起率を求める。すなわち、ここでは、当該入力テキストの先頭の形態素から数えて、「j−1」番目と「j」番目の2つの連続する形態素の間の句読点生起率、すなわち、「j」番目の形態素の直前の形態素境界における句読点生起率として、以下に示すような「I+1」個の句読点生起率を求める。なお、Iは「1」以上の任意の正の整数である。
(1)当該入力テキストの「j」番目の形態素からI個の形態素で構成される形態素系列v(j)における、「j」番目の形態素の直前の形態素境界での句読点生起率P(v(j))。これを第1の句読点生起率P(v(j))とする。
(2)当該入力テキストの「j−1」番目の形態素からI個の形態素で構成される形態素系列v(j−1)における、「j」番目の形態素の直前の形態素境界での句読点生起率P(v(j−1))。これを第2の句読点生起率P(v(j−1))とする。
(3)当該入力テキストの「j−I」番目の形態素からI個の形態素で構成される形態素系列v(j−I)における、「j」番目の形態素の直前の形態素境界での句読点生起率P(v(j−I))。これを第Iの句読点生起率P(v(j−I))とする。
そして、「I+1」個の第1〜第Iの句読点生起率からなる句読点生起率ベクター(P(v(j)), P(v(j−1)),…, P(v(j−I)))を出力する。
例えば、I=2とすると、句読点生起率推定部312は、「j−1」番目と「j」番目の2つの連続する形態素の間の句読点生起率として、以下に示すような第1〜第3の句読点生起率を上記句読点生起率DB311から検索する。
(1)「j」番目の形態素及びその次の「j+1」番目の形態素からなる形態素系列v(j)の直前における句読点生起率。これを第1の句読点生起率P(v(j))とする。
(2)「j−1」番目の形態素及びその次の「j」番目の形態素からなる形態素系列(v(j−1))の「j−1」番目の形態素と「j」番目の形態素の間における句読点生起率。これを第2の句読点生起率P(v(j−1))とする。
(3)「j−2」番目の形態素及びその次の「j−1」番目の形態素からなる形態素系列v(j−2)の直後における句読点生起率。これを、第3の句読点生起率P(v(j−2))とする。
句読点生起率推定部312は、入力テキスト中の連続する2つの形態素毎に、この2つの形態素の間の句読点生起率として、上記第1〜第3の句読点生起率からなる句読点生起率ベクター(P(v(j))、 P(v(j−1))、 P(v(j−2))を出力する。
接続強度計算部313は、図1の接続強度計算部104と同様に、入力テキスト中の連続する2つの形態素毎の上記句読点生起率ベクターから、当該連続する2つの形態素間の接続強度を算出する。
韻律制御規則DB106は、図1の韻律制御規則生成装置で生成された韻律制御規則が記憶されている。
韻律制御規則適用部315は、言語解析部301で得られた形態素情報や、接続強度計算部313で得られた形態素間の接続強度などを用いて、韻律制御規則DB106に記憶されている韻律制御規則を選択して、韻律情報を生成する。
図8は、図7の音声合成装置の処理動作を説明するためのフローチャートである。なお図8において、図5と同一部分には同一符号を付し、異なる部分について説明する。すなわち、図8において、テキストが入力され、当該入力テキストから、形態素間の接続強度を求めるまでの処理動作(ステップS1〜ステップS7)は、図5と同様である。
韻律制御規則適用部315は、ステップS1〜ステップS7の処理により、入力テキストから得られた形態素情報、形態素間の接続強度を用いて、韻律制御規則DB106に記憶されている韻律制御規則の中から、当該形態素情報や形態素間の接続強度などが条件にマッチする韻律制御規則を検索し、当該検索された韻律制御規則を用いて、韻律情報を生成する(ステップS10)。
次に、ステップS11へ進み、音声波形生成部321は、生成された韻律情報やテキストの読みを用いて、入力テキストに対応する合成音声の波形を生成する。
(第4の実施形態)
図9は、本発明の第4の実施形態に係る音声合成装置を示すブロック図である。この音声合成装置は、第2の実施形態で説明した図6の韻律制御規則生成装置で生成される韻律制御規則を用いて、入力されたテキストに対応する音声合成を行う。なお、ここでは、形態素を言語単位とする。
なお、図9において、図7と同一部分には同一符号を付し、異なる部分について説明する。すなわち、図9のでは、韻律境界推定規則適用部331と、図6の韻律境界推定規則DB112とが追加されている。そして、韻律制御規則適用部315は、韻律制御規則適用部315で求めた、形態素間の韻律境界の種類や、言語解析部301で得られた形態素情報などを用いて、韻律制御規則DB106に記憶されている韻律制御規則を選択し、韻律情報を生成する。
なお、言語解析部301、句読点生起率推定部312、接続強度計算部313、韻律制御規則適用部315、音声波形生成部321、韻律境界推定規則適用部331等の各機能は、プログラムをコンピュータに実行させることにより実現することができる。
韻律境界推定規則DB112には、図6の韻律制御規則生成装置で生成された韻律境界推定規則が記憶され、韻律制御規則DB106には、図6の韻律制御規則生成装置で生成された韻律制御規則が記憶されている。
図10は、図9の音声合成装置の処理動作を説明するためのフローチャートである。なお図10において、図5,図8と同一部分には同一符号を付し、異なる部分について説明する。すなわち、図10において、テキストが入力され、当該入力テキストから、形態素間の接続強度を求めるまでの処理動作(ステップS1〜ステップS7)は、図5、図8と同様である。
韻律境界推定規則適用部331は、ステップS1〜ステップS7の処理により、入力テキストから得られた形態素情報、形態素間の接続強度などを用いて、韻律境界推定規則DB112に記憶されている韻律境界推定規則の中から、当該形態素情報や形態素間の接続強度などが条件にマッチする韻律境界推定規則を検索し、当該検索された韻律境界推定規則に含まれる判定結果が韻律境界(例えば、韻律語境界や韻律フレーズ境界や呼気段落境界など)である形態素境界を求める(ステップS12)。
次に、ステップS13へ進み、韻律制御規則適用部315は、言語解析部301で得られた形態素情報や、韻律境界推定規則適用部331で求めた韻律境界などを用いて、韻律制御規則DB106に記憶されている韻律制御規則のなかから、当該形態素情報や韻律境界などが条件にマッチする韻律制御規則を検索し、当該検索された韻律制御規則を用いて韻律情報を生成する。
さらにステップS14へ進み、音声波形生成部321は、生成された韻律情報やテキストの読みを用いて、入力テキストに対応する合成音声の波形を生成する。
(第5の実施形態)
図5は、本発明の第5の実施形態に係る音声合成装置を示すブロック図である。なお、図11において、図9と同一部分には同一符号を付している。なお、ここでも、形態素を言語単位として説明する。
図11の音声合成装置は、第2の実施形態で説明した図6の韻律制御規則生成装置で生成された複数の(例えば、ここでは5つの)韻律境界推定規則DB112a〜112eを用いて韻律境界の種類を求める点が、図9と大きく異なる。そして、このために、図11の音声合成装置では、複数の(例えば、ここでは5つの)韻律境界推定規則DB112a〜112e、韻律境界候補解選択部341、韻律境界認定部342が追加されている。そして、図10のステップS12の処理が、図9の音声合成装置と異なる。
なお、言語解析部301、句読点生起率推定部312、接続強度計算部313、韻律制御規則適用部315、音声波形生成部321、韻律境界候補解選択部341、韻律境界認定部342等の各機能は、プログラムをコンピュータに実行させることにより実現することができる。
複数の韻律境界推定規則DB112a〜112eは、例えば異なる人物の音声データの韻律境界情報から図6の韻律制御規則生成装置で生成された韻律境界推定規則がそれぞれ記憶されている。
ステップS12において、韻律境界候補解選択部341は、まず、これら複数の韻律境界推定規則DB112a〜112eのそれぞれから、入力テキストから得られた形態素情報、形態素間の接続強度などが条件にマッチする韻律境界推定規則を検索する。韻律境界推定規則DBDB112a〜112eのそれぞれから検索された複数の(ここでは、例えば5つの)韻律境界推定規則に含まれている韻律境界であるか否かの判定結果、あるいは、韻律語境界・韻律フレーズ境界・呼気段落境界、一般境界などの韻律境界の種類の判定結果を、候補解(1)〜(5)とする。
例えば、入力テキスト中の次のような条件を満たす形態素の場合、当該形態素とその直前の形態素との間の韻律境界の種類を推定する場合について説明する。
「(当該形態素の直前の形態素の主要品詞 = 名詞)
and (当該形態素の主要品詞 = 副詞)
and (当該形態素とその直前の形態素との間の接続強度 > 25)」
韻律境界候補解選択部341は、この条件にマッチする韻律境界推定規則を、韻律境界推定規則DBDB112a〜112eのそれぞれから検索する。
韻律境界推定規則DB112a、112b、112cから、「then」以下の判定結果が「韻律フレーズ境界」である韻律境界推定規則が得られ、韻律境界推定規則DBDB112d、112eから、判定結果が「韻律語境界」である韻律境界推定規則が得られたとする。
次に、韻律境界認定部342は、得られた候補解(1)〜(5)の中に、予め定められた回数以上で、しかも最も数の多い判定結果を、当該境界における韻律境界の種類と決定する。
例えば、上記例の場合、「韻律フレーズ境界」という判定結果が3つ、「韻律語境界」という判定結果が2つであるから、多数決により、当該境界は「韻律フレーズ境界」と決定する。
このようにして、ステップS12では、形態素間の境界の種別が決定すると、ステップS13へ進み、韻律制御規則適用部315は、言語解析部301で得られた形態素情報や、韻律境界認定部342で求めた韻律境界などを用いて、韻律制御規則DB106に記憶されている韻律制御規則のなかから、当該形態素情報や韻律境界などが条件にマッチする韻律制御規則を検索し、当該検索された韻律制御規則を用いて韻律情報を生成する。
以上説明したように、上記第1乃至第2の実施形態によれば、大規模のテキストデータベースから求めた句読点生起率、あるいは、言語単位境界の接続強度を用いることで、小規模の音声データベースから韻律制御規則を機械学習の手法で容易に構築することができる。また、構文解析を用いることなく、自然性の高い韻律を出力できる韻律制御規則を生成できる。
句読点生起率は事前に計算してデータベース化することが出来る。そのため、上記第3〜第5の実施形態によれば、上記第1乃至第2の実施形態で生成された韻律制御規則を用いて音声合成の韻律制御を行うことにより、計算量を大幅に削減することができ、計算能力の比較的低い組込システムにも容易に適用する応用しやすい音声合成装置が得られる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係る韻律制御規則生成装置の構成例を示す図。 句読点生起率データベースに記憶されている情報を説明するための図。 句読点生起率データベースに記憶されている情報を示す図。 句読点生起率推定部で求める句読点生起率について説明するための図。 図1の韻律制御規則生成装置の処理動作を説明するためのフローチャート。 第2の実施形態に係る韻律制御規則生成装置の構成例を示す図。 第3の実施形態に係る音声合成装置の構成例を示すブロック図。 図7の音声合成装置の処理動作を説明するためのフローチャート。 第4の実施形態に係る音声合成装置の構成例を示すブロック図。 図9の音声合成装置の処理動作を説明するためのフローチャート。 第5の実施形態に係る音声合成装置の構成例を示すブロック図。
符号の説明
101…言語解析部、102…句読点生起率データベース、103…句読点生起率推定部、104…接続強度計算部、105…韻律制御規則生成部、106…韻律制御規則データベース、111…韻律境界推定規則生成部、112…韻律境界推定規則データベース

Claims (20)

  1. 入力テキストを言語単位に切り分ける第1のステップと、
    前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第2のステップと、
    前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第3のステップと、
    を含むことを特徴とする韻律制御規則生成方法。
  2. 前記言語単位間の韻律境界の種類は、韻律語境界、韻律フレーズ境界、及び呼気段落境界のうち少なくとも1つと、これらのいずれでもない言語単位境界とを含むことを特徴とする請求項1記載の韻律制御規則生成方法。
  3. 前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第4のステップと、
    をさらに含むことを特徴とする請求項1記載の韻律制御規則生成方法。
  4. 前記第2のステップは、前記入力テキストの先頭から「j−1」(jは正の整数)番目の言語単位と「j」番目の言語単位との間の境界における句読点生起率を、「j−i」(i=0,1,…I、Iは1以上の正の整数)番目の言語単位からI個の言語単位で構成される全部で「I+1」個の言語単位系列のそれぞれから推定することを特徴とする請求項1記載の韻律制御規則生成方法。
  5. 「j−1」番目の言語単位と「j」番目の言語単位との間の境界における句読点生起率は、各言語単位系列の品詞の並びから推定される「j−1」番目の言語単位と「j」番目の言語単位との間の境界における第1乃至第「I+1」の句読点生起率の加重平均値であることを特徴とする請求項4記載の韻律制御規則生成方法。
  6. 入力テキストを言語単位に切り分ける第1のステップと、
    前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第2のステップと、
    前記第2のステップで求めた言語単位間の句読点生起率を基に当該言語単位間の韻律境界の種類を決定する第3のステップと、
    前記第3のステップで決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する第4のステップと、
    選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する第5のステップと、
    を含む音声合成方法。
  7. 前記第3のステップは、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則群のなかから、少なくとも前記第2のステップで求めた言語単位間の句読点生起率が前記条件を満たす韻律境界推定規則を選択し、当該選択された韻律境界推定規則から、当該言語単位間の韻律境界の種類を決定することを特徴とする請求項6記載の音声合成方法。
  8. 前記第4のステップは、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則群のなかから、少なくとも前記第3のステップで決定された言語単位間の韻律境界の種類が前記条件を満たす韻律制御規則を選択することを特徴とする請求項6記載の音声合成方法。
  9. 前記第3のステップは、言語単位間の句読点生起率を含む、言語単位間の韻律境界の種類を決定するための複数の韻律境界推定規則群から、少なくとも前記第2のステップで求めた言語単位間の句読点生起率が前記条件を満たす複数の韻律境界推定規則をそれぞれ選択し、当該選択された複数の韻律境界推定規則から、当該言語単位間の韻律境界の種類を多数決により決定することを特徴とする請求項6記載の音声合成方法。
  10. 前記韻律境界推定規則は、言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に生成されることを特徴とする請求項7または9記載の音声合成方法。
  11. 前記韻律制御規則は、言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に生成されることを特徴とする請求項8記載の音声合成方法。
  12. 入力テキストを言語単位に切り分ける手段と、
    前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する推定手段と、
    前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第1の生成手段と、
    を具備したことを特徴とする韻律制御規則生成装置。
  13. 前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第2の生成手段と、
    をさらに具備したことを特徴とする請求項12記載の韻律制御規則生成装置。
  14. 入力テキストを言語単位に切り分ける手段と、
    前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する推定手段と、
    前記推定手段で求めた言語単位間の句読点生起率及び言語単位の属性を基に当該言語単位間の韻律境界の種類を決定する決定手段と、
    前記決定手段で決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する選択手段と、
    選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する手段と、
    を具備したことを特徴とする音声合成装置。
  15. 言語単位間の境界に関する複数の学習データを基に生成された、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則群を記憶する第1の記憶手段をさらに具備し、
    前記決定手段は、前記韻律境界推定規則群のなかから、少なくとも前記推定手段で求めた言語単位間の句読点生起率及び当該言語単位の品詞が前記条件を満たす韻律境界推定規則を選択し、当該選択された韻律境界推定規則から、当該言語単位間の韻律境界の種類を決定することを特徴とする請求項14記載の音声合成装置。
  16. 韻律に関する複数の学習データを基に生成された、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則群を記憶するための第2の記憶手段をさらに具備し、
    前記選択手段は、前記韻律制御規則群のなかから、少なくとも前記決定手段で決定された言語単位間の韻律境界の種類が前記条件を満たす韻律制御規則を選択することを特徴とする請求項14記載の音声合成装置。
  17. 言語単位間の境界に関する複数の学習データを基に生成された、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための複数の韻律境界推定規則群を記憶する第1の記憶手段をさらに具備し、
    前記決定手段は、前記複数の韻律境界推定規則群から、少なくとも前記推定手段で求めた言語単位間の句読点生起率が前記条件を満たす複数の韻律境界推定規則をそれぞれ選択し、当該選択された複数の韻律境界推定規則から、当該言語単位間の韻律境界の種類を多数決により決定することを特徴とする請求項14記載の音声合成装置。
  18. コンピュータに、
    入力テキストを言語単位に切り分ける第1のステップと、
    前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第2のステップと、
    前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第3のステップと、
    を実行させるための韻律制御規則生成プログラム。
  19. 前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第4のステップをさらに含むことを特徴とする請求項18記載の韻律制御規則生成プログラム。
  20. コンピュータに、
    入力テキストを言語単位に切り分ける第1のステップと、
    前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点積率を、当該境界近傍の複数の言語単位の属性を基に推定する第2のステップと、
    前記第2のステップで求めた言語単位間の前記句読点生起率を基に当該言語単位間の韻律境界の種類を決定する第3のステップと、
    前記第3のステップで決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する第4のステップと、
    選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する第5のステップと、
    を実行させるための音声合成プログラム。
JP2005306086A 2005-10-20 2005-10-20 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム Active JP4559950B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005306086A JP4559950B2 (ja) 2005-10-20 2005-10-20 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
CNA2006101729230A CN1971708A (zh) 2005-10-20 2006-10-20 韵律控制规则产生方法和设备、及语音合成方法和设备
US11/583,969 US7761301B2 (en) 2005-10-20 2006-10-20 Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005306086A JP4559950B2 (ja) 2005-10-20 2005-10-20 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2007114507A JP2007114507A (ja) 2007-05-10
JP4559950B2 true JP4559950B2 (ja) 2010-10-13

Family

ID=37986373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005306086A Active JP4559950B2 (ja) 2005-10-20 2005-10-20 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム

Country Status (3)

Country Link
US (1) US7761301B2 (ja)
JP (1) JP4559950B2 (ja)
CN (1) CN1971708A (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7949538B2 (en) * 2006-03-14 2011-05-24 A-Life Medical, Inc. Automated interpretation of clinical encounters with cultural cues
US8731954B2 (en) * 2006-03-27 2014-05-20 A-Life Medical, Llc Auditing the coding and abstracting of documents
US8682823B2 (en) * 2007-04-13 2014-03-25 A-Life Medical, Llc Multi-magnitudinal vectors with resolution based on source vector features
US7908552B2 (en) 2007-04-13 2011-03-15 A-Life Medical Inc. Mere-parsing with boundary and semantic driven scoping
US9946846B2 (en) 2007-08-03 2018-04-17 A-Life Medical, Llc Visualizing the documentation and coding of surgical procedures
CN101572083B (zh) * 2008-04-30 2011-09-07 富士通株式会社 韵律词组词方法和装置
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
JP5743625B2 (ja) * 2011-03-17 2015-07-01 株式会社東芝 音声合成編集装置および音声合成編集方法
JP5722295B2 (ja) * 2012-11-12 2015-05-20 日本電信電話株式会社 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US10541053B2 (en) 2013-09-05 2020-01-21 Optum360, LLCq Automated clinical indicator recognition with natural language processing
US10133727B2 (en) 2013-10-01 2018-11-20 A-Life Medical, Llc Ontologically driven procedure coding
CN104021784B (zh) * 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
US9542929B2 (en) 2014-09-26 2017-01-10 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
CN105551481B (zh) * 2015-12-21 2019-05-31 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN106484134A (zh) * 2016-09-20 2017-03-08 深圳Tcl数字技术有限公司 基于安卓系统的语音输入标点符号的方法及装置
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
CN107767870B (zh) * 2017-09-29 2021-03-23 百度在线网络技术(北京)有限公司 标点符号的添加方法、装置和计算机设备
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11017761B2 (en) 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
CN112307712B (zh) * 2019-07-31 2024-04-16 株式会社理光 文本评价装置和方法以及存储介质和计算机装置
CN113516963B (zh) * 2020-04-09 2023-11-10 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱
CN112509552B (zh) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03225400A (ja) * 1990-01-31 1991-10-04 Nec Corp ポーズ長決定方式
JPH06161485A (ja) * 1992-11-24 1994-06-07 Nippon Telegr & Teleph Corp <Ntt> 合成音声ポーズ設定方式
JPH11344998A (ja) * 1998-06-03 1999-12-14 Nippon Telegr & Teleph Corp <Ntt> 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JP2001075584A (ja) * 1999-09-07 2001-03-23 Canon Inc 自然言語処理方法及び前記方法を用いた音声合成装置
JP2001083987A (ja) * 1999-08-30 2001-03-30 Internatl Business Mach Corp <Ibm> 記号挿入装置およびその方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
JP3357796B2 (ja) 1996-09-06 2002-12-16 株式会社東芝 音声合成装置及び同装置における韻律情報生成方法
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
US7136802B2 (en) * 2002-01-16 2006-11-14 Intel Corporation Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US7558732B2 (en) * 2002-09-23 2009-07-07 Infineon Technologies Ag Method and system for computer-aided speech synthesis
CN1945693B (zh) * 2005-10-09 2010-10-13 株式会社东芝 训练韵律统计模型、韵律切分和语音合成的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03225400A (ja) * 1990-01-31 1991-10-04 Nec Corp ポーズ長決定方式
JPH06161485A (ja) * 1992-11-24 1994-06-07 Nippon Telegr & Teleph Corp <Ntt> 合成音声ポーズ設定方式
JPH11344998A (ja) * 1998-06-03 1999-12-14 Nippon Telegr & Teleph Corp <Ntt> 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JP2001083987A (ja) * 1999-08-30 2001-03-30 Internatl Business Mach Corp <Ibm> 記号挿入装置およびその方法
JP2001075584A (ja) * 1999-09-07 2001-03-23 Canon Inc 自然言語処理方法及び前記方法を用いた音声合成装置

Also Published As

Publication number Publication date
US7761301B2 (en) 2010-07-20
JP2007114507A (ja) 2007-05-10
CN1971708A (zh) 2007-05-30
US20070094030A1 (en) 2007-04-26

Similar Documents

Publication Publication Date Title
JP4559950B2 (ja) 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP4114888B2 (ja) 声質変化箇所特定装置
EP2958105B1 (en) Method and apparatus for speech synthesis based on large corpus
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
US20080059190A1 (en) Speech unit selection using HMM acoustic models
US20020095289A1 (en) Method and apparatus for identifying prosodic word boundaries
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP5625827B2 (ja) 形態素解析装置、音声合成装置、形態素解析方法及び形態素解析プログラム
US20110238420A1 (en) Method and apparatus for editing speech, and method for synthesizing speech
JP2009139677A (ja) 音声処理装置及びそのプログラム
WO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
Chomphan et al. Tone correctness improvement in speaker-independent average-voice-based Thai speech synthesis
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
US20130117026A1 (en) Speech synthesizer, speech synthesis method, and speech synthesis program
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
Bahaadini et al. Implementation and evaluation of statistical parametric speech synthesis methods for the Persian language
JP3571925B2 (ja) 音声情報処理装置
Samlowski The syllable as a processing unit in speech production: evidence from frequency effects on coarticulation
JPH05134691A (ja) 音声合成方法および装置
JPH0962286A (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100629

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100723

R151 Written notification of patent or utility model registration

Ref document number: 4559950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 3