JP2002073070A - 音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法 - Google Patents

音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法

Info

Publication number
JP2002073070A
JP2002073070A JP2000259124A JP2000259124A JP2002073070A JP 2002073070 A JP2002073070 A JP 2002073070A JP 2000259124 A JP2000259124 A JP 2000259124A JP 2000259124 A JP2000259124 A JP 2000259124A JP 2002073070 A JP2002073070 A JP 2002073070A
Authority
JP
Japan
Prior art keywords
morpheme
accent
pose
attribute information
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000259124A
Other languages
English (en)
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000259124A priority Critical patent/JP2002073070A/ja
Publication of JP2002073070A publication Critical patent/JP2002073070A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 合成音声に付与するポーズやアクセントパタ
ーンを高精度に推定し、自然で高品質な合成音声を生成
する。 【解決手段】 各形態素の属性情報と各形態素の前後に
隣接する形態素の属性情報との関係を統計的に学習して
求めたポーズ情報決定規則103に従って、各形態素の
ポーズ情報を高精度に推定し、合成音声に付与するポー
ズを決定する。また、各形態素の属性情報と各形態素の
前後に隣接する形態素の属性情報との関係を統計的に学
習して求めたアクセントクラス決定規則104に従っ
て、各形態素のアクセントクラスを高精度に推定し、合
成音声に付与するアクセントを決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はテキストから合成音
声を生成する技術に関するものである。
【0002】
【従来の技術】適切にポーズ(呼気段落)の付与するこ
とは、テキストから自然で理解しやすい合成音声を生成
するための重要な課題の一つである。また、適切にアク
セントパターン(声の高低のパターン)を付与すること
も、テキストから自然で理解しやすい合成音声を生成す
るための重要な課題の一つである。
【0003】
【発明が解決しようとする課題】このような課題を解決
する手法の一つに、統計的な手法を利用して大量の学習
データを学習し、合成音声に付与するポーズを推定する
規則を作成したり、合成音声に付与するアクセントパタ
ーンを推定する規則を作成したりする手法が提案されて
いる。しかしながら、このような手法では、複雑な構文
解析や高い計算能力を必要とすることなく高精度に得ら
れる要因を数多く、広範囲に用意しなければならないと
いう問題がある。
【0004】また、このような手法を利用し、ポーズを
推定する規則やアクセントのパターンを推定する規則を
独立に作成した場合には、ポーズを付与する位置や長さ
に応じてアクセントパターンが変化する場合やその逆の
場合に対応することができないという問題もある。
【0005】本発明は上記の問題に鑑みてなされたもの
であり、合成音声に付与するポーズやアクセントのパタ
ーンを高精度に推定し、自然で高品質な合成音声を生成
することを目的とする。
【0006】
【課題を解決するための手段】本発明の目的を達成する
ために、本発明の音声処理方法によれば、キストを構成
する形態素を求め、各形態素の属性情報を得る解析工程
と、複数の形態素の属性情報と第1の規則とに基づき、
各形態素に対応するポーズに関する情報であるポーズ情
報を得るポーズ推定工程と、各形態素のポーズ情報に基
づき、前記テキストに対応する合成音声にポーズを付与
するポーズ付与工程と、複数の形態素の属性情報と第2
の規則とに基づき、各形態素に対応するアクセントに関
する情報であるアクセントクラスを得るアクセント推定
工程と、各形態素のアクセントクラスに基づき、前記テ
キストに対応する合成音声にアクセントを付与するアク
セント付与工程とを有することを特徴とする。
【0007】また、本発明の音声処理装置によれば、テ
キストを構成する形態素を求め、各形態素の属性情報を
得る解析手段と、複数の形態素の属性情報と第1の規則
とに基づき、各形態素のポーズに関する情報であるポー
ズ情報を得るポーズ推定手段と、各形態素のポーズ情報
に基づき、前記テキストに対応する合成音声にポーズを
付与するポーズ付与手段と、複数の形態素の属性情報と
第2の規則とに基づき、各形態素のアクセントに関する
情報であるアクセントクラスを得るアクセント推定手段
と、各形態素のアクセントクラスに基づき、前記テキス
トに対応する合成音声にアクセントを付与するアクセン
ト付与手段とを有することを特徴とする。
【0008】また、本発明の記憶媒体によれば、上述の
音声処理方法を実現するためのプログラムを格納する。
【0009】また、本発明の自然言語処理方法によれ
ば、第1の形態素の属性情報と前記第1の形態素の前に
ある第2の形態素の属性情報と前記第1の形態素の後に
ある第3の形態素の属性情報と前記第1の形態素に対応
するポーズに関する情報との関係を統計的に学習し、前
記第1の形態素に対応するポーズを推定する規則を作成
することを特徴とする。
【0010】また、本発明の自然言語処理方法によれ
ば、第1の形態素の属性情報と前記第1の形態素の前に
ある第2の形態素の属性情報と前記第1の形態素の後に
ある第3の形態素の属性情報と前記第1の形態素に対応
するアクセントに関する情報との関係を統計的に学習
し、前記第1の形態素に対応するアクセントを推定する
規則を作成することを特徴とする。
【0011】
【発明の実施の形態】以下、図面を参照して本発明に好
適な実施の形態について説明する。
【0012】[実施の形態1]図1は、本発明の各実施
の形態に係る音声合成装置の構成を示すブロック図であ
る。
【0013】図1において、11はCRTモニタや液晶
モニタ等の表示装置とスピーカ等の音声出力装置とを備
える出力部である。表示装置では、音声合成しようとす
るテキストを表示したり、各種のプログラムのグラフィ
カルユーザインタフェースを表示したりする。また、音
声出力装置では、合成された音声を出力する。12はキ
ーボード,マウス,マイクロフォン等を備える入力部で
ある。入力部12では、各種のプログラムのグラフィカ
ルユーザインタフェースを操作したり、音声合成しよう
とするテキストを入力或いは選択したりする。
【0014】13はマイクロプロセッサ等を備える中央
演算部で、記憶部14から読み出したプログラムに従っ
て各種の数値演算や各種の制御等を実行する。14はハ
ードディスク装置,RAM,ROM等を備えた記憶部
で、中央演算部13で実行可能な各種のプログラムを格
納したり,中央演算部13で処理する各種のデータを一
時的に格納したりする。15は各部11〜14を接続す
るシステムバスである。
【0015】101はポーズ情報決定規則を統計的に学
習するための学習データを大量に保持するデータベース
であり、記憶部14に保存されている。102はアクセ
ントクラス決定規則を統計的に学習するための学習デー
タを大量に保持するデータベースであり、記憶部14に
保存されている。103はポーズ情報決定規則であり、
記憶部14に保存されている。104はアクセントクラ
ス決定規則であり、記憶部14に保存されている。
【0016】図2(1)は、実施の形態1に係るデータ
ベース101が保持する大量の学習データの一例を図で
ある。
【0017】図2(1)では、「今日は良い天気です」
というテキストを構成する形態素ごとに、合計12種類
の属性情報(属性情報4種類×形態素3環境)とポーズ
情報とを用意する例を示す。この12種類の属性情報
は、対象となる形態素のモーラ数,アクセント型,品
詞,活用形だけでなく、その形態素に隣接する先行形態
素及び後続形態素のモーラ数,アクセント型,品詞,活
用形を含む。
【0018】また、ポーズ情報は、対象となる形態素の
後にポーズを付与するか否か,対象となる形態素の後に
付与するポーズの時間長,対象となる形態素の後に付与
するポーズのレベル,対象となる形態素の後にポーズが
付与される確率等の少なくとも一つを含む情報である。
【0019】中央演算部13はデータベース101が保
持する大量の学習データを統計的に学習し、12種類の
属性情報を入力としてポーズ情報を出力するポーズ情報
決定規則103を作成する。ポーズ情報決定規則103
を作成する手法には、決定木,決定木から作成したプロ
ダクションルール,ニューラルネットワーク(例えば、
多層パーセプトロン型のニューラルネットワーク)の何
れかを適用する。
【0020】図8は、決定木を利用して学習したポーズ
情報決定規則の非常に簡単な例を示す図である。図8に
おいて、図中のY、Nのそれぞれは、○印で示される各
ノードに対する質問に対する答えがそれぞれ「YES」
となる場合、または「NO」となる場合を示している。
【0021】この決定木に従って「今日は良い天気で
す」というテキストから合成音声を生成する場合、形態
素「は」の後および形態素「です」の後にポーズを付与
することができる。例えば、形態素「は」のモーラ数は
「1」であるためノード110からノード111に進
み、形態素「は」の後続形態素「良い」の品詞は「形容
詞」であるためノード111から「あり」に進む。この
結果、形態素「は」の後にポーズが付与される。同様
に、形態素「です」のモーラ数は「1」以上であるため
ノード110からノード112に進み、形態素「です」
の後続形態素の活用形が「末尾」であるためノード11
2から「あり」に進む。この結果、形態素「です」の後
にポーズが付与される。
【0022】図2(2)は、実施の形態1に係るデータ
ベース102が保持する大量の学習データの一例を図で
ある。
【0023】図2(2)では、「今日は良い天気です」
というテキストを構成する形態素ごとに、合計12種類
の属性情報(属性情報4種類×形態素3環境)とアクセ
ントクラスとを用意する例を示す。この12種類の属性
情報は、対象となる形態素のモーラ数,アクセント型,
品詞,活用形だけでなく、その形態素に隣接する先行形
態素及び後続形態素のモーラ数,アクセント型,品詞,
活用形を含む。
【0024】また、アクセントクラスは、対象とする形
態素を他の形態素と結合して発声する際に生じるアクセ
ントのパターンの変化を示し、「保存」,「従属」,
「0型」,「1型」,「H化」,「全高」,「全低」等
のクラスに分類される。ここで、「保存」とは、対象と
する形態素のアクセント型をそのまま継承し、発声され
る場合を示す。また、「従属」とは、先行形態素の最終
モーラのアクセントパターンをそのまま継承し、対象と
する形態素のアクセントパターンが高低(或いは低高)
と変化しない場合ことを示す。また、「0型」とは、対
象とする形態素のアクセント型が「0型」に変化するこ
とを示す。また、「1型」とは、対象とする形態素のア
クセント型が「1型」に変化することを示す。また、
「H化」とは、対象とする形態素のアクセント核は保存
されるが、1モーラ目のアクセントパターンが「H
(高)」に変化することを示す。また、「全高」とは、
先行形態素の最終モーラのアクセントパターンが「L
(低)」である場合に、対象とする形態素の全モーラの
アクセントパターンが「H(高)」に変化することを示
す。また、「全低」とは、先行形態素の最終モーラのア
クセントパターンが「H(高)」である場合に、対象と
する形態素の全モーラのアクセントパターンが「L
(低)」に変化することを示す。
【0025】中央演算部13はデータベース102が保
持する大量の学習データを統計的に学習し、12種類の
属性情報を入力としてアクセントクラスを出力する各形
態素のポーズ情報を考慮したアクセントクラス決定規則
104を作成する。アクセントクラス決定規則104を
作成する手法には、上述の実施の形態で説明した決定
木,決定木から作成したプロダクションルール,ニュー
ラルネットワーク(例えば、多層パーセプトロン型のニ
ューラルネットワーク)の何れかを適用する。
【0026】図9は、決定木を利用して学習したアクセ
ントクラス決定規則の非常に簡単な例を示す図である。
図9において、図中のY、Nのそれぞれは、○印で示さ
れる各ノードに対する質問に対する答えがそれぞれ「Y
ES」となる場合、または「NO」となる場合を示して
いる。
【0027】この決定木に従って「音声合成」というテ
キスト(2単語からなる熟語)から合成音声を生成する
場合、形態素「音声」のアクセントパターンを「0型」
に変更することができ、形態素「合成」のアクセントパ
ターンは「1型」に変更することができる。例えば、形
態素「音声」のアクセント型は「1型」であるためノー
ド120からノード121に進み、形態素「音声」の後
続形態素「合成」のアクセント型は「0型」であるため
ノード121から「0型」に進む。この結果、形態素
「音声」のアクセントパターンは「0型」に変更され
る。同様に、形態素「合成」のアクセント型は「0型」
であるためノード120からノード122に進み、形態
素「合成」の先行形態素「音声」のアクセント型は「1
型」であるためノード122から「1型」に進む。この
結果、形態素「合成」のアクセントパターンは「1型」
に変更される。
【0028】図3は、実施の形態1に係る音声合成装置
の処理手順を示すフローチャートである。尚、この処理
手順を実現するプログラムは記憶部14に記憶されてい
る。中央演算部13は記憶部14からこのプログラムを
読み出し、以下に示す処理を実行する。
【0029】まず、ステップS301において、入力部
12はユーザの要求するテキストを入力する。このテキ
ストは、日本語,英語或はその他の言語からなる文字列
を含む。
【0030】ステップS302において、中央演算部1
3はステップS301で入力したテキストを形態素解析
し、このテキストを構成する各形態素の属性情報を求め
る。ここで求める属性情報は、ポーズ情報決定規則10
3及びアクセントクラス決定規則104に入力するため
の属性情報である。本実施の形態では、形態素ごとに、
合計12種類の属性情報(属性情報4種類×形態素3環
境)を求める。この12種類の属性情報は、対象となる
形態素のモーラ数,アクセント型,品詞,活用形だけで
なく、その形態素に隣接する先行形態素及び後続形態素
のモーラ数,アクセント型,品詞,活用形を含む。
【0031】ステップS303において、中央演算部1
3はステップS302で求めた各形態素の属性情報を記
憶部14から読み出したポーズ情報決定規則103(こ
の規則には、上述の実施の形態で説明した決定木,決定
木から作成したプロダクションルール,ニューラルネッ
トワークの何れかを適用する)に入力し、各形態素のポ
ーズ情報を推定する。ここで推定されるポーズ情報は、
対象となる形態素の後にポーズを付与するか否か,対象
となる形態素の後に付与するポーズの時間長,対象とな
る形態素の後に付与するポーズのレベル,対象となる形
態素の後にポーズが付与される確率等の少なくとも一つ
である。
【0032】ステップS304において、中央演算部1
3は各形態素のポーズ情報に基づいて、ステップS30
1で入力したテキストに対応する合成音声に付与するポ
ーズの位置や長さを決定する。
【0033】ステップS305において、中央演算部1
3はステップS302で求めた各形態素の属性情報を記
憶部14から読み出したアクセントクラス決定規則10
4(この規則には、上述の実施の形態で説明した決定
木,決定木から作成したプロダクションルール,ニュー
ラルネットワークの何れかを適用する)に入力し、各形
態素のアクセントクラスを推定する。ここで推定される
アクセントクラスは、「保存」,「従属」,「0型」,
「1型」,「H化」,「全高」,「全低」の何れかであ
る。
【0034】ステップS306において、中央演算部1
3は各形態素のアクセントクラスに基づいて、ステップ
S301で入力したテキストに対応する合成音声のアク
セントパターンを決定する。
【0035】尚、ステップS303,S304の処理と
ステップS305,S306の処理とは、ステップS3
01で入力したテキストごとに並列に実行される。
【0036】ステップS307において、中央演算部1
3はステップS304で付与したポーズとステップS3
06で付与したアクセントパターンとに基づいてステッ
プS301で入力したテキストに対応する合成音声を生
成する。この合成音声は、例えば、テキストの音韻系列
に対応する複数の音声波形(音素、半音素、ダイフォ
ン、音節等)を所定の韻律規則に従って編集し、接続す
る波形編集方式によって生成される。
【0037】ステップS308において、出力部11は
ステップS307で生成した合成音声を出力する。
【0038】以上説明したように実施の形態1における
音声合成装置によれば、入力テキストを構成する各形態
素の属性情報から各形態素のポーズ情報とアクセントク
ラスの双方を高精度に決定することができるので、複雑
な構文解析アルゴリズムを用意する必要がなくなり、音
声合成装置にかかる負荷を低減でき、低コスト化を図る
ことが可能である。
【0039】また、実施の形態1における音声合成装置
によれば、ポーズを付与する処理とアクセントパターン
を決定する処理とを並列に実行することができるので、
自然で高品質な合成音声を高速に生成することが可能と
なる。
【0040】[実施の形態2]実施の形態2では、上述
のポーズ情報を考慮したアクセントクラス決定規則を用
いて合成音声を生成する例について説明する。
【0041】図4(1)は、実施の形態2に係るデータ
ベース101が保持する大量の学習データの一例を示す
図である。
【0042】図4(1)では、「今日は良い天気です」
というテキストを構成する形態素ごとに、合計12種類
の属性情報(属性情報4種類×形態素3環境)とポーズ
情報とを学習データとして用意する例を示す。この12
種類の属性情報は、対象となる形態素のモーラ数,アク
セント型,品詞,活用形だけでなく、その形態素に隣接
する先行形態素及び後続形態素のモーラ数,アクセント
型,品詞,活用形を含む。データベース101は様々な
テキストから生成したこのような学習データを大量に保
持している。
【0043】中央演算部13はデータベース101が保
持する大量の学習データを読み出し、12種類の属性情
報との関係を統計的に学習し、ポーズ情報決定規則10
3を作成する。ポーズ情報決定規則103を作成する手
法には、上述の実施の形態で説明した決定木,決定木か
ら作成したプロダクションルール,ニューラルネットワ
ーク(例えば、多層パーセプトロン型のニューラルネッ
トワーク)の何れかを適用する。
【0044】図4(2)は、実施の形態2に係るデータ
ベース102が保持する大量の学習データの一例を示す
図である。
【0045】図4(2)では、「今日は良い天気です」
というテキストを構成する形態素ごとに、合計15種類
の属性情報((属性情報4種類+ポーズ情報)×形態素
3環境)とアクセントクラスとを学習データとして用意
する例を示す。この15種類の属性情報は、対象となる
形態素のモーラ数,アクセント型,品詞,活用形,ポー
ズ情報だけでなく、その形態素に隣接する先行形態素及
び後続形態素のモーラ数,アクセント型,品詞,活用
形,ポーズ情報を含む。データベース102は様々なテ
キストから生成したこのような学習データを大量に保持
している。
【0046】中央演算部13はデータベース102が保
持する大量の学習データを読み出し、ポーズ情報を含む
15種類の属性情報とアクセントクラスとの関係を統計
的に学習し、ポーズの位置や長さを考慮したアクセント
クラス決定規則104を作成する。アクセントクラス決
定規則104を作成する手法には、上述の実施の形態で
説明した決定木,決定木から作成したプロダクションル
ール,ニューラルネットワーク(例えば、多層パーセプ
トロン型のニューラルネットワーク)の何れかを適用す
る。
【0047】以上説明したように実施の形態1によれ
ば、図4(2)に示すような学習データを大量に用意
し、これらの学習データをもとにポーズ情報を含む15
種類の属性情報とアクセントクラスとの関係を統計的に
学習するので、ポーズの位置や長さを考慮したアクセン
トクラス情報決定規則104を作成することができる。
【0048】図5は、実施の形態2に係る音声合成アル
ゴリズムの処理手順を示すフローチャートである。尚、
この処理手順を実現するプログラムは記憶部14に記憶
されている。中央演算部13は記憶部14からこのプロ
グラムを読み出し、以下に示す処理を実行する。
【0049】まず、ステップS501において、入力部
12はユーザの要求するテキストを入力する。このテキ
ストは、日本語,英語或はその他の言語からなる文字列
を含む。
【0050】ステップS502において、中央演算部1
3はステップS501で入力したテキストを形態素解析
し、このテキストを構成する各形態素の属性情報を求め
る。ここで求める属性情報は、ポーズ情報決定規則10
3及びアクセントクラス決定規則104に入力するため
の属性情報である。本実施の形態では、形態素ごとに、
合計12種類の属性情報(属性情報4種類×形態素3環
境)を求める。この12種類の属性情報は、対象となる
形態素のモーラ数,アクセント型,品詞,活用形だけで
なく、その形態素に隣接する先行形態素及び後続形態素
のモーラ数,アクセント型,品詞,活用形を含む。
【0051】ステップS503において、中央演算部1
3はステップS502で求めた各形態素の属性情報を記
憶部14から読み出したポーズ情報決定規則103(こ
の規則には、上述の実施の形態で説明した決定木,決定
木から作成したプロダクションルール,ニューラルネッ
トワークの何れかを適用する)に入力し、各形態素のポ
ーズ情報を推定する。ここで推定されるポーズ情報は、
対象となる形態素の後にポーズを付与するか否か,対象
となる形態素の後に付与するポーズの時間長,対象とな
る形態素の後に付与するポーズのレベル,対象となる形
態素の後にポーズが付与される確率等の少なくとも一つ
である。
【0052】ステップS504において、中央演算部1
3は各形態素のポーズ情報に基づいて、ステップS50
1で入力したテキストに対応する合成音声に付与するポ
ーズの位置や長さを決定する。
【0053】ステップS505において、中央演算部1
3はステップS502で求めた各形態素の属性情報及び
ステップS503で求めた各形態素のポーズ情報を記憶
部14から読み出したアクセントクラス決定規則104
(この規則には、上述の実施の形態で説明した決定木,
決定木から作成したプロダクションルール,ニューラル
ネットワークの何れかを適用する)に入力し、各形態素
のアクセントクラスを推定する。ここで推定されるアク
セントクラスは、「保存」,「従属」,「0型」,「1
型」,「H化」,「全高」,「全低」の何れかである。
【0054】ステップS506において、中央演算部1
3は各形態素のアクセントクラスに基づいて、ステップ
S501で入力したテキストに対応する合成音声のアク
セントパターンを決定する。
【0055】ステップS507において、中央演算部1
3はステップS504で付与したポーズとステップS5
06で付与したアクセントパターンとに基づいてステッ
プS501で入力したテキストに対応する合成音声を生
成する。この合成音声は、例えば、テキストの音韻系列
に対応する複数の音声波形(音素、半音素、ダイフォ
ン、音節等)を所定の韻律規則に従って編集し、接続す
る波形編集方式によって生成される。
【0056】ステップS508において、出力部11は
ステップS507で生成した合成音声を出力する。
【0057】以上説明したように実施の形態2における
音声合成装置によれば、入力テキストを構成する各形態
素の属性情報から各形態素のポーズ情報とアクセントク
ラスの双方を高精度に決定することができるので、複雑
な構文解析アルゴリズムを用意する必要がなくなり、音
声合成装置にかかる負荷を低減でき、低コスト化を図る
ことが可能である。
【0058】また、実施の形態2における音声合成装置
によれば、各形態素のアクセントクラスを各形態素のポ
ーズ情報を考慮して推定することができるので、形態素
間に付与するポーズの位置や長さに適合したアクセント
パターンを付与することができ、より自然で理解しやす
い合成音声を生成することが可能となる。
【0059】これにより、例えば、「1234567」
というテキストのポーズの位置(「/」で示す)が「1
23/4567」と推定された場合には、本実施の形態
のポーズ情報決定規則104に従って「いちにーさん
(LHHLLL)/よんごーろくなな(LHHLLHH
L)」というアクセントパターンとすることもでき、違
和感のない自然な合成音声の生成が可能となる。また、
ポーズの位置が「1234/567」と推定された場合
には、本実施の形態のポーズ情報決定規則104に従っ
て「いちにーさんよん(LHHLLHHL)/ごーろく
なな(LHHLHL)」というアクセントパターンとす
ることもでき、違和感のない自然な合成音声の生成が可
能となる。
【0060】[実施の形態3]実施の形態3では、上述
のアクセントクラスを考慮したポーズ情報決定規則を用
いて合成音声を生成する例について説明する。
【0061】図6は、実施の形態3に係るデータベース
102が保持する大量の学習データの一例を示す図であ
る。
【0062】図6(1)では、「今日は良い天気です」
というテキストを構成する形態素ごとに、合計12種類
の属性情報(属性情報4種類×形態素3環境)とアクセ
ントクラスとを学習データとして用意する例を示す。こ
の12種類の属性情報は、対象となる形態素のモーラ
数,アクセント型,品詞,活用形だけでなく、その形態
素の先行形態素及び後続形態素のモーラ数,アクセント
型,品詞,活用形を含む。データベース102は様々な
テキストから生成したこのような学習データを大量に保
持している。
【0063】中央演算部13はデータベース102が保
持する大量の学習データを読み出し、12種類の属性情
報の関係を統計的に学習し、アクセントクラス決定規則
104を作成する。アクセントクラス決定規則104を
作成する手法には、上述の実施の形態で説明した決定
木,決定木から作成したプロダクションルール,ニュー
ラルネットワーク(例えば、多層パーセプトロン型のニ
ューラルネットワーク)の何れかを適用する。
【0064】図6(2)は、実施の形態3に係るデータ
ベース101が保持する大量の学習データの一例を示す
図である。
【0065】図6(2)では、「今日は良い天気です」
というテキストを構成する形態素ごとに、合計15種類
の属性情報((属性情報4種類+アクセントクラス)×
形態素3環境)とポーズ情報とを学習データとして用意
する例を示す。この15種類の属性情報は、対象となる
形態素のモーラ数,アクセント型,品詞,活用形,アク
セントクラスだけでなく、その形態素に隣接する先行形
態素及び後続形態素のモーラ数,アクセント型,品詞,
活用形,アクセントクラスを含む。データベース101
は様々なテキストから生成したこのような学習データを
大量に保持している。
【0066】中央演算部13はデータベース101が保
持する大量の学習データを読み出し、アクセントクラス
を含む15種類の属性情報とポーズ情報との関係を統計
的に学習し、アクセントの変化を考慮したポーズ情報決
定規則103を作成する。ポーズ情報決定規則103を
作成する手法には、上述の実施の形態で説明した決定
木,決定木から作成したプロダクションルール,ニュー
ラルネットワーク(例えば、多層パーセプトロン型のニ
ューラルネットワーク)の何れかを適用する。
【0067】以上説明したように実施の形態2によれ
ば、図6(2)に示すような学習データを大量に用意
し、これらの学習データをもとにアクセントクラスを含
む15種類の属性情報とポーズ情報との関係を統計的に
学習するので、アクセントの変化を考慮したポーズ情報
決定規則103を作成することができる。
【0068】図7は、実施の形態3に係る音声合成装置
の処理手順を示すフローチャートである。尚、この処理
手順を実現するプログラムは記憶部14に記憶されてい
る。中央演算部13は記憶部14からこのプログラムを
読み出し、以下に示す処理を実行する。
【0069】まず、ステップS701において、入力部
12はステップS501と同様の処理を実行する。即
ち、ユーザの要求するテキストを入力する。
【0070】ステップS702において、中央演算部1
3はステップS502と同様の処理を実行する。即ち、
ステップS701で入力したテキストを形態素解析し、
このテキストを構成する各形態素の属性情報を求める。
【0071】ステップS703において、中央演算部1
3はステップS702で求めた各形態素の属性情報を記
憶部14から読み出したアクセントクラス決定規則10
4(この規則には、上述の実施の形態で説明した決定
木,決定木から作成したプロダクションルール,ニュー
ラルネットワークの何れかを適用する)に入力し、各形
態素のアクセントクラスを推定する。ここで推定される
アクセントクラスは、「保存」,「従属」,「0型」,
「1型」,「H化」,「全高」,「全低」の何れかであ
る。
【0072】ステップS704において、中央演算部1
3は各形態素のアクセントクラスに基づいて、ステップ
S701で入力したテキストに対応する合成音声のアク
セントパターンを決定する。
【0073】ステップS705において、中央演算部1
3はステップS702で求めた各形態素の属性情報及び
ステップS703で求めた各形態素のアクセントクラス
を記憶部14から読み出したポーズ情報決定規則103
(この規則には、上述の実施の形態で説明した決定木,
決定木から作成したプロダクションルール,ニューラル
ネットワークの何れかを適用する)に入力し、各形態素
のポーズ情報を推定する。ここで推定されるポーズ情報
は、対象となる形態素の後にポーズを付与するか否か,
対象となる形態素の後に付与するポーズの時間長,対象
となる形態素の後に付与するポーズのレベル,対象とな
る形態素の後にポーズが付与される確率等の少なくとも
一つである。
【0074】ステップS706において、中央演算部1
3は各形態素のポーズ情報に基づいて、ステップS70
1で入力したテキストに対応する合成音声に付与するポ
ーズの位置や長さを決定する。
【0075】ステップS707において、中央演算部1
3はステップS704で付与したアクセントパターンと
ステップS706で付与したポーズとに基づいてステッ
プS701で入力したテキストに対応する合成音声を生
成する。この合成音声は、例えば、テキストの音韻系列
に対応する複数の音声波形(音素、半音素、ダイフォ
ン、音節等)を所定の韻律規則に従って編集し、接続す
る波形編集方式によって生成される。
【0076】ステップS708において、出力部11は
ステップS707で生成した合成音声を出力する。
【0077】以上説明したように実施の形態3における
音声合成装置によれば、入力テキストを構成する各形態
素の属性情報から各形態素のポーズ情報とアクセントク
ラスの双方を高精度に推定することができるので、複雑
な構文解析アルゴリズムを用意する必要がなくなり、音
声合成装置にかかる負荷を低減でき、低コスト化を図る
ことが可能である。
【0078】また、実施の形態3における音声合成装置
によれば、各形態素のポーズ情報を各形態素のアクセン
トクラスを考慮して推定することができるので、アクセ
ントパターンの変化に適合したポーズを付与することが
でき、より自然で理解しやすい合成音声を生成すること
が可能となる。
【0079】これにより、例えば、「朝鮮民主主義人民
共和国」というテキストを構成する各形態素のアクセン
トクラスが「朝鮮(保存)民主主義(0型)人民(全
高)共和国(H化)」と推定された場合には、本実施の
形態のポーズ情報決定規則103に従ってポーズを付与
しないようにすることができ、違和感のない自然な合成
音声の生成が可能となる。また、各形態素のアクセント
クラスが「朝鮮(保存)民主主義(保存)人民(0型)
共和国(H化)」と推定された場合には、本実施の形態
のポーズ情報決定規則103に従って「民主主義」の後
に所定の長さのポーズを付与するようにすることもで
き、違和感のない自然な合成音声の生成が可能となる。
【0080】[他の実施の形態]上述の各実施の形態で
は、形態素を単位としてポーズ情報決定規則(あるいは
アクセントクラス決定規則)を作成する手順について説
明したが、これに限るものではない。単語を単位として
ポーズ情報決定規則(あるいはアクセントクラス決定規
則)を作成してもよい。
【0081】また、上述の各実施の形態では、形態素ご
とに合計12種類(属性情報4種類×形態素3環境)の
属性情報を用意し、これらの関係を統計的に学習してポ
ーズ情報決定規則(あるいはアクセントクラス決定規
則)を作成する例について説明したが、これに限るもの
ではない。学習する属性情報の種類を増やすことも、学
習する形態素の数を増やすことも可能である。例えば、
対象とする形態素の前(あるいは後)に隣接する形態素
よりも前(あるいは後)に位置する形態素の属性情報と
の関係を統計的に学習してもよい。
【0082】また、上述の各実施の形態では、ポーズ情
報決定規則(あるいはアクセントクラス決定規則)を作
成する手法の一つとして多層パーセプトロン型のニュー
ラルネットワークを適用する例を挙げたが、リカレント
ニューラルネットワーク等を適用することも可能であ
る。
【0083】また、上述の各実施の形態のポーズ情報決
定規則(あるいはアクセントクラス決定規則)では、所
定の条件を満たす形態素のポーズ情報(あるいはアクセ
ントクラス)を一意に推定する場合について説明した
が、これに限るものではない。所定の条件を満たす形態
素のポーズ情報(あるいはアクセントクラス)を確信度
(尤度)とともに推定することも可能である。
【0084】また、上述の各実施の形態は、複数の機器
(例えばホストコンピュータ,インタフェース機器,リ
ーダ,プリンタなど)から構成されるシステムに適用し
ても、一つの機器からなる装置(例えば、複写機,ファ
クシミリ装置など)に適用してもよい。
【0085】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0086】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0087】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
【0088】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0089】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0090】
【発明の効果】以上説明したように本発明によれば、合
成音声に付与するポーズやアクセントパターンを高精度
に推定することができ、自然で高品質な合成音声を生成
することができる。
【図面の簡単な説明】
【図1】各実施の形態に係る音声合成装置の構成を示す
ブロック図である。
【図2】実施の形態1に係るポーズ決定規則及びアクセ
ントクラス決定規則を統計的に学習するための学習デー
タの一例を示す図である。
【図3】実施の形態1に係る音声合成装置の処理手順を
示すフローチャートである。
【図4】実施の形態2に係るポーズ決定規則及びアクセ
ントクラス決定規則を統計的に学習するための学習デー
タの一例を示す図である。
【図5】実施の形態2に係る音声合成装置の処理手順を
示すフローチャートである。
【図6】実施の形態3に係るポーズ決定規則及びアクセ
ントクラス決定規則を統計的に学習するための学習デー
タの一例を示す図である。
【図7】実施の形態3に係る音声合成装置の処理手順を
示すフローチャートである。
【図8】決定木を利用して学習したポーズ情報決定規則
の非常に簡単な例を示す図である。
【図9】決定木を利用して学習したアクセントクラス決
定規則の非常に簡単な例を示す図である。

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 テキストを構成する形態素を求め、各形
    態素の属性情報を得る解析工程と、 複数の形態素の属性情報と第1の規則とに基づき、各形
    態素に対応するポーズに関する情報であるポーズ情報を
    得るポーズ推定工程と、 各形態素のポーズ情報に基づき、前記テキストに対応す
    る合成音声にポーズを付与するポーズ付与工程と、 複数の形態素の属性情報と第2の規則とに基づき、各形
    態素に対応するアクセントに関する情報であるアクセン
    トクラスを得るアクセント推定工程と、 各形態素のアクセントクラスに基づき、前記テキストに
    対応する合成音声にアクセントを付与するアクセント付
    与工程とを有することを特徴とする音声処理方法。
  2. 【請求項2】 前記合成音声にポーズを付与する処理と
    前記合成音声にアクセントを付与する処理とを並列に行
    うことを特徴とする請求項1に記載の音声処理方法。
  3. 【請求項3】 前記合成音声にポーズを付与した後に、
    前記合成音声にアセントを付与することを特徴とする請
    求項1に記載の音声処理方法。
  4. 【請求項4】 前記アクセント推定工程では、複数の形
    態素の属性情報と前記ポーズ推定工程で推定されたポー
    ズ情報と前記第2の規則とに基づき、各形態素のアクセ
    ントクラスを得ることを特徴とする請求項3に記載の音
    声処理方法。
  5. 【請求項5】 前記合成音声にアクセントを付与した後
    に、前記合成音声にポーズを付与することを特徴とする
    請求項1に記載の音声処理方法。
  6. 【請求項6】 前記ポーズ推定工程では、複数の形態素
    の属性情報と前記アクセント推定工程で推定されたアク
    セントクラスと前記第1の規則とに基づき、各形態素の
    ポーズ情報を得ることを特徴とする請求項5に記載の音
    声処理方法。
  7. 【請求項7】 前記第1の規則は、第1の形態素の属性
    情報と前記第1の形態素の前にある第2の形態素の属性
    情報と前記第1の形態素の後にある第3の形態素の属性
    情報とに基づき、前記第1の形態素のポーズ情報を推定
    する規則であることを特徴とする請求項1〜6の何れか
    1項に記載の音声処理方法。
  8. 【請求項8】 前記第2の規則は、第1の形態素の属性
    情報と前記第1の形態素の前にある第2の形態素の属性
    情報と前記第1の形態素の後にある第3の形態素の属性
    情報とに基づき、前記第1の形態素のアクセントクラス
    を推定する規則であることを特徴とする請求項1〜6の
    何れか1項に記載の音声処理方法。
  9. 【請求項9】 テキストを構成する形態素を求め、各形
    態素の属性情報を得る解析手段と、 複数の形態素の属性情報と第1の規則とに基づき、各形
    態素のポーズに関する情報であるポーズ情報を得るポー
    ズ推定手段と、 各形態素のポーズ情報に基づき、前記テキストに対応す
    る合成音声にポーズを付与するポーズ付与手段と、 複数の形態素の属性情報と第2の規則とに基づき、各形
    態素のアクセントに関する情報であるアクセントクラス
    を得るアクセント推定手段と、 各形態素のアクセントクラスに基づき、前記テキストに
    対応する合成音声にアクセントを付与するアクセント付
    与手段とを有することを特徴とする音声処理装置。
  10. 【請求項10】 前記合成音声にポーズを付与する処理
    と前記合成音声にアクセントを付与する処理とを並列に
    行うことを特徴とする請求項9に記載の音声処理装置。
  11. 【請求項11】 前記合成音声にポーズを付与した後
    に、前記合成音声にアセントを付与することを特徴とす
    る請求項9に記載の音声処理装置。
  12. 【請求項12】 前記アクセント推定手段は、複数の形
    態素の属性情報と前記ポーズ推定手段で推定されたポー
    ズ情報と前記第2の規則とに基づき、各形態素のアクセ
    ントクラスを得ることを特徴とする請求項11に記載の
    音声処理装置。
  13. 【請求項13】 前記合成音声にアクセントを付与した
    後に、前記合成音声にポーズを付与することを特徴とす
    る請求項9に記載の音声処理装置。
  14. 【請求項14】 前記ポーズ推定手段では、複数の形態
    素の属性情報と前記アクセント推定手段で推定されたア
    クセントクラスと前記第1の規則とに基づき、各形態素
    のポーズ情報を得ることを特徴とする請求項13に記載
    の音声処理装置。
  15. 【請求項15】 前記第1の規則は、第1の形態素の属
    性情報と前記第1の形態素の前にある第2の形態素の属
    性情報と前記第1の形態素の後にある第3の形態素の属
    性情報とに基づき、前記第1の形態素のポーズ情報を推
    定する規則であることを特徴とする請求項9〜14の何
    れか1項に記載の音声処理装置。
  16. 【請求項16】 前記第2の規則は、第1の形態素の属
    性情報と前記第1の形態素の前にある第2の形態素の属
    性情報と前記第1の形態素の後にある第3の形態素の属
    性情報とに基づき、前記第1の形態素のアクセントクラ
    スを推定する規則であることを特徴とする請求項9〜1
    4の何れか1項に記載の音声処理装置。
  17. 【請求項17】 請求項1〜8の何れか1項に記載の音
    声処理方法を実現するためのプログラムを格納した記憶
    媒体。
  18. 【請求項18】 第1の形態素の属性情報と前記第1の
    形態素の前にある第2の形態素の属性情報と前記第1の
    形態素の後にある第3の形態素の属性情報と前記第1の
    形態素に対応するポーズに関する情報との関係を統計的
    に学習し、前記第1の形態素に対応するポーズを推定す
    る規則を作成することを特徴とする自然言語処理方法。
  19. 【請求項19】 第1の形態素の属性情報と前記第1の
    形態素の前にある第2の形態素の属性情報と前記第1の
    形態素の後にある第3の形態素の属性情報と前記第1の
    形態素に対応するアクセントに関する情報との関係を統
    計的に学習し、前記第1の形態素に対応するアクセント
    を推定する規則を作成することを特徴とする自然言語処
    理方法。
JP2000259124A 2000-08-29 2000-08-29 音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法 Withdrawn JP2002073070A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000259124A JP2002073070A (ja) 2000-08-29 2000-08-29 音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000259124A JP2002073070A (ja) 2000-08-29 2000-08-29 音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法

Publications (1)

Publication Number Publication Date
JP2002073070A true JP2002073070A (ja) 2002-03-12

Family

ID=18747339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000259124A Withdrawn JP2002073070A (ja) 2000-08-29 2000-08-29 音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法

Country Status (1)

Country Link
JP (1) JP2002073070A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241052A (ja) * 2006-03-10 2007-09-20 Advanced Telecommunication Research Institute International 音声情報処理装置、およびプログラム
JPWO2021106069A1 (ja) * 2019-11-26 2021-06-03

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241052A (ja) * 2006-03-10 2007-09-20 Advanced Telecommunication Research Institute International 音声情報処理装置、およびプログラム
JP4716116B2 (ja) * 2006-03-10 2011-07-06 株式会社国際電気通信基礎技術研究所 音声情報処理装置、およびプログラム
JPWO2021106069A1 (ja) * 2019-11-26 2021-06-03
WO2021106069A1 (ja) * 2019-11-26 2021-06-03 日本電信電話株式会社 ポーズ推定モデル学習装置、ポーズ推定装置、それらの方法、およびプログラム
JP7235136B2 (ja) 2019-11-26 2023-03-08 日本電信電話株式会社 ポーズ推定モデル学習装置、ポーズ推定装置、それらの方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US8392191B2 (en) Chinese prosodic words forming method and apparatus
JPH11259095A (ja) 音声合成方法および装置および記憶媒体
US6856958B2 (en) Methods and apparatus for text to speech processing using language independent prosody markup
WO2007010680A1 (ja) 声質変化箇所特定装置
JP2001282282A (ja) 音声情報処理方法および装置および記憶媒体
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JP2009139677A (ja) 音声処理装置及びそのプログラム
JP2003302992A (ja) 音声合成方法及び装置
JP2003271194A (ja) 音声対話装置及びその制御方法
KR102284903B1 (ko) 입력 시퀀스 생성 방법 및 장치
JP2005031259A (ja) 自然言語処理方法
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
US20200387806A1 (en) Idea generation support device, idea generation support system, and recording medium
JP2002073070A (ja) 音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法
JP5975033B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2004117662A (ja) 音声合成システム
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
JP2001075585A (ja) 自然言語処理方法及び前記方法を用いた音声合成装置
JP4639532B2 (ja) 自然音声の節点抽出装置
JP2001075584A (ja) 自然言語処理方法及び前記方法を用いた音声合成装置
JPH05134691A (ja) 音声合成方法および装置
JP3576792B2 (ja) 音声情報処理方法
JP2022141520A (ja) 音声合成記号編集装置、方法及びプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071106