JP2001075584A - 自然言語処理方法及び前記方法を用いた音声合成装置 - Google Patents

自然言語処理方法及び前記方法を用いた音声合成装置

Info

Publication number
JP2001075584A
JP2001075584A JP25349399A JP25349399A JP2001075584A JP 2001075584 A JP2001075584 A JP 2001075584A JP 25349399 A JP25349399 A JP 25349399A JP 25349399 A JP25349399 A JP 25349399A JP 2001075584 A JP2001075584 A JP 2001075584A
Authority
JP
Japan
Prior art keywords
pose information
determining
pose
rule
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP25349399A
Other languages
English (en)
Other versions
JP2001075584A5 (ja
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP25349399A priority Critical patent/JP2001075584A/ja
Publication of JP2001075584A publication Critical patent/JP2001075584A/ja
Publication of JP2001075584A5 publication Critical patent/JP2001075584A5/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 テキストの形態素単位の属性と隣接する形態
素の属性との関係を求め、これを統計的に処理すること
によって、ポーズ決定規則を高精度に構築し、そのポー
ズ情報に従ってより自然言語に近い音声を合成して出力
する。 【解決手段】 テキストを形態素単位に分割し(S50
1,S502)、それら分割された各形態素の属性及び
隣接する形態素の属性に基づいて各形態素毎のポーズ情
報の決定規則を規定するポーズ情報決定規則を求め(2
01:S503)、その決定規則に従って各形態素毎に
ポーズ情報を決定して付与し、各形態素のポーズ情報か
らテキスト全体のポーズを決定する(S504)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストに対する
形態素或は単語単位の属性に基づいてポーズを決定する
自然言語処理方法及び前記方法を用いた音声合成装置に
関するものである。
【0002】
【従来の技術】テキストを音声に変換するテキスト音声
合成技術において、適切にポーズ付与(呼気段落の決
定)を行なうことは、自然で理解しやすい合成音声を生
成するための重要な課題である。
【0003】このようなポーズの付与位置は、構文的区
切りと一致するという知見から、構文解析を行うことに
よって係り受け関係を求め、この結果に基づいてポーズ
位置を決定する方法(従来例1)がある(箱田他:「文
音声合成における音調規則」,電子情報通信学会論文誌,
Vol.J6 3-D, No.9, pp.715-722, 1980)。
【0004】しかし、このような構文解析は処理が増大
し、一般に高精度な統語構造の抽出が難しいことなどか
ら、形態素解析によって得られる情報や簡易な係り受け
解析結果に基づいてポーズ位置を決定すること(従来例
2)が多い(宮崎:「日本文音声出力のための言語処理
に関する研究」,博士論文,1986., Tsukada:“A lef
t-to-Right Processing Model of Pausing in Japanese
based on Limited Syntactic Information”,Proc.ICS
LP-96, pp.1353-1356, 1996., 鈴木他:「日本語テキス
ト音声合成のためのN文節構造解析とそれに基づく韻律
制御」,電子情報通信学会論文誌, Vol.J78-D-II, No.2,
pp.177-187, 1995)。
【0005】また、前記従来例1及び2では、先見的に
得られる規則によってポーズ付与規則を決定しているの
に対して、統計的な手法を用いてポーズ付与の有無やを
ポーズ長を推定する試みも数多く提案されている(箱田
他:「文章音声の音調結合型導出規則の検討」,電子情報
通信学会技術報告, SP89-5, pp.33-38, 1989.(従来例
3), Iwata et al.: "Pause Rule for Japanese Text-
to-Speech ConversionUsing Pause Insertion Probabil
ity", Proc. ICSLP-90, pp.837-840, 1990.(従来例
4), 海木他:「局所的句構造に基づくポーズ長の分
析」,電子情報通信学会技術報告, SP91-1300, pp.63-6
9, 1991.(従来例5), Seto et al.: "Automatic Rule
Generation for Linguistic Features Analysis Using
InductiveLearning Technique Linguistic Features A
nalysis in TOS Drive TTS System-",Proc. ICSLP-98,p
p.2031-2034, 1998.(従来例6))。
【0006】これら従来例3から従来例6などの統計的
手法に基づくポーズ付与は、学習用のコーパスを用意す
れば、高精度なポーズ付与規則が自動的に構築できると
いう利点がある。更に、ポーズ付与は個人毎に付与する
数、長さ、位置が異なるため、従来例1や2における先
見的な知見から得られる規則では個人性を重視した多様
なポーズ付与を行うことができない。
【0007】
【発明が解決しようとする課題】統計的手法に基づくポ
ーズ付与の推定において重要なことは、第一に推定する
ための要因(入力)が高精度に得られる必要がある。次
に、高精度に得られる要因を数多く、かつ広範囲に利用
することが高精度なポーズ付与を推定するために重要で
ある。これら2つの視点から、統計的手法に基づく従来
例3から従来例6をみてみると、従来例3、5、6で
は、高精度に推定することが困難な係り先の情報を要因
として用いていることが問題である。また、従来例4で
は、係り先の情報は利用していないが、2形態素の品詞
情報のみからポーズ付与を推定しているという問題があ
る。
【0008】つまり、係り先の情報を利用せず、高精度
な解析性能が達成できる形態素解析から得られる情報を
なるべく多く、かつ広範囲に利用してポーズ付与を推定
することが実用上最も高精度にポーズ付与が行える方法
であると考えられる。
【0009】本発明は上記従来例に鑑みてなされたもの
で、テキストの形態素単位の属性と、その隣接する形態
素の属性との関係を統計的に処理することによって、ポ
ーズ情報の付与を高精度に行うことができる自然言語処
理方法及び前記方法を用いた音声合成装置を提供するこ
とを目的とする。
【0010】また本発明の目的は、テキストの単語単位
の属性と、その隣接する単語の属性との関係を統計的に
処理することによって、ポーズ情報の結合規則を高精度
に構築できる自然言語処理方法及び前記方法を用いた音
声合成装置を提供することにある。
【0011】また本発明の目的は、より自然言語に近い
音声を合成して出力できる自然言語処理方法及び前記方
法を用いた音声合成装置を提供することにある。
【0012】
【課題を解決するための手段】上記目的を達成するため
に本発明の自然言語処理方法は以下のような工程を備え
る。即ち、テキストを形態素単位に分割する分割ステッ
プと、前記分割ステップで分割された各形態素の属性及
び隣接する形態素の属性に基づいて各形態素毎のポーズ
情報の決定規則を規定するポーズ情報決定規則を求める
ステップと、前記ポーズ情報決定規則に従って各形態素
毎にポーズ情報を決定して付与する付与ステップと、各
形態素のポーズ情報から前記テキスト全体のポーズを決
定する決定ステップとを有することを特徴とする。
【0013】上記目的を達成するために本発明の自然言
語処理方法は以下のような工程を備える。即ち、テキス
トを単語単位に分割する分割ステップと、前記分割ステ
ップで分割された各単語の属性及び隣接する単語の属性
に基づいて各単語毎のポーズ情報の決定規則を規定する
ポーズ情報決定規則を求めるステップと、前記ポーズ情
報決定規則に従って各単語毎にポーズ情報を決定して付
与する付与ステップと、各単語のポーズ情報から前記テ
キスト全体のポーズを決定する決定ステップとを有する
ことを特徴とする。
【0014】上記目的を達成するために本発明の自然言
語処理方法を用いた音声合成装置は以下のような構成を
備える。即ち、テキストを入力する入力手段と、前記入
力手段により入力された前記テキストを単語単位に分割
する分割手段と、前記分割手段で分割された各単語の属
性及び隣接する形態素の属性に基づいて各形態素毎のポ
ーズ情報の決定規則を規定するポーズ情報決定規則を求
める規則決定手段と、前記規則決定手段により決定され
た前記ポーズ情報決定規則に従って各単語毎にポーズ情
報を付与する付与手段と、前記付与手段により付与され
た各単語のポーズ情報から前記テキスト全体のポーズ情
報を決定する決定手段と、前記テキストのポーズ情報に
従って前記テキストを音声合成して出力する音声合成手
段とを有することを特徴とする。
【0015】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
【0016】まず始めに、本発明の実施の形態に係る特
徴について説明する。
【0017】図1は、「今日は良い天気です」というテ
キストに対する形態素解析結果、及び各形態素の属性を
求めた例を示す。ここで、各形態素の属性情報(この例
では、読み、モーラ数、アクセント型、品詞、活用形)
は、形態素解析用辞書に含まれている。
【0018】このテキストを声で読み上げた場合、「今
日は(ポーズ)良い天気です(ポーズ)」というよう
に、「は」と「良い」の間、及び「です」の後にポーズ
が挿入されるものとする。この場合、図1における各形
態素の後にポーズが挿入されるか否かを示す「ポーズ有
無」の情報を含めると図2のようになる。この場合、
「ポーズ有無」を示す情報は「あり」、「なし」の2値
である。他の例として、複数の人によって「あり」、
「なし」のポーズ情報が付与された場合、このポーズ付
与を行った人数、即ち「ポーズ付与人数」をポーズ情報
とすることもできる。この場合の例を図3に示す。この
例では、「は」の後に7人がポーズを付与し、「良い」
の後に1人がポーズを付与し、「です」の後に10人が
ポーズを付与し、その他の箇所にポーズを付与した人が
いなかったことを示している。尚、他のポーズ情報とし
て、ポーズ付与の確率やポーズの時間長などを数段階に
レベル化する、またポーズの時間長として与える、或は
ポーズ付与の確率(確信度、尤度)として与えることも
できる。
【0019】これらの例をそれぞれ図4乃至図6に示
す。
【0020】図4はポーズ情報を、ポーズレベルとして
「なし」、「小」、「大」により示した図、図5はポー
ズ情報を、ポーズ長(単位はmsec)として数値によ
り示した図、そして図6はポーズ情報を、ポーズが付与
される確率をそれぞれ数値で示した図である。
【0021】このようなポーズ情報を決定するために
は、人によって付与されたテキスト、もしくは人によっ
て発声された音声を用いて所望のポーズ情報を求め、こ
れを統計的に処理した結果を用いて行う。このように、
テキスト或は音声に対するポーズ情報を統計処理するこ
とによって形態素解析から得られる属性を基に決定する
規則を自動的に、かつ高精度に構築することが可能にな
り、前記従来例の問題点が解決できる。更に、学習デー
タを用意することによって、言語や個人の違いに応じた
ポーズ情報の決定規則がフレキシブルに構築できる。
【0022】[実施の形態1]以下、図面を参照しながら
本発明の実施の形態を説明する。
【0023】図7は、本発明の実施の形態に係る音声合
成装置の構成を示すブロック図である。
【0024】図7において、11は合成された音声を出
力する出力部で、例えばスピーカ等の音声発生部を備え
ている。12は入力部で、例えばキーボードやマウス
等、更にはマイクロフォン等を備え、オペレータにより
入力されるデータをテキストデータに変換して入力処理
する。13は中央演算部で、例えばマイクロプロセッサ
などのCPU等を備え、本実施の形態に係る数値演算・
制御等の処理を、後述する手順に従って実行する。14
は記憶部で、例えばハードディスク装置等の外部メモリ
装置やRAM、ROM等の内部メモリを含み、本実施の
形態に係る処理手順を記述したプログラム、及びその処
理に必要な各種データを一時的に保存するのに使用され
る。15はこれら各部を接続するシステムバスである。
【0025】以上のハードウェア構成を踏まえて本実施
の形態を説明する。
【0026】図8は、本実施の形態に係る音声合成装置
における処理を示すフローチャートであり、ポーズ情報
決定規則を作成するための自然言語処理方法の一例を示
している。尚、この処理を実行するプログラムは記憶部
14に記憶されており、中央演算部13の制御の下に実
行される。
【0027】まずステップS201で、ポーズ情報を決
定するために、まず、人によってポーズ情報が付与され
たテキストを用意、もしくは人によって発声された音声
から所望のポーズ情報へ変換し、101で示すポーズ情
報の学習データを用意する。このポーズ情報学習データ
101の一例を図9に示す。
【0028】この例では、当該形態素のモーラ数、アク
セント型、品詞、活用形からなる属性に加えて、先行形
態素、及び後続形態素に関する同様の属性を用いてい
る。以上、合計12種類(属性値4種類×形態素3環
境)からなる要因を入力として、当該形態素と後続形態
素間にポーズを付与するか否かを決定するポーズ有無情
報を付加したモデルを統計的手法を用いて学習して作成
する。
【0029】このポーズ情報学習データ101に基づい
て、入力属性に対するポーズ情報を予測するモデルの作
成方法としては、ステップS201で示される決定木に
基づく方法が利用できる。この決定木の作成は、ID3
(Quinlan: "Induction of Decision Trees", Machine
Learning, Vol.1, No.1, pp.81-106, 1986.)、C4.
5(Quinlan: "C4.5: Programs for Machine Learnin
g", Morgan KaufmannPublishers, 1993)、CART(B
reimanetal.: "Classification and Regression Tree
s", Belmont, CA, Wadsworth, 1984.)などのアルゴリ
ズムを利用することにより構築することができる。例え
ば、上述のC4.5を用いた場合、ポーズ情報学習デー
タ101を、分割によりエントロピーが最大になる要因
に対する分割を選択(利得基準による分割)、或は、利
得を分割情報量で除した値が最大になる要因に対する分
割を選択(利得比基準による分割)する操作を繰り返す
ことによって構築される。こうして構築された決定木
は、ステップS202において、ポーズ情報決定規則と
して記憶部14に記憶され、この処理を終了する。
【0030】このような学習によって構築される決定木
の非常に簡単な例を図10に示す。図10において、図
中のY、Nのそれぞれは、○印で示される各ノードに対
する質問に対する答えがそれぞれ「YES」となる場
合、または「NO」となる場合を示している。この決定
木に従えば、「今日は良い天気です」というテキストに
対して、「は」と「良い」の間、及び「です」の後にポ
ーズを付与することが決定できる。
【0031】図1及び図10を参照して説明すると、い
まノード120が助詞の「は」である場合、そのモーラ
数は「1」であるためYとなってノード121に進み、
その「は」に後続している語「良い」が形容詞であるた
めNとなって、ノード121からポーズ「あり」に進
む。またノード120が助動詞の「です」である場合、
そのモーラ数は「1」以上であるためNとなってノード
122に進み、その「です」は後続活用形が文尾である
ためYとなって、ノード122からポーズ「あり」に進
む。
【0032】このように本実施の形態1によれば、テキ
ストを形態素単位に分割し、当該形態素のモーラ数、ア
クセント型、品詞、活用形からなる属性に加えて、先行
形態素、及び後続形態素に関する同様の属性を用いてポ
ーズの付与を決定するためのポーズ情報の決定木を規定
し、その決定木に従って各形態素にポーズ情報を付与す
ることにより、テキスト全体におけるポーズ位置を決定
することができる。
【0033】尚、この実施の形態1では、テキストを形
態素に分解したが、テキストを単語単位に分解しても、
同様に処理できる。これは後述の各実施の形態において
も同様である。
【0034】[実施の形態2]上記実施の形態1では、決
定木をそのままポーズ情報の決定規則として利用してい
るが、この決定木からプロダクションルールを作成し、
これをポーズ情報決定規則として用いることもできる。
【0035】図11は、本発明の実施の形態2に係る、
プロダクションルールに基づくポーズ情報の決定規則作
成方法の一例を示すフローチャートである。
【0036】図11において、ステップS301は前述
の図8のステップS201と同じである。ステップS3
02において、ステップS301で作成された決定木か
らプロダクションルールを作成する。このプロダクショ
ンルールの作成方法としては、C4.5(Quinlan: "C
4.5: Programs for Machine Learning", Morgan Kauf
mann Publishers, 1993.)において述べられている方法
を用いることができる。
【0037】こうして作成されたプロダクションルール
は、ステップS303において、ポーズ情報の決定規則
として記憶部14に保存され、この処理を終了する。
【0038】こうして作成されたプロダクションルール
の簡単な例を図12に示す。
【0039】ルールは上から順番に適用され、どのルー
ルにも当てはまらない場合は、最後のdefaultルール
(この場合はポーズ付与「なし」)が適用される。
【0040】[実施の形態3]上記実施の形態1では、ポ
ーズ情報学習データに基づいて入力属性に対するポーズ
情報の予測モデルを決定木に基づく方法によって作成し
ていたが、これをニューラルネットワークを用いて学習
することもできる。
【0041】図13は、本発明の実施の形態3に係る、
ニューラルネットワークに基づくポーズ情報の決定規則
の作成方法を示すフローチャートである。
【0042】ここでは図9に示すポーズ情報学習データ
101を用いて、図14に示す構造を持つニューラルネ
ットワークを学習する。ここで入力層では、各属性値に
対して1つのノードを割り当て、該当するノードに対し
ては「1」を、該当しないノードに対しては「0」を与
える。また、出力層はポーズ情報に対応するノードを設
ける。例えば、ポーズ情報をポーズの有無とする場合、
出力層には1つのノードを設け、ポーズがある場合には
「1」を、無い場合には「0」を与え、バックプロパゲ
ーションアルゴリズムを用いて、ノード間を結ぶリンク
毎の重み(ネットワーク重み)を学習する。他に、ポー
ズ情報が5段階のポーズレベルである場合には、出力層
には5つのノードを設け、該当するノードに対して
「1」を、他のノードには「0」を与えることによって
学習が行える。
【0043】こうして学習された後のニューラルネット
ワークは、ステップS402において、ポーズ情報推定
ネットワークとして記憶部14に保存され、処理を終了
する。
【0044】作成されたポーズ情報推定ネットワーク
は、入力層に対して所望の属性値に該当するノードに
「1」を入力し、ネットワーク重みを用いて積和演算を
行い、最大値を与える出力ノードに対応するポーズ情報
を推定値とすることによって、ポーズ情報決定規則とし
て利用することができる。
【0045】[実施の形態4]上記実施の形態1〜3で
は、入力の属性として、当該形態素のモーラ数、アクセ
ント型、品詞、活用形からなる属性に加えて、先行形態
素、及び後続形態素に関する同様の属性を用い、合計1
2種類(属性値4種類×形態素3環境)からなる要因を
用いていたが、これらの一部、もしくは他の属性、環境
を利用してポーズ情報決定規則を求めてもよい。
【0046】[実施の形態5]上記実施の形態3では、多
層パーセプトロン型のニューラルネットワークを用いて
いるが、リカレントニューラルネットワークなど他のニ
ューラルネットワークを用いてポーズ情報推定ネットワ
ークを学習してもよい。また、中間層は用いなくてもよ
いし、2層以上にしてもよい。
【0047】[実施の形態6]上記実施の形態では、ポー
ズ情報は隣接形態素間の環境を考慮した形態素の属性情
報から一意に決定していたが、図15に示されるよう
に、決定木は確信度付きの情報を出力することもでき
る。また、ニューラルネットワークに基づく方法におい
ても、出力層の各ノードの出力値を確信度として扱うこ
ともできる。ここで、入力テキストに対するポーズ数N
が与えれば、各形態素間に与えられるポーズの確信度が
大きいものから上位N個の形態素間をポーズ付与位置と
して決定することができる。
【0048】図15の例では、図10と比較すると明ら
かなように、123で示すように、ノード120が助詞
の「は」である場合、そのモーラ数は「1」であるため
Yとなってノード121に進み、その「は」に後続して
いる語「良い」が形容詞であるためNとなってポーズ
「あり」の確率が「0.9」となっている。またノード
120が助動詞の「です」である場合、そのモーラ数は
「1」以上であるためNとなってノード122に進み、
その「です」は後続活用形が文尾であるためYとなって
ポーズ「あり」の確率が「0.7」となっている(12
4で示す)。
【0049】[実施の形態7]上記実施の形態では、ポー
ズ情報の推定のために形態素解析によって得られる属性
のみを用いてポーズ情報の決定規則を学習していたが、
先行環境のポーズ情報を属性として学習することもでき
る。この場合、実行時には、ポーズ情報決定規則によっ
て得られるポーズ情報を、後続のポーズ情報の決定のた
めに利用することになる。
【0050】[実施の形態8]図16は、上記実施の形態
によって作成されるポーズ情報決定規則を、本実施の形
態に係る音声合成装置において利用する場合を、本発明
の実施の形態7として説明する。
【0051】まずステップS501で、音声合成の対象
となるテキストデータが、例えば入力部12のキーボー
ドやマイクロフォン等を用いて入力される。次にステッ
プS502に進み、その入力されたテキストデータに対
して形態素解析が行われ、例えば図1に示すような形態
素毎の属性を得る。次にステップS503に進み、形態
素毎の属性を入力として、上記実施の形態のいずれかの
方法によって得られるポーズ情報決定規則201(決定
木、決定木に基づくプロダクションルール、ニューラル
ネットワーク等)を用いて、ポーズ情報を決定する。次
にステップS504に進み、上記実施の形態のいずれか
のポーズ情報の決定規則に基づいて決定されたポーズ情
報、及び音声合成に必要な他の情報(読み、品詞、アク
セント情報等)を付与して音声合成処理に渡す。これに
よりステップS505で音声合成処理が実行され、ここ
ではステップS504で決定されたポーズ情報に基づい
て合成音声波形を生成して、ステップS506で、その
合成音声を出力部11に出力する。この出力部11で
は、例えばD/Aコンバータ、スピーカ等によって合成
音声を出力する。
【0052】なお本発明は、複数の機器(例えばホスト
コンピュータ、インターフェース機器、リーダ、プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機、ファクシミリ装置
など)に適用してもよい。
【0053】また本発明の目的は、前述した実施形態の
機能を実現するソフトウェアのプログラムコードを記録
した記憶媒体(又は記録媒体)を、システム或は装置に
供給し、そのシステムあるいは装置のコンピュータ(又
はCPUやMPU)が記憶媒体に格納されたプログラムコード
を読み出し実行することによっても達成される。この場
合、記憶媒体から読み出されたプログラムコード自体が
前述した実施形態の機能を実現することになり、そのプ
ログラムコードを記憶した記憶媒体は本発明を構成する
ことになる。また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているオペレーテ
ィングシステム(OS)などが実際の処理の一部又は全部
を行い、その処理によって前述した実施形態の機能が実
現される場合も含まれる。
【0054】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張カードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部又は全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれる。
【0055】以上説明したように本実施の形態によれ
ば、形態素解析の結果から得られる属性を用い、これを
統計的に処理することによって、ポーズ情報決定規則が
自動的に構築できるという効果がある。
【0056】
【発明の効果】以上説明したように本発明によれば、テ
キストの形態素単位の属性と隣接する形態素の属性との
関係を求め、これを統計的に処理することによって、ポ
ーズ決定規則を高精度に構築できる。
【0057】また本発明によれば、テキストの単語単位
の属性と、その先行及び後続単語の属性を統計的に処理
することによってポーズ情報の決定規則を高精度に構築
できるという効果がある。
【0058】また本発明によれば、より自然言語に近い
音声を合成して出力できる自然言語処理方法及び前記方
法を用いた音声合成装置を提供することができる。
【図面の簡単な説明】
【図1】本実施の形態に係る、テキストデータの形態素
解析により得られる例を説明する図である。
【図2】図1の形態素解析により決定されるポーズ情報
を説明する図である。
【図3】図1の形態素解析により決定されるポーズ情報
がポーズ付与人数である場合を説明する図である。
【図4】図1の形態素解析により決定されるポーズ情報
がポーズレベルである場合を説明する図である。
【図5】図1の形態素解析により決定されるポーズ情報
がポーズ長である場合を説明する図である。
【図6】図1の形態素解析により決定されるポーズ情報
がポーズ付与確率である場合を説明する図である。
【図7】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。
【図8】本発明の実施の形態1に係る、決定木に基づく
ポーズ情報の決定規則の作成手順を示すフローチャート
である。
【図9】本実施の形態に係る、ポーズ情報の決定規則を
作成するために用いられる学習データの一例を示す図で
ある。
【図10】本実施の形態1に係る決定木に基づくポーズ
情報の決定規則を説明する図である。
【図11】本発明の実施の形態2に係る、決定木から得
られるプロダクションルールに基づくポーズ情報の決定
規則の作成手順を示すフローチャートである。
【図12】実施の形態2に係るプロダクションルールの
一例を示す図である。
【図13】本発明の実施の形態3に係る、ニューラルネ
ットワークに基づくポーズ情報の決定規則の作成手順を
示すフローチャートである。
【図14】本実施の形態3に係るニューラルネットワー
クによって実現されるポーズ情報決定機構の一例を示す
図である。
【図15】本発明の実施の形態6に係る、決定木に基づ
いて分類される確率値付きポーズ情報の決定規則の一例
を示す図である。
【図16】本発明の実施の形態7に係る音声合成処理の
処理手順を示したフローチャートである。

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 テキストを形態素単位に分割する分割ス
    テップと、 前記分割ステップで分割された各形態素の属性及び隣接
    する形態素の属性に基づいて各形態素毎のポーズ情報の
    決定規則を規定するポーズ情報決定規則を求めるステッ
    プと、 前記ポーズ情報決定規則に従って各形態素毎にポーズ情
    報を決定して付与する付与ステップと、 各形態素のポーズ情報から前記テキスト全体のポーズを
    決定する決定ステップと、を有することを特徴とする自
    然言語処理方法。
  2. 【請求項2】 前記ポーズ情報決定規則は、各形態素の
    属性に対するポーズを統計的に学習したポーズ情報推定
    データを用いて求められることを特徴とする請求項1に
    記載の自然言語処理方法。
  3. 【請求項3】 前記ポーズ情報推定データは、決定木に
    基づく分類により学習することにより求められることを
    特徴とする請求項2に記載の自然言語処理方法。
  4. 【請求項4】 前記ポーズ情報決定規則は、決定木に基
    づく分類により学習を行って得られるプロダクションル
    ールを用いることを特徴とする請求項1に記載の自然言
    語処理方法。
  5. 【請求項5】 前記ポーズ情報決定規則は、ニューラル
    ネットワークを用いて学習を行うことにより得られるこ
    とを特徴とする請求項1に記載の自然言語処理方法。
  6. 【請求項6】 前記決定ステップは、各形態素のポーズ
    を複数候補出力し、前記ポーズ付与数の制約を用いるこ
    とによって前記テキスト全体に対するポーズの付与を行
    うことを特徴とする請求項1に記載の自然言語処理方
    法。
  7. 【請求項7】 テキストを単語単位に分割する分割ステ
    ップと、 前記分割ステップで分割された各単語の属性及び隣接す
    る単語の属性に基づいて各単語毎のポーズ情報の決定規
    則を規定するポーズ情報決定規則を求めるステップと、 前記ポーズ情報決定規則に従って各単語毎にポーズ情報
    を決定して付与する付与ステップと、 各単語のポーズ情報から前記テキスト全体のポーズを決
    定する決定ステップと、を有することを特徴とする自然
    言語処理方法。
  8. 【請求項8】 前記ポーズ情報決定規則は、各単語の属
    性に対するポーズを統計的に学習したポーズ情報推定デ
    ータを用いて求められることを特徴とする請求項7に記
    載の自然言語処理方法。
  9. 【請求項9】 前記ポーズ情報推定データは、決定木に
    基づく分類により学習することにより求められることを
    特徴とする請求項8に記載の自然言語処理方法。
  10. 【請求項10】 前記ポーズ情報決定規則は、決定木に
    基づく分類により学習を行って得られるプロダクション
    ルールを用いることを特徴とする請求項7に記載の自然
    言語処理方法。
  11. 【請求項11】 前記ポーズ情報決定規則は、ニューラ
    ルネットワークを用いて学習を行うことにより得られる
    ことを特徴とする請求項7に記載の自然言語処理方法。
  12. 【請求項12】 前記決定ステップは、各単語のポーズ
    を複数候補出力し、前記ポーズ付与数の制約を用いるこ
    とによって前記テキスト全体に対するポーズの付与を行
    うことを特徴とする請求項7に記載の自然言語処理方
    法。
  13. 【請求項13】 テキストを入力する入力手段と、 前記入力手段により入力された前記テキストを形態素単
    位に分割する分割手段と、 前記分割手段で分割された各形態素の属性及び隣接する
    形態素の属性に基づいて各形態素毎のポーズ情報の決定
    規則を規定するポーズ情報決定規則を求める規則決定手
    段と、 前記規則決定手段により決定された前記ポーズ情報決定
    規則に従って各形態素毎にポーズ情報を付与する付与手
    段と、 前記付与手段により付与された各形態素のポーズ情報か
    ら前記テキスト全体のポーズ情報を決定する決定手段
    と、 前記テキストのポーズ情報に従って前記テキストを音声
    合成して出力する音声合成手段と、を有することを特徴
    とする音声合成装置。
  14. 【請求項14】 前記ポーズ情報決定規則は、各形態素
    の属性に対するポーズを統計的に学習したポーズ推定デ
    ータを用いて求められることを特徴とする請求項13に
    記載の音声合成装置。
  15. 【請求項15】 前記ポーズ推定データは決定木に基づ
    く分類により学習することにより求められることを特徴
    とする請求項14に記載の音声合成装置。
  16. 【請求項16】 前記ポーズ情報決定規則は、決定木に
    基づく分類により学習を行って得られるプロダクション
    ルールを用いることを特徴とする請求項13に記載の音
    声合成装置。
  17. 【請求項17】 前記ポーズ情報決定規則は、ニューラ
    ルネットワークを用いて学習を行うことにより得られる
    ことを特徴とする請求項13に記載の音声合成装置。
  18. 【請求項18】 前記決定手段は、各形態素のポーズ情
    報を複数候補出力し、前記ポーズ情報の付与数の制約を
    用いることによって前記テキスト全体に対するポーズ情
    報を決定することを特徴とする請求項13に記載の音声
    合成装置。
  19. 【請求項19】 テキストを入力する入力手段と、 前記入力手段により入力された前記テキストを単語単位
    に分割する分割手段と、 前記分割手段で分割された各単語の属性及び隣接する形
    態素の属性に基づいて各形態素毎のポーズ情報の決定規
    則を規定するポーズ情報決定規則を求める規則決定手段
    と、 前記規則決定手段により決定された前記ポーズ情報決定
    規則に従って各単語毎にポーズ情報を付与する付与手段
    と、 前記付与手段により付与された各単語のポーズ情報から
    前記テキスト全体のポーズ情報を決定する決定手段と、 前記テキストのポーズ情報に従って前記テキストを音声
    合成して出力する音声合成手段と、を有することを特徴
    とする音声合成装置。
JP25349399A 1999-09-07 1999-09-07 自然言語処理方法及び前記方法を用いた音声合成装置 Pending JP2001075584A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25349399A JP2001075584A (ja) 1999-09-07 1999-09-07 自然言語処理方法及び前記方法を用いた音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25349399A JP2001075584A (ja) 1999-09-07 1999-09-07 自然言語処理方法及び前記方法を用いた音声合成装置

Publications (2)

Publication Number Publication Date
JP2001075584A true JP2001075584A (ja) 2001-03-23
JP2001075584A5 JP2001075584A5 (ja) 2005-04-14

Family

ID=17252152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25349399A Pending JP2001075584A (ja) 1999-09-07 1999-09-07 自然言語処理方法及び前記方法を用いた音声合成装置

Country Status (1)

Country Link
JP (1) JP2001075584A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079351A (ja) * 2005-09-16 2007-03-29 Advanced Telecommunication Research Institute International 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
JP2007114507A (ja) * 2005-10-20 2007-05-10 Toshiba Corp 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
US11107457B2 (en) 2017-03-29 2021-08-31 Google Llc End-to-end text-to-speech conversion

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079351A (ja) * 2005-09-16 2007-03-29 Advanced Telecommunication Research Institute International 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
JP4621936B2 (ja) * 2005-09-16 2011-02-02 株式会社国際電気通信基礎技術研究所 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
JP2007114507A (ja) * 2005-10-20 2007-05-10 Toshiba Corp 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
US11107457B2 (en) 2017-03-29 2021-08-31 Google Llc End-to-end text-to-speech conversion
US11862142B2 (en) 2017-03-29 2024-01-02 Google Llc End-to-end text-to-speech conversion

Similar Documents

Publication Publication Date Title
EP1366490B1 (en) Hierarchichal language models
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP5198046B2 (ja) 音声処理装置及びそのプログラム
EP4030421A1 (en) Method for converting voice feature of voice
KR20210108293A (ko) 텍스트 생성 장치 및 방법
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Galley et al. Hybrid natural language generation for spoken dialogue systems
JPWO2003025787A1 (ja) 文章生成装置及び生成方法
JP3706758B2 (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2001075584A (ja) 自然言語処理方法及び前記方法を用いた音声合成装置
JP7327647B2 (ja) 発話生成装置、発話生成方法、プログラム
JP2008293098A (ja) 応答スコア情報生成装置、対話処理装置
JP2001075585A (ja) 自然言語処理方法及び前記方法を用いた音声合成装置
JP3950957B2 (ja) 言語処理装置および方法
JP2000222406A (ja) 音声認識翻訳装置及び方法
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2008305291A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP3571925B2 (ja) 音声情報処理装置
JP3576792B2 (ja) 音声情報処理方法
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
CN117672179A (zh) 一种支持智能处理的语音合成方法及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040609

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040609

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040609

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060821