JP2001075585A - 自然言語処理方法及び前記方法を用いた音声合成装置 - Google Patents

自然言語処理方法及び前記方法を用いた音声合成装置

Info

Publication number
JP2001075585A
JP2001075585A JP25349499A JP25349499A JP2001075585A JP 2001075585 A JP2001075585 A JP 2001075585A JP 25349499 A JP25349499 A JP 25349499A JP 25349499 A JP25349499 A JP 25349499A JP 2001075585 A JP2001075585 A JP 2001075585A
Authority
JP
Japan
Prior art keywords
accent
class
rule
morpheme
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP25349499A
Other languages
English (en)
Other versions
JP2001075585A5 (ja
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP25349499A priority Critical patent/JP2001075585A/ja
Publication of JP2001075585A publication Critical patent/JP2001075585A/ja
Publication of JP2001075585A5 publication Critical patent/JP2001075585A5/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 テキストの形態素単位のアクセントの変化を
アクセントクラスとして捉え、これを統計的に処理する
ことによって、様々な方言や言語に対するアクセント結
合規則を高精度に構築して、より自然言語に近い音声を
合成して出力する。 【解決手段】 テキストを形態素単位に分割し、その分
割された各形態素の属性の統計データであるアクセント
クラス学習データ101に基づいて、各形態素毎のアク
セントクラスの決定規則を規定するアクセントクラス決
定規則を求め(S202)、その求めたアクセントクラ
ス決定規則に従って各形態素毎にアクセントクラスを付
与し、その付与されたアクセントクラスに応じて各形態
素のアクセントパターンを決定することにより、そのテ
キスト全体に対するアクセントパターンを求めて音声合
成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストに対する
形態素或は単語単位の属性に基づいてアクセントクラス
を決定する自然言語処理方法及び前記方法を用いた音声
合成装置に関するものである。
【0002】
【従来の技術】テキストを音声に変換するテキスト音声
合成技術において、適切にアクセントパターン(声の高
低のパターン)を付与することは、自然で理解し易い合
成音声を生成するための重要な課題である。例えば、
「音声(オンセイ)」という4モーラ(モーラは音節に
ほぼ相当する)の単語は、声の高低をそれぞれHとLで
表すと、東京方言では「HLLL」(1モーラ目の
「オ」と2モーラ目の「ン」の間で声の高さがHからL
に変化する)と発声される。ここで、1モーラ目の後で
高から低へ声の高さが変わる(アクセント核がある)た
め、「音声」という単語は「1型」のアクセント型の単
語である。また、「合成(ゴウセイ)」という単語は
「LHHH」と発声される。この単語は高から低へ声の
高さが変わる部分がないため「0型」というアクセント
型である。
【0003】次に、これら「音声」と「合成」とを繋げ
た「音声合成(オンセイゴウセイ)」という8モーラの
複合語のアクセントパターンを考えると、「LHHHH
LLL」というようにアクセント型が「5型」となる。
ここで「音声」の部分のアクセントパターンは「LHH
H」となり、一つの単語で発声される場合の「HLL
L」とはアクセントパターンが変化する。また単語「合
成」も同様に、アクセントパターンが「LHHH」から
「HLLL」に変化する。このように単語が一語で単独
で発声される場合のアクセントパターンが、別の単語
(列)と結合することによって変化(アクセント結合)
することがある。
【0004】このようなアクセント結合のパターンは、
前述のような名詞の2単語の結合の場合に限らず、3単
語以上の結合や、助詞や助動詞といった付属語と結合す
る場合もある。また、アクセントパターンの変化の仕方
は実に多種多様であり、簡単な規則で記述することは困
難である。このため、従来、アクセント結合は、人間の
知見に基づいた詳細なアクセント結合規則に従って決定
されることが多い(匂坂、佐藤:「日本語単語連鎖のア
クセント規則」電子通信学会論文誌, Vol.J66-D, No.7,
pp.849-856, 1983.、宮崎:「日本文音声出力のための
言語処理に関する研究」,博士論文,1986.,佐藤:「共通
語アクセントの成因分析」,日本音響学会誌,Vol.49,No.
11, pp.775-784, 1993.)。
【0005】このような従来例に対して、アクセント結
合規則を統計的な手法を用いて推定するという手法が提
案されている(森田他:「モーラを単位としたアクセン
ト規則の自動構築」、日本音響学会講演論文集, pp.211
-212,平成10年9月., Setoet al. "Automatic Rule
Generation for Linguistic Features Analysis Using
Inductive Learning Technique-Linguistic Features A
nalysis in TOS Drive TTS System", Proc. ICSLP-98,
pp.2031-2034, 1998.)。
【0006】この方法は、テキストの形態素解析から得
られる各形態素の属性を入力として、アクセント結合に
よって決定されるアクセント句の境界をまず最初に決定
し、次にその境界に対してモーラ毎にアクセントの高低
を確率的に推定し、アクセント句境界内において、東京
方言として許されるアクセント型(モーラの高低パター
ン)の中からモーラ毎の高低パターンの確率値の累積尤
度が最も大きいパターンをアクセント型として決定して
いる。
【0007】
【発明が解決しようとする課題】上記従来例の前者は、
東京方言に対しては比較的高精度なアクセント結合規則
を与えるが、他の地方の方言に対する規則を考える場合
や、東京方言のアクセントパターンが経年変化していく
ような場合、アクセント結合規則を根本から考え直す必
要が生じるという問題がある。更に、日本語以外の他の
言語に対しては全く適用することができないという問題
もある。
【0008】また、後者の従来例では、本来事後的に決
定されるべきアクセント句境界を最初に決定しているこ
と、強い相関を持つと考えられるアクセント句境界の決
定とアクセント型の決定が独立に行われている(即ち、
最適性の保証がない)という問題がある。また、アクセ
ント型を東京方言に許されるものに限定しているため、
他の地方の方言や日本語以外の他の言語に対して適用す
ることが困難であるという問題がある。
【0009】本発明は上記従来例に鑑みてなされたもの
で、テキストの形態素単位のアクセントの変化をアクセ
ントクラスとして捉え、これを統計的に処理することに
よって、様々な方言や言語に対するアクセント結合規則
を高精度に構築できる自然言語処理方法及び前記方法を
用いた音声合成装置を提供することを目的とする。
【0010】また本発明の目的は、テキストの単語単位
のアクセントの変化をアクセントクラスとして捉え、こ
れを統計的に処理することによって、様々な方言や言語
に対するアクセント結合規則を高精度に構築できる自然
言語処理方法及び前記方法を用いた音声合成装置を提供
することにある。
【0011】また本発明の目的は、より自然言語に近い
音声を合成して出力できる自然言語処理方法及び前記方
法を用いた音声合成装置を提供することにある。
【0012】
【課題を解決するための手段】上記目的を達成するため
に本発明の自然言語処理方法は以下のような工程を備え
る。即ち、テキストを形態素単位に分割する分割ステッ
プと、前記分割ステップで分割された各形態素の属性に
基づいて各形態素毎のアクセントクラスの決定規則を規
定するアクセントクラス決定規則を求めるステップと、
前記アクセントクラス決定規則に従って各形態素毎にア
クセントクラスを付与する付与ステップと、各形態素の
アクセントクラスから前記テキスト全体のアクセントパ
ターンを決定する決定ステップとを有することを特徴と
する。
【0013】上記目的を達成するために本発明の自然言
語処理方法は以下のような工程を備える。即ち、テキス
トを単語単位に分割する分割ステップと、前記分割ステ
ップで分割された各単語の属性に基づいて各単語毎のア
クセントクラスの決定規則を規定するアクセントクラス
決定規則を求めるステップと、前記アクセントクラス決
定規則に従って各単語毎にアクセントクラスを付与する
付与ステップと、各単語のアクセントクラスから前記テ
キスト全体のアクセントパターンを決定する決定ステッ
プとを有することを特徴とする。
【0014】上記目的を達成するために本発明の自然言
語処理方法を用いた音声合成装置は以下のような構成を
備える。即ち、テキストを入力する入力手段と、前記入
力手段により入力された前記テキストを形態素単位に分
割する分割手段と、前記分割手段で分割された各形態素
の属性に基づいて各形態素毎のアクセントクラスの決定
規則を規定するアクセントクラス決定規則を求める規則
決定手段と、前記規則決定手段により決定された前記ア
クセントクラス決定規則に従って各形態素毎にアクセン
トクラスを付与する付与手段と、前記付与手段により付
与された各形態素のアクセントクラスから前記テキスト
全体のアクセントパターンを決定する決定手段と、前記
テキストのアクセントパターンに従って前記テキストを
音声合成して出力する音声合成手段とを有することを特
徴とする。
【0015】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
【0016】図1は、「今日は良い天気です」というテ
キストに対する形態素解析結果を説明する図、図2は形
態素解析結果及び各形態素のアクセントクラスを示す図
である。
【0017】ここで、各形態素の属性情報(この例で
は、読み、モーラ数、アクセント型、品詞、活用形)は
形態素解析用辞書に含まれている。このテキストを声で
読み上げた場合のアクセントの高低のパターンは、東京
方言では一般に、「HL(キョウ)L(ワ)HL(ヨ
イ)HLL(テンキ)LL(デス)」と発声される。こ
こで、各形態素毎のアクセント型の変化をみてみると、
「今日」はアクセント型の属性値が「1」(HLという
パターンをとる)であるのに対して、読み上げた場合も
HLであり変化していない。即ち、アクセント型が保存
されているため、「今日」に対するアクセントクラスを
「保存」(図2参照)とする。
【0018】次に、「は」については、アクセント型の
属性値が「1」(Hというパターンをとる)であるのに
対して、読み上げた場合はLと変化する。この変化は、
先行形態素(「今日」)の最終モーラのアクセントパタ
ーンLに従属したと考え、「は」のアクセント型の変化
を表すアクセントクラスとして、「従属」を割り当て
る。次に、「良い」、「天気」は、「今日」と同様に、
読み上げた場合のアクセントパターンがアクセント型の
属性値と同じであるため、アクセントクラスは「保存」
となる。また、「です」は、アクセント型の属性値が
「1」(HL)というパターンをとるのに対して、読み
上げた場合はLLというパターンに変化する。これは、
「は」の場合と同様に、先行形態素(「天気」)の最終
モーラのLに当該の形態素のアクセントパターンが全て
従属したと考え、アクセントクラスに「従属」を割り当
てる。以上から、「今日は良い天気です」というテキス
トに対する形態素毎の属性、及びこれに対応する各アク
セントクラスは図2のようになる。
【0019】アクセントクラスとしては、図2に示す
「保存」、「従属」の他に、アクセント型が「0型」に
変化する「0型」、アクセント型が「1型」に変化する
「1型」、アクセント核(アクセントがHからLに変化
する位置)は保存されるが1モーラ目のアクセントがH
である「H化」、先行形態素の最終モーラがLであり、
かつ当該アクセントパターンが全てのモーラでHとなる
「全高」、先行形態素の最終モーラがHであり、かつ当
該アクセントパターンが全てのモーラでLとなる「全
低」の計7種類のクラスを考慮することにより、東京方
言に対しては、ほとんどのアクセントパターンの変化を
説明することができる。アクセントクラスが、「0
型」、「1型」となる場合の例を図3に、「H化」の例
を図4に、「全高」の例を図5に、「全低」の例を図6
にそれぞれ示す。
【0020】アクセントパターンを決定するためには、
人によって入力されたテキスト、もしくは人によって発
声された音声に対するアクセントパターンをアクセント
クラスに変換し、これを統計的に処理した結果を用いて
行う。
【0021】このように、テキスト或は音声に対するア
クセントパターンの変化をアクセントクラスとして捉
え、これを統計処理することにより、東京方言によらず
任意の方言、或は個人、更には他言語に対して自動的に
アクセント結合の決定規則を構築する手段を有すること
が可能になり、前記従来例の問題点が解決できる。
【0022】例えば上述の従来例における複合語「音声
合成」のアクセントパターンを決定する場合、このアク
セントクラスの決定は、「音声」という「4モーラ1
型」の単語と、「合成」という「4モーラ0型」の単語
が結合した場合、「音声」は「0型」、「合成」は「1
型」というアクセントクラスになるという決定を行う。
ここでアクセントクラスは、いわゆる東京方言に対して
定められたアクセント型(Nモーラ単語に対しては、
「0型」から「N型」までの(N+1)種類)ではな
く、形態素元来のアクセント型をそのまま継承する
(「保存」)、「1型」になる(「1型」)、「0型」
になる(「0型」)、直前の形態素のアクセントパター
ンの高低値をそのまま継承し、当該形態素のアクセント
は高低もしくは低高といった変化を伴わない(「従
属」)等というように、アクセントの変化を所定のクラ
スによって表現したものである。
【0023】以下詳しく説明する。
【0024】[実施の形態1]図7は、本発明の実施の形
態に係る音声合成装置の構成を示すブロック図である。
【0025】図7において、11は合成された音声を出
力する出力部で、例えばスピーカ等の音声発生部を備え
ている。12は入力部で、例えばキーボードやマウス
等、更にはマイクロフォン等を備え、オペレータにより
入力されるデータをテキストデータに変換して入力処理
する。13は中央演算部で、例えばマイクロプロセッサ
などのCPU等を備え、本実施の形態に係る数値演算・
制御等の処理を、後述する手順に従って実行する。14
は記憶部で、例えばハードディスク装置等の外部メモリ
装置やRAM、ROM等の内部メモリを含み、本実施の
形態に係る処理手順を記述したプログラム、及びその処
理に必要な各種データを一時的に保存するのに使用され
る。15はこれら各部を接続するシステムバスである。
【0026】以上のハードウェア構成を踏まえて本実施
の形態を説明する。
【0027】図8は、本実施の形態に係る音声合成装置
における処理を示すフローチャートであり、アクセント
クラス決定規則を作成するための自然言語処理方法の一
例を示している。尚、この処理を実行するプログラムは
記憶部14に記憶されており、中央演算部13の制御の
下に実行される。
【0028】アクセントパターンを決定するためには、
まず、人によって付与されたテキスト、もしくは人によ
って発声された音声に対応するテキストデータを作成
し、そのテキストデータを形態素単位に分割する。こう
して分割された各形態素に対するアクセントパターンを
アクセントクラスに変換し、アクセントクラス学習デー
タ101を用意する。
【0029】このアクセントクラス学習データ101の
例を図9に示す。
【0030】この例では、当該形態素のモーラ数、アク
セント型、品詞、活用形からなる4種類の属性に加え
て、先行形態素、及び後続形態素に関しても同様の4種
類の属性を用いている。以上、このようにして合計12
種類(属性値4種類×形態素3環境)からなる要因を入
力として、そのアクセントクラスを予測するモデルを統
計的手法を用いて学習する。
【0031】このアクセントクラス学習データ101に
基づく、入力属性に対するアクセントクラスを予測する
モデルの作成方法としては、ステップS201に示され
る決定木に基づく方法が利用できる。この決定木の作成
は、ID3(Quinlan:"Induction of Decision Tree
s",Machine Learning, Vol.1, No.1, pp.81-106, 198
6.)、C4.5(Quinlan: "C4.5: Programs for Machi
ne Learning",Morgan Kaufmann Publishers, 199
3.)、CART(Breiman et al.: "Classification an
dRegression Trees",Belmont, CA, Wadsworth, 198
4.)などのアルゴリズムを利用することにより構築する
ことができる。例えば、上記「C4.5」を用いた場
合、アクセントクラス学習データ101を分割によりエ
ントロピーが最大になる要因に対する分割を選択(利得
基準による分割)、或は、利得を分割情報量で除した値
が最大になる要因に対する分割を選択(利得比基準によ
る分割)する操作を繰り返すことによって構築される。
【0032】こうして構築された決定木は、ステップS
202においてアクセントクラス決定規則として記憶部
15に記憶されて処理を終了する。
【0033】その後、入力部12からテキストデータが
入力されると、そのテキストデータは形態素に分割さ
れ、各形態素の属性が決定されると、記憶部14に記憶
されている決定木を用いて、そのテキストデータに対応
するアクセントクラスが決定される。こうして決定され
た各形態素に対応するアクセントクラスからテキスト全
体のアクセントパターンが決定されて、そのテキストデ
ータが音声合成されることになる。
【0034】ステップS201における学習によって構
築される決定木の非常に簡単な例を図10に示す。
【0035】図10において、「Y」、「N」のそれぞ
れは、○印で示される各ノードに対する質問に対する答
えがそれぞれ「YES」となる場合、及び「NO」とな
る場合を意味する。この決定木から、「音声(アクセン
ト型=1型)」と「合成(アクセント型=0型)」から
「音声合成」という2単語からなる熟語を構成する場
合、「音声」のアクセントクラスは「0型」に、「合
成」のアクセントクラスは「1型」にそれぞれ変化す
る。
【0036】即ち、「音声合成」の場合、「音声」はそ
のアクセント型が「1型」であるためノード120で
「Y」となってノード121に進み、後続の「合成」の
アクセント型が「0型」であるためノード121から
「Y」に進んで「0型」となる。また「合成」の場合は
そのアクセント型が「0型」であるためノード120で
「N」となってノード122に進み、ここで先行の「音
声」のアクセント型が「1型」であるためノード122
から「Y」に進んで「1型」となる。
【0037】このように本実施の形態1によれば、テキ
ストを形態素単位に分割し、各形態素の属性に基づいて
形態素毎のアクセントクラスを決定するアクセントクラ
ス決定木を規定し、その決定木に従って各形態素毎にア
クセントクラスを付与することにより、テキスト全体の
アクセントパターンを決定することができる。
【0038】[実施の形態2]上述した実施の形態1で
は、決定木をそのままアクセントクラス決定規則として
利用しているが、この決定木からプロダクションルール
を作成し、これをアクセントクラスの決定規則として用
いることもできる。
【0039】図11は、本発明の実施の形態2に係る、
プロダクションルールに基づくアクセントクラス決定規
則の作成方法を示すフローチャートである。
【0040】図11において、ステップS301は前述
の図8におけるステップS201の処理と同じである。
次にステップS302に進み、この作成された決定木か
らプロダクションルールを作成する。このプロダクショ
ンルールの作成方法としては、前述の「C4.5」(Qu
inlan: "C4.5: Programs for Machine Learning", Morg
an Kaufmann Publishers,1993.)において述べられてい
る方法を用いることができる。
【0041】こうしてステップS302で作成されたプ
ロダクションルールは、次にステップS304におい
て、アクセントクラス決定規則として図7の記憶部15
に記憶されて処理を終了する。
【0042】この作成されたプロダクションルールの簡
単な例を図12に示す。
【0043】このプロダクションルールは上から順に適
用され、どのルールにも当てはまらない場合は、最後の
「default」ルール(この場合は「保存」)が適用され
る。このプロダクションルールから、「音声(アクセン
ト型=1型)」と「合成(アクセント型=0型)」か
ら、「音声合成」という2単語を構成する場合、「音
声」のアクセントクラスは「0型」に、「合成」のアク
セントクラスは「1型」にそれぞれ変化する。
【0044】このように本実施の形態2によれば、テキ
ストを形態素単位に分割し、各形態素の属性に基づいて
形態素毎のアクセントクラスを決定するアクセントクラ
ス決定規則としてプロダクションルールを規定し、その
プロダクションルールに従って各形態素毎にアクセント
クラスを付与することにより、テキスト全体のアクセン
トパターンを決定することができる。
【0045】[実施の形態3]上記実施の形態1では、ア
クセントクラス学習データ101に基づいて入力属性に
対するアクセントクラスの予測モデルを決定木に基づく
方法によって作成していたが、これをニューラルネット
ワークを用いて学習することもできる。
【0046】図13は、本発明の実施の形態3に係る、
ニューラルネットワークに基づくアクセントクラス決定
規則の作成方法を示すフローチャートである。
【0047】図9に示すアクセントクラス学習データ1
01を用いて、図14に示す構造を有するニューラルネ
ットワークを学習する。ここで、入力層では、各属性値
に対して1つのノードが割り当てられており、該当する
ノードに対しては「1」を、該当しないノードに対して
は「0」を与える。また、出力層は、アクセントクラス
の数に対応する数のノードを設け、入力に対応するアク
セントクラスのノードに「1」を、それ以外に「0」を
与え、バックプロパゲーションアルゴリズムを用いて、
ノード間を結ぶリンク毎の重み(ネットワーク重み)を
学習する。
【0048】この学習後のネットワークは、ステップS
402において、アクセントクラス推定ネットワークと
して図7の記憶部15に保存され、処理を終了する。
【0049】こうして作成されたアクセントクラス推定
ネットワークは、入力層に対して所望の属性値に該当す
るノードに「1」を入力し、ネットワーク重みを用いて
積和演算を行い、最大値を与える出力ノードに対応する
アクセントクラスを推定値とすることによって、アクセ
ントクラス決定規則として利用することができる。
【0050】[実施の形態4]上記実施の形態1乃至3で
は、入力の属性として、当該形態素のモーラ数、アクセ
ント型、品詞、活用形からなる属性に加えて、先行形態
素、及び後続形態素に関する同様の属性を用いている。
即ち、前述の実施の形態では、合計12種類(属性値4
種類×形態素3環境)からなる要因を用いていたが、こ
れらの一部、或は他の属性、環境を利用してアクセント
クラス決定規則を求めてもよい。
【0051】[実施の形態5]上記実施の形態3では、多
層パーセプトロン型のニューラルネットワークを用いて
いるが、リカレントニューラルネットワークなど他のニ
ューラルネットワークを用いてアクセントクラス推定ネ
ットワークを学習してもよい。また、中間層は用いなく
てもよいし、2層以上にしてもよい。
【0052】[実施の形態6]上記実施の形態では、アク
セントクラスは隣接環境を考慮した形態素の属性情報か
ら一意に決定していたが、図15に示されるように、決
定木に基づいて確信度付きの情報として出力することも
できる。また、ニューラルネットワークに基づく方法に
おいても、出力層における各ノードの出力値を確信度と
して扱うこともできる。
【0053】ここで、アクセントクラス学習データを用
いれば、アクセントクラス間の接続を「1」又は「0」
(つながる、つながらない)、或は、アクセントクラス
の連鎖確率(N-gram)として学習することができる。
いま、t番目の形態素に対する決定木、或はニューラル
ネットワークから得られるアクセントクラスmtの確信
度をPa(mt),(t−1)番目の形態素に対するアク
セントクラスmt-1とのアクセントクラス間の連鎖確率
をPb(mt|mt-1)とすると、テキスト全体(t=
1,…,T;Tはテキスト中の形態素数)に対して尤度
を最大にするアクセントクラスの系列m^={m1,…,
mT}は、m^=argmaxPa(mt)Pb(mt|mt-1)
(m∈M)によって得られる。ここで、Mはアクセント
クラスの集合である。
【0054】この図15と図12とを比較すると明らか
なように、最終結果であるアクセントクラスにおいて、
図12に示すアクセントクラスが最大確率(尤度)を有
していることがわかる。
【0055】[実施の形態7]図16に、上述した各実施
の形態において作成されるアクセントクラス決定規則を
音声合成装置において利用する場合を、本発明の実施の
形態7として説明する。
【0056】まずステップS501で、音声合成の対象
となるテキストデータが、例えば入力部12のキーボー
ドやマイクロフォン等を用いて入力される。次にステッ
プS502に進み、その入力されたテキストデータに対
して形態素解析が行われ、例えば図1に示すような形態
素毎の属性を得る。次にステップS503に進み、形態
素毎の属性を入力として、上記実施の形態のいずれかの
方法によって得られるアクセントクラス決定規則555
(決定木、決定木に基づくプロダクションルール、ニュ
ーラルネットワーク等)を用いて、アクセントクラスを
付与する。次にステップS504に進み、上記実施の形
態のいずれかのアクセントクラスの決定方法に基づいて
テキスト全体のアクセントパターンを決定する。次にス
テップS505に進み、そのアクセントパターンの情
報、及び音声合成に必要な他の情報(読み、品詞、ポー
ズ情報等)を音声合成処理に渡す。このステップS50
5の音声合成処理では、ステップS504で決定された
アクセントパターンの情報に基づいて合成音声波形を生
成して、ステップS506で出力部11に出力する。こ
の出力部11では、例えばD/Aコンバータ、スピーカ
等によって合成音声を出力する。
【0057】なお本発明は、複数の機器(例えばホスト
コンピュータ、インターフェース機器、リーダ、プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機、ファクシミリ装置
など)に適用してもよい。
【0058】また本発明の目的は、前述した実施形態の
機能を実現するソフトウェアのプログラムコードを記録
した記憶媒体(又は記録媒体)を、システム或は装置に
供給し、そのシステムあるいは装置のコンピュータ(又
はCPUやMPU)が記憶媒体に格納されたプログラムコード
を読み出し実行することによっても達成される。この場
合、記憶媒体から読み出されたプログラムコード自体が
前述した実施形態の機能を実現することになり、そのプ
ログラムコードを記憶した記憶媒体は本発明を構成する
ことになる。また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているオペレーテ
ィングシステム(OS)などが実際の処理の一部又は全部
を行い、その処理によって前述した実施形態の機能が実
現される場合も含まれる。
【0059】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張カードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部又は全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれる。
【0060】以上説明したように本実施の形態によれ
ば、形態素単位のアクセントの変化をアクセントクラス
として捉え、これを統計的に処理することによって、様
々な方言や言語に対するアクセント結合規則が高精度に
構築できる。
【0061】またこれにより、より自然言語に近い音声
を合成して出力できるという効果がある。
【0062】
【発明の効果】以上説明したように本発明によれば、テ
キストの形態素単位のアクセントの変化をアクセントク
ラスとして捉え、これを統計的に処理することによっ
て、様々な方言や言語に対するアクセント結合規則を高
精度に構築できる。
【0063】また本発明によれば、テキストの単語単位
のアクセントの変化をアクセントクラスとして捉え、こ
れを統計的に処理することによって、様々な方言や言語
に対するアクセント結合規則を高精度に構築できるとい
う効果がある。
【0064】また本発明によれば、より自然言語に近い
音声を合成して出力できる自然言語処理方法及び前記方
法を用いた音声合成装置を提供することができる。
【図面の簡単な説明】
【図1】本実施の形態に係る、テキストデータの形態素
解析により得られる例を説明する図である。
【図2】図1の形態素解析により決定されるアクセント
クラスを説明する図である。
【図3】他のテキストデータの形態素解析により得られ
るアクセントクラスを説明する図である。
【図4】他のテキストデータの形態素解析により得られ
るアクセントクラスを説明する図である。
【図5】他のテキストデータの形態素解析により得られ
るアクセントクラスを説明する図である。
【図6】他のテキストデータの形態素解析により得られ
るアクセントクラスを説明する図である。
【図7】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。
【図8】本発明の実施の形態1に係る、決定木に基づく
アクセントクラスの決定規則の作成手順を示すフローチ
ャートである。
【図9】本実施の形態に係る、アクセントクラス決定規
則を作成するために用いられる学習データの一例を示す
図である。
【図10】本実施の形態1に係る決定木に基づくアクセ
ントクラス決定規則を説明する図である。
【図11】本発明の実施の形態2に係る、決定木から得
られるプロダクションルールに基づくアクセントクラス
の決定規則の作成手順を示すフローチャートである。
【図12】実施の形態2に係るプロダクションルールの
一例を示す図である。
【図13】本発明の実施の形態3に係る、ニューラルネ
ットワークに基づくアクセントクラスの決定規則の作成
手順を示すフローチャートである。
【図14】本実施の形態3に係るニューラルネットワー
クによって実現されるアクセントクラス決定機構の一例
を示す図である。
【図15】本発明の実施の形態6に係る、決定木に基づ
いて分類される確率値付きアクセントクラスの決定規則
の一例を示す図である。
【図16】本発明の実施の形態7に係る音声合成処理の
処理手順を示したフローチャートである。

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 テキストを形態素単位に分割する分割ス
    テップと、 前記分割ステップで分割された各形態素の属性に基づい
    て各形態素毎のアクセントクラスの決定規則を規定する
    アクセントクラス決定規則を求めるステップと、 前記アクセントクラス決定規則に従って各形態素毎にア
    クセントクラスを付与する付与ステップと、 各形態素のアクセントクラスから前記テキスト全体のア
    クセントパターンを決定する決定ステップと、を有する
    ことを特徴とする自然言語処理方法。
  2. 【請求項2】 前記アクセントクラス決定規則は、各形
    態素の属性に対するアクセントクラスを統計的に学習し
    たアクセントクラス推定データを用いて求められること
    を特徴とする請求項1に記載の自然言語処理方法。
  3. 【請求項3】 前記アクセントクラス推定データは、決
    定木に基づく分類により学習することにより求められる
    ことを特徴とする請求項2に記載の自然言語処理方法。
  4. 【請求項4】 前記アクセントクラス決定規則は、決定
    木に基づく分類により学習を行って得られるプロダクシ
    ョンルールを用いることを特徴とする請求項1に記載の
    自然言語処理方法。
  5. 【請求項5】 前記アクセントクラス決定規則は、ニュ
    ーラルネットワークを用いて学習を行うことにより得ら
    れることを特徴とする請求項1に記載の自然言語処理方
    法。
  6. 【請求項6】 前記決定ステップは、各形態素のアクセ
    ントクラスを複数候補出力し、前記アクセントクラス間
    の制約を用いることによって前記テキスト全体に対する
    アクセントクラスの組合せを求めることを特徴とする請
    求項1に記載の自然言語処理方法。
  7. 【請求項7】 テキストを単語単位に分割する分割ステ
    ップと、 前記分割ステップで分割された各単語の属性に基づいて
    各単語毎のアクセントクラスの決定規則を規定するアク
    セントクラス決定規則を求めるステップと、 前記アクセントクラス決定規則に従って各単語毎にアク
    セントクラスを付与する付与ステップと、 各単語のアクセントクラスから前記テキスト全体のアク
    セントパターンを決定する決定ステップと、を有するこ
    とを特徴とする自然言語処理方法。
  8. 【請求項8】 前記アクセントクラス決定規則は、各単
    語の属性に対するアクセントクラスを統計的に学習した
    アクセントクラス推定データを用いて求められることを
    特徴とする請求項7に記載の自然言語処理方法。
  9. 【請求項9】 前記アクセントクラス推定データは、決
    定木に基づく分類により学習することにより求められる
    ことを特徴とする請求項8に記載の自然言語処理方法。
  10. 【請求項10】 前記アクセントクラス決定規則は、決
    定木に基づく分類により学習を行って得られるプロダク
    ションルールを用いることを特徴とする請求項7に記載
    の自然言語処理方法。
  11. 【請求項11】 前記アクセントクラス決定規則は、ニ
    ューラルネットワークを用いて学習を行うことにより得
    られることを特徴とする請求項7に記載の自然言語処理
    方法。
  12. 【請求項12】 前記決定ステップは、各単語のアクセ
    ントクラスを複数候補出力し、前記アクセントクラス間
    の制約を用いることによって前記テキスト全体に対する
    アクセントクラスの組合せを求めることを特徴とする請
    求項7に記載の自然言語処理方法。
  13. 【請求項13】 テキストを入力する入力手段と、 前記入力手段により入力された前記テキストを形態素単
    位に分割する分割手段と、 前記分割手段で分割された各形態素の属性に基づいて各
    形態素毎のアクセントクラスの決定規則を規定するアク
    セントクラス決定規則を求める規則決定手段と、 前記規則決定手段により決定された前記アクセントクラ
    ス決定規則に従って各形態素毎にアクセントクラスを付
    与する付与手段と、 前記付与手段により付与された各形態素のアクセントク
    ラスから前記テキスト全体のアクセントパターンを決定
    する決定手段と、 前記テキストのアクセントパターンに従って前記テキス
    トを音声合成して出力する音声合成手段と、を有するこ
    とを特徴とする音声合成装置。
  14. 【請求項14】 前記アクセントクラス決定規則は、各
    形態素の属性に対するアクセントクラスを統計的に学習
    したアクセントクラス推定データを用いて求められるこ
    とを特徴とする請求項13に記載の音声合成装置。
  15. 【請求項15】 前記アクセントクラス推定データは、
    決定木に基づく分類により学習することにより求められ
    ることを特徴とする請求項13に記載の音声合成装置。
  16. 【請求項16】 前記アクセントクラス決定規則は、決
    定木に基づく分類により学習を行って得られるプロダク
    ションルールを用いることを特徴とする請求項13に記
    載の音声合成装置。
  17. 【請求項17】 前記アクセントクラス決定規則は、ニ
    ューラルネットワークを用いて学習を行うことにより得
    られることを特徴とする請求項13に記載の音声合成装
    置。
  18. 【請求項18】 前記決定手段は、各形態素のアクセン
    トクラスを複数候補出力し、前記アクセントクラス間の
    制約を用いることによって前記テキスト全体に対するア
    クセントクラスの組合せを求めることを特徴とする請求
    項13に記載の音声合成装置。
  19. 【請求項19】 テキストを入力する入力手段と、 前記入力手段により入力された前記テキストを単語単位
    に分割する分割手段と、 前記分割手段で分割された各単語の属性に基づいて各形
    態素毎のアクセントクラスの決定規則を規定するアクセ
    ントクラス決定規則を求める規則決定手段と、 前記規則決定手段により決定された前記アクセントクラ
    ス決定規則に従って各単語毎にアクセントクラスを付与
    する付与手段と、 前記付与手段により付与された各単語のアクセントクラ
    スから前記テキスト全体のアクセントパターンを決定す
    る決定手段と、 前記テキストのアクセントパターンに従って前記テキス
    トを音声合成して出力する音声合成手段と、を有するこ
    とを特徴とする音声合成装置。
JP25349499A 1999-09-07 1999-09-07 自然言語処理方法及び前記方法を用いた音声合成装置 Pending JP2001075585A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25349499A JP2001075585A (ja) 1999-09-07 1999-09-07 自然言語処理方法及び前記方法を用いた音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25349499A JP2001075585A (ja) 1999-09-07 1999-09-07 自然言語処理方法及び前記方法を用いた音声合成装置

Publications (2)

Publication Number Publication Date
JP2001075585A true JP2001075585A (ja) 2001-03-23
JP2001075585A5 JP2001075585A5 (ja) 2005-04-14

Family

ID=17252167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25349499A Pending JP2001075585A (ja) 1999-09-07 1999-09-07 自然言語処理方法及び前記方法を用いた音声合成装置

Country Status (1)

Country Link
JP (1) JP2001075585A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100486457B1 (ko) * 2002-09-17 2005-05-03 주식회사 현대오토넷 Cart를 이용한 자연어 처리 방법
JP2006259620A (ja) * 2005-03-18 2006-09-28 Univ Waseda 音声合成装置
US8751235B2 (en) 2005-07-12 2014-06-10 Nuance Communications, Inc. Annotating phonemes and accents for text-to-speech system
WO2017213696A1 (en) * 2016-06-10 2017-12-14 Google Llc Systems and methods for predicting pronunciations with word stress
US11256866B2 (en) 2017-10-25 2022-02-22 Google Llc Natural language processing with an N-gram machine

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100486457B1 (ko) * 2002-09-17 2005-05-03 주식회사 현대오토넷 Cart를 이용한 자연어 처리 방법
JP2006259620A (ja) * 2005-03-18 2006-09-28 Univ Waseda 音声合成装置
US8751235B2 (en) 2005-07-12 2014-06-10 Nuance Communications, Inc. Annotating phonemes and accents for text-to-speech system
WO2017213696A1 (en) * 2016-06-10 2017-12-14 Google Llc Systems and methods for predicting pronunciations with word stress
US10255905B2 (en) 2016-06-10 2019-04-09 Google Llc Predicting pronunciations with word stress
US11256866B2 (en) 2017-10-25 2022-02-22 Google Llc Natural language processing with an N-gram machine
US11947917B2 (en) 2017-10-25 2024-04-02 Google Llc Natural language processing with an n-gram machine

Similar Documents

Publication Publication Date Title
EP1366490B1 (en) Hierarchichal language models
WO2017213055A1 (ja) 音声認識装置及びコンピュータプログラム
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2003302992A (ja) 音声合成方法及び装置
JP4822829B2 (ja) 音声認識装置および方法
JP2001075585A (ja) 自然言語処理方法及び前記方法を用いた音声合成装置
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP2000222406A (ja) 音声認識翻訳装置及び方法
JP2022067223A (ja) 生成装置および生成方法
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP2001075584A (ja) 自然言語処理方法及び前記方法を用いた音声合成装置
JP3571925B2 (ja) 音声情報処理装置
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP3576792B2 (ja) 音声情報処理方法
JP4232254B2 (ja) 音声合成装置、規則音声合成方法及び記憶媒体
JP7102986B2 (ja) 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2001282273A (ja) 音声情報処理装置とその方法と記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040609

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040609

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040609

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060818