JP2001075585A

JP2001075585A - 自然言語処理方法及び前記方法を用いた音声合成装置

Info

Publication number: JP2001075585A
Application number: JP25349499A
Authority: JP
Inventors: Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-09-07
Filing date: 1999-09-07
Publication date: 2001-03-23

Abstract

(57)【要約】【課題】テキストの形態素単位のアクセントの変化を
アクセントクラスとして捉え、これを統計的に処理する
ことによって、様々な方言や言語に対するアクセント結
合規則を高精度に構築して、より自然言語に近い音声を
合成して出力する。【解決手段】テキストを形態素単位に分割し、その分
割された各形態素の属性の統計データであるアクセント
クラス学習データ１０１に基づいて、各形態素毎のアク
セントクラスの決定規則を規定するアクセントクラス決
定規則を求め（Ｓ２０２）、その求めたアクセントクラ
ス決定規則に従って各形態素毎にアクセントクラスを付
与し、その付与されたアクセントクラスに応じて各形態
素のアクセントパターンを決定することにより、そのテ
キスト全体に対するアクセントパターンを求めて音声合
成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストに対する
形態素或は単語単位の属性に基づいてアクセントクラス
を決定する自然言語処理方法及び前記方法を用いた音声
合成装置に関するものである。

【０００２】

【従来の技術】テキストを音声に変換するテキスト音声
合成技術において、適切にアクセントパターン（声の高
低のパターン）を付与することは、自然で理解し易い合
成音声を生成するための重要な課題である。例えば、
「音声（オンセイ）」という４モーラ（モーラは音節に
ほぼ相当する）の単語は、声の高低をそれぞれＨとＬで
表すと、東京方言では「ＨＬＬＬ」（１モーラ目の
「オ」と２モーラ目の「ン」の間で声の高さがＨからＬ
に変化する）と発声される。ここで、１モーラ目の後で
高から低へ声の高さが変わる（アクセント核がある）た
め、「音声」という単語は「１型」のアクセント型の単
語である。また、「合成（ゴウセイ）」という単語は
「ＬＨＨＨ」と発声される。この単語は高から低へ声の
高さが変わる部分がないため「０型」というアクセント
型である。

【０００３】次に、これら「音声」と「合成」とを繋げ
た「音声合成（オンセイゴウセイ）」という８モーラの
複合語のアクセントパターンを考えると、「ＬＨＨＨＨ
ＬＬＬ」というようにアクセント型が「５型」となる。
ここで「音声」の部分のアクセントパターンは「ＬＨＨ
Ｈ」となり、一つの単語で発声される場合の「ＨＬＬ
Ｌ」とはアクセントパターンが変化する。また単語「合
成」も同様に、アクセントパターンが「ＬＨＨＨ」から
「ＨＬＬＬ」に変化する。このように単語が一語で単独
で発声される場合のアクセントパターンが、別の単語
（列）と結合することによって変化（アクセント結合）
することがある。

【０００４】このようなアクセント結合のパターンは、
前述のような名詞の２単語の結合の場合に限らず、３単
語以上の結合や、助詞や助動詞といった付属語と結合す
る場合もある。また、アクセントパターンの変化の仕方
は実に多種多様であり、簡単な規則で記述することは困
難である。このため、従来、アクセント結合は、人間の
知見に基づいた詳細なアクセント結合規則に従って決定
されることが多い（匂坂、佐藤:「日本語単語連鎖のア
クセント規則」電子通信学会論文誌, Vol.J66-D, No.7,
pp.849-856, 1983.、宮崎:「日本文音声出力のための
言語処理に関する研究」,博士論文,1986.,佐藤:「共通
語アクセントの成因分析」,日本音響学会誌,Vol.49,No.
11, pp.775-784, 1993.）。

【０００５】このような従来例に対して、アクセント結
合規則を統計的な手法を用いて推定するという手法が提
案されている（森田他:「モーラを単位としたアクセン
ト規則の自動構築」、日本音響学会講演論文集, pp.211
-212,平成１０年９月., Setoet al. "Automatic Rule
Generation for Linguistic Features Analysis Using
Inductive Learning Technique-Linguistic Features A
nalysis in TOS Drive TTS System", Proc. ICSLP-98,
pp.2031-2034, 1998.）。

【０００６】この方法は、テキストの形態素解析から得
られる各形態素の属性を入力として、アクセント結合に
よって決定されるアクセント句の境界をまず最初に決定
し、次にその境界に対してモーラ毎にアクセントの高低
を確率的に推定し、アクセント句境界内において、東京
方言として許されるアクセント型（モーラの高低パター
ン）の中からモーラ毎の高低パターンの確率値の累積尤
度が最も大きいパターンをアクセント型として決定して
いる。

【０００７】

【発明が解決しようとする課題】上記従来例の前者は、
東京方言に対しては比較的高精度なアクセント結合規則
を与えるが、他の地方の方言に対する規則を考える場合
や、東京方言のアクセントパターンが経年変化していく
ような場合、アクセント結合規則を根本から考え直す必
要が生じるという問題がある。更に、日本語以外の他の
言語に対しては全く適用することができないという問題
もある。

【０００８】また、後者の従来例では、本来事後的に決
定されるべきアクセント句境界を最初に決定しているこ
と、強い相関を持つと考えられるアクセント句境界の決
定とアクセント型の決定が独立に行われている（即ち、
最適性の保証がない）という問題がある。また、アクセ
ント型を東京方言に許されるものに限定しているため、
他の地方の方言や日本語以外の他の言語に対して適用す
ることが困難であるという問題がある。

【０００９】本発明は上記従来例に鑑みてなされたもの
で、テキストの形態素単位のアクセントの変化をアクセ
ントクラスとして捉え、これを統計的に処理することに
よって、様々な方言や言語に対するアクセント結合規則
を高精度に構築できる自然言語処理方法及び前記方法を
用いた音声合成装置を提供することを目的とする。

【００１０】また本発明の目的は、テキストの単語単位
のアクセントの変化をアクセントクラスとして捉え、こ
れを統計的に処理することによって、様々な方言や言語
に対するアクセント結合規則を高精度に構築できる自然
言語処理方法及び前記方法を用いた音声合成装置を提供
することにある。

【００１１】また本発明の目的は、より自然言語に近い
音声を合成して出力できる自然言語処理方法及び前記方
法を用いた音声合成装置を提供することにある。

【００１２】

【課題を解決するための手段】上記目的を達成するため
に本発明の自然言語処理方法は以下のような工程を備え
る。即ち、テキストを形態素単位に分割する分割ステッ
プと、前記分割ステップで分割された各形態素の属性に
基づいて各形態素毎のアクセントクラスの決定規則を規
定するアクセントクラス決定規則を求めるステップと、
前記アクセントクラス決定規則に従って各形態素毎にア
クセントクラスを付与する付与ステップと、各形態素の
アクセントクラスから前記テキスト全体のアクセントパ
ターンを決定する決定ステップとを有することを特徴と
する。

【００１３】上記目的を達成するために本発明の自然言
語処理方法は以下のような工程を備える。即ち、テキス
トを単語単位に分割する分割ステップと、前記分割ステ
ップで分割された各単語の属性に基づいて各単語毎のア
クセントクラスの決定規則を規定するアクセントクラス
決定規則を求めるステップと、前記アクセントクラス決
定規則に従って各単語毎にアクセントクラスを付与する
付与ステップと、各単語のアクセントクラスから前記テ
キスト全体のアクセントパターンを決定する決定ステッ
プとを有することを特徴とする。

【００１４】上記目的を達成するために本発明の自然言
語処理方法を用いた音声合成装置は以下のような構成を
備える。即ち、テキストを入力する入力手段と、前記入
力手段により入力された前記テキストを形態素単位に分
割する分割手段と、前記分割手段で分割された各形態素
の属性に基づいて各形態素毎のアクセントクラスの決定
規則を規定するアクセントクラス決定規則を求める規則
決定手段と、前記規則決定手段により決定された前記ア
クセントクラス決定規則に従って各形態素毎にアクセン
トクラスを付与する付与手段と、前記付与手段により付
与された各形態素のアクセントクラスから前記テキスト
全体のアクセントパターンを決定する決定手段と、前記
テキストのアクセントパターンに従って前記テキストを
音声合成して出力する音声合成手段とを有することを特
徴とする。

【００１５】

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。

【００１６】図１は、「今日は良い天気です」というテ
キストに対する形態素解析結果を説明する図、図２は形
態素解析結果及び各形態素のアクセントクラスを示す図
である。

【００１７】ここで、各形態素の属性情報（この例で
は、読み、モーラ数、アクセント型、品詞、活用形）は
形態素解析用辞書に含まれている。このテキストを声で
読み上げた場合のアクセントの高低のパターンは、東京
方言では一般に、「ＨＬ（キョウ）Ｌ（ワ）ＨＬ（ヨ
イ）ＨＬＬ（テンキ）ＬＬ（デス）」と発声される。こ
こで、各形態素毎のアクセント型の変化をみてみると、
「今日」はアクセント型の属性値が「１」（ＨＬという
パターンをとる）であるのに対して、読み上げた場合も
ＨＬであり変化していない。即ち、アクセント型が保存
されているため、「今日」に対するアクセントクラスを
「保存」（図２参照）とする。

【００１８】次に、「は」については、アクセント型の
属性値が「１」（Ｈというパターンをとる）であるのに
対して、読み上げた場合はＬと変化する。この変化は、
先行形態素（「今日」）の最終モーラのアクセントパタ
ーンＬに従属したと考え、「は」のアクセント型の変化
を表すアクセントクラスとして、「従属」を割り当て
る。次に、「良い」、「天気」は、「今日」と同様に、
読み上げた場合のアクセントパターンがアクセント型の
属性値と同じであるため、アクセントクラスは「保存」
となる。また、「です」は、アクセント型の属性値が
「１」（ＨＬ）というパターンをとるのに対して、読み
上げた場合はＬＬというパターンに変化する。これは、
「は」の場合と同様に、先行形態素（「天気」）の最終
モーラのＬに当該の形態素のアクセントパターンが全て
従属したと考え、アクセントクラスに「従属」を割り当
てる。以上から、「今日は良い天気です」というテキス
トに対する形態素毎の属性、及びこれに対応する各アク
セントクラスは図２のようになる。

【００１９】アクセントクラスとしては、図２に示す
「保存」、「従属」の他に、アクセント型が「０型」に
変化する「０型」、アクセント型が「１型」に変化する
「１型」、アクセント核（アクセントがＨからＬに変化
する位置）は保存されるが１モーラ目のアクセントがＨ
である「Ｈ化」、先行形態素の最終モーラがＬであり、
かつ当該アクセントパターンが全てのモーラでＨとなる
「全高」、先行形態素の最終モーラがＨであり、かつ当
該アクセントパターンが全てのモーラでＬとなる「全
低」の計７種類のクラスを考慮することにより、東京方
言に対しては、ほとんどのアクセントパターンの変化を
説明することができる。アクセントクラスが、「０
型」、「１型」となる場合の例を図３に、「Ｈ化」の例
を図４に、「全高」の例を図５に、「全低」の例を図６
にそれぞれ示す。

【００２０】アクセントパターンを決定するためには、
人によって入力されたテキスト、もしくは人によって発
声された音声に対するアクセントパターンをアクセント
クラスに変換し、これを統計的に処理した結果を用いて
行う。

【００２１】このように、テキスト或は音声に対するア
クセントパターンの変化をアクセントクラスとして捉
え、これを統計処理することにより、東京方言によらず
任意の方言、或は個人、更には他言語に対して自動的に
アクセント結合の決定規則を構築する手段を有すること
が可能になり、前記従来例の問題点が解決できる。

【００２２】例えば上述の従来例における複合語「音声
合成」のアクセントパターンを決定する場合、このアク
セントクラスの決定は、「音声」という「４モーラ１
型」の単語と、「合成」という「４モーラ０型」の単語
が結合した場合、「音声」は「０型」、「合成」は「１
型」というアクセントクラスになるという決定を行う。
ここでアクセントクラスは、いわゆる東京方言に対して
定められたアクセント型（Ｎモーラ単語に対しては、
「０型」から「Ｎ型」までの（Ｎ＋１）種類）ではな
く、形態素元来のアクセント型をそのまま継承する
（「保存」）、「１型」になる（「１型」）、「０型」
になる（「０型」）、直前の形態素のアクセントパター
ンの高低値をそのまま継承し、当該形態素のアクセント
は高低もしくは低高といった変化を伴わない（「従
属」）等というように、アクセントの変化を所定のクラ
スによって表現したものである。

【００２３】以下詳しく説明する。

【００２４】[実施の形態１]図７は、本発明の実施の形
態に係る音声合成装置の構成を示すブロック図である。

【００２５】図７において、１１は合成された音声を出
力する出力部で、例えばスピーカ等の音声発生部を備え
ている。１２は入力部で、例えばキーボードやマウス
等、更にはマイクロフォン等を備え、オペレータにより
入力されるデータをテキストデータに変換して入力処理
する。１３は中央演算部で、例えばマイクロプロセッサ
などのＣＰＵ等を備え、本実施の形態に係る数値演算・
制御等の処理を、後述する手順に従って実行する。１４
は記憶部で、例えばハードディスク装置等の外部メモリ
装置やＲＡＭ、ＲＯＭ等の内部メモリを含み、本実施の
形態に係る処理手順を記述したプログラム、及びその処
理に必要な各種データを一時的に保存するのに使用され
る。１５はこれら各部を接続するシステムバスである。

【００２６】以上のハードウェア構成を踏まえて本実施
の形態を説明する。

【００２７】図８は、本実施の形態に係る音声合成装置
における処理を示すフローチャートであり、アクセント
クラス決定規則を作成するための自然言語処理方法の一
例を示している。尚、この処理を実行するプログラムは
記憶部１４に記憶されており、中央演算部１３の制御の
下に実行される。

【００２８】アクセントパターンを決定するためには、
まず、人によって付与されたテキスト、もしくは人によ
って発声された音声に対応するテキストデータを作成
し、そのテキストデータを形態素単位に分割する。こう
して分割された各形態素に対するアクセントパターンを
アクセントクラスに変換し、アクセントクラス学習デー
タ１０１を用意する。

【００２９】このアクセントクラス学習データ１０１の
例を図９に示す。

【００３０】この例では、当該形態素のモーラ数、アク
セント型、品詞、活用形からなる４種類の属性に加え
て、先行形態素、及び後続形態素に関しても同様の４種
類の属性を用いている。以上、このようにして合計１２
種類（属性値４種類×形態素３環境）からなる要因を入
力として、そのアクセントクラスを予測するモデルを統
計的手法を用いて学習する。

【００３１】このアクセントクラス学習データ１０１に
基づく、入力属性に対するアクセントクラスを予測する
モデルの作成方法としては、ステップＳ２０１に示され
る決定木に基づく方法が利用できる。この決定木の作成
は、ＩＤ３（Quinlan:"Induction of Decision Tree
s"，Machine Learning, Vol.1, No.1, pp.81-106, 198
6.）、Ｃ４．５（Quinlan: "C4.5: Programs for Machi
ne Learning"，Morgan Kaufmann Publishers, 199
3.）、ＣＡＲＴ（Breiman et al.: "Classification an
dRegression Trees"，Belmont, CA, Wadsworth, 198
4.）などのアルゴリズムを利用することにより構築する
ことができる。例えば、上記「Ｃ４．５」を用いた場
合、アクセントクラス学習データ１０１を分割によりエ
ントロピーが最大になる要因に対する分割を選択（利得
基準による分割）、或は、利得を分割情報量で除した値
が最大になる要因に対する分割を選択（利得比基準によ
る分割）する操作を繰り返すことによって構築される。

【００３２】こうして構築された決定木は、ステップＳ
２０２においてアクセントクラス決定規則として記憶部
１５に記憶されて処理を終了する。

【００３３】その後、入力部１２からテキストデータが
入力されると、そのテキストデータは形態素に分割さ
れ、各形態素の属性が決定されると、記憶部１４に記憶
されている決定木を用いて、そのテキストデータに対応
するアクセントクラスが決定される。こうして決定され
た各形態素に対応するアクセントクラスからテキスト全
体のアクセントパターンが決定されて、そのテキストデ
ータが音声合成されることになる。

【００３４】ステップＳ２０１における学習によって構
築される決定木の非常に簡単な例を図１０に示す。

【００３５】図１０において、「Ｙ」、「Ｎ」のそれぞ
れは、○印で示される各ノードに対する質問に対する答
えがそれぞれ「ＹＥＳ」となる場合、及び「ＮＯ」とな
る場合を意味する。この決定木から、「音声（アクセン
ト型＝１型）」と「合成（アクセント型＝０型）」から
「音声合成」という２単語からなる熟語を構成する場
合、「音声」のアクセントクラスは「０型」に、「合
成」のアクセントクラスは「１型」にそれぞれ変化す
る。

【００３６】即ち、「音声合成」の場合、「音声」はそ
のアクセント型が「１型」であるためノード１２０で
「Ｙ」となってノード１２１に進み、後続の「合成」の
アクセント型が「０型」であるためノード１２１から
「Ｙ」に進んで「０型」となる。また「合成」の場合は
そのアクセント型が「０型」であるためノード１２０で
「Ｎ」となってノード１２２に進み、ここで先行の「音
声」のアクセント型が「１型」であるためノード１２２
から「Ｙ」に進んで「１型」となる。

【００３７】このように本実施の形態１によれば、テキ
ストを形態素単位に分割し、各形態素の属性に基づいて
形態素毎のアクセントクラスを決定するアクセントクラ
ス決定木を規定し、その決定木に従って各形態素毎にア
クセントクラスを付与することにより、テキスト全体の
アクセントパターンを決定することができる。

【００３８】[実施の形態２]上述した実施の形態１で
は、決定木をそのままアクセントクラス決定規則として
利用しているが、この決定木からプロダクションルール
を作成し、これをアクセントクラスの決定規則として用
いることもできる。

【００３９】図１１は、本発明の実施の形態２に係る、
プロダクションルールに基づくアクセントクラス決定規
則の作成方法を示すフローチャートである。

【００４０】図１１において、ステップＳ３０１は前述
の図８におけるステップＳ２０１の処理と同じである。
次にステップＳ３０２に進み、この作成された決定木か
らプロダクションルールを作成する。このプロダクショ
ンルールの作成方法としては、前述の「Ｃ４．５」（Qu
inlan: "C4.5: Programs for Machine Learning", Morg
an Kaufmann Publishers,1993.）において述べられてい
る方法を用いることができる。

【００４１】こうしてステップＳ３０２で作成されたプ
ロダクションルールは、次にステップＳ３０４におい
て、アクセントクラス決定規則として図７の記憶部１５
に記憶されて処理を終了する。

【００４２】この作成されたプロダクションルールの簡
単な例を図１２に示す。

【００４３】このプロダクションルールは上から順に適
用され、どのルールにも当てはまらない場合は、最後の
「default」ルール（この場合は「保存」）が適用され
る。このプロダクションルールから、「音声（アクセン
ト型＝１型）」と「合成（アクセント型＝０型）」か
ら、「音声合成」という２単語を構成する場合、「音
声」のアクセントクラスは「０型」に、「合成」のアク
セントクラスは「１型」にそれぞれ変化する。

【００４４】このように本実施の形態２によれば、テキ
ストを形態素単位に分割し、各形態素の属性に基づいて
形態素毎のアクセントクラスを決定するアクセントクラ
ス決定規則としてプロダクションルールを規定し、その
プロダクションルールに従って各形態素毎にアクセント
クラスを付与することにより、テキスト全体のアクセン
トパターンを決定することができる。

【００４５】[実施の形態３]上記実施の形態１では、ア
クセントクラス学習データ１０１に基づいて入力属性に
対するアクセントクラスの予測モデルを決定木に基づく
方法によって作成していたが、これをニューラルネット
ワークを用いて学習することもできる。

【００４６】図１３は、本発明の実施の形態３に係る、
ニューラルネットワークに基づくアクセントクラス決定
規則の作成方法を示すフローチャートである。

【００４７】図９に示すアクセントクラス学習データ１
０１を用いて、図１４に示す構造を有するニューラルネ
ットワークを学習する。ここで、入力層では、各属性値
に対して１つのノードが割り当てられており、該当する
ノードに対しては「１」を、該当しないノードに対して
は「０」を与える。また、出力層は、アクセントクラス
の数に対応する数のノードを設け、入力に対応するアク
セントクラスのノードに「１」を、それ以外に「０」を
与え、バックプロパゲーションアルゴリズムを用いて、
ノード間を結ぶリンク毎の重み（ネットワーク重み）を
学習する。

【００４８】この学習後のネットワークは、ステップＳ
４０２において、アクセントクラス推定ネットワークと
して図７の記憶部１５に保存され、処理を終了する。

【００４９】こうして作成されたアクセントクラス推定
ネットワークは、入力層に対して所望の属性値に該当す
るノードに「１」を入力し、ネットワーク重みを用いて
積和演算を行い、最大値を与える出力ノードに対応する
アクセントクラスを推定値とすることによって、アクセ
ントクラス決定規則として利用することができる。

【００５０】[実施の形態４]上記実施の形態１乃至３で
は、入力の属性として、当該形態素のモーラ数、アクセ
ント型、品詞、活用形からなる属性に加えて、先行形態
素、及び後続形態素に関する同様の属性を用いている。
即ち、前述の実施の形態では、合計１２種類（属性値４
種類×形態素３環境）からなる要因を用いていたが、こ
れらの一部、或は他の属性、環境を利用してアクセント
クラス決定規則を求めてもよい。

【００５１】[実施の形態５]上記実施の形態３では、多
層パーセプトロン型のニューラルネットワークを用いて
いるが、リカレントニューラルネットワークなど他のニ
ューラルネットワークを用いてアクセントクラス推定ネ
ットワークを学習してもよい。また、中間層は用いなく
てもよいし、２層以上にしてもよい。

【００５２】[実施の形態６]上記実施の形態では、アク
セントクラスは隣接環境を考慮した形態素の属性情報か
ら一意に決定していたが、図１５に示されるように、決
定木に基づいて確信度付きの情報として出力することも
できる。また、ニューラルネットワークに基づく方法に
おいても、出力層における各ノードの出力値を確信度と
して扱うこともできる。

【００５３】ここで、アクセントクラス学習データを用
いれば、アクセントクラス間の接続を「１」又は「０」
（つながる、つながらない）、或は、アクセントクラス
の連鎖確率（Ｎ-gram）として学習することができる。
いま、ｔ番目の形態素に対する決定木、或はニューラル
ネットワークから得られるアクセントクラスｍtの確信
度をＰa（ｍt），（ｔ−１）番目の形態素に対するアク
セントクラスｍt-1とのアクセントクラス間の連鎖確率
をＰb（ｍt｜ｍt-1）とすると、テキスト全体（ｔ＝
１，…，Ｔ；Ｔはテキスト中の形態素数）に対して尤度
を最大にするアクセントクラスの系列ｍ^＝｛ｍ1，…，
ｍT｝は、ｍ^＝argmaxＰa（ｍt）Ｐb（ｍt｜ｍt-1）
（ｍ∈Ｍ）によって得られる。ここで、Ｍはアクセント
クラスの集合である。

【００５４】この図１５と図１２とを比較すると明らか
なように、最終結果であるアクセントクラスにおいて、
図１２に示すアクセントクラスが最大確率（尤度）を有
していることがわかる。

【００５５】[実施の形態７]図１６に、上述した各実施
の形態において作成されるアクセントクラス決定規則を
音声合成装置において利用する場合を、本発明の実施の
形態７として説明する。

【００５６】まずステップＳ５０１で、音声合成の対象
となるテキストデータが、例えば入力部１２のキーボー
ドやマイクロフォン等を用いて入力される。次にステッ
プＳ５０２に進み、その入力されたテキストデータに対
して形態素解析が行われ、例えば図１に示すような形態
素毎の属性を得る。次にステップＳ５０３に進み、形態
素毎の属性を入力として、上記実施の形態のいずれかの
方法によって得られるアクセントクラス決定規則５５５
（決定木、決定木に基づくプロダクションルール、ニュ
ーラルネットワーク等）を用いて、アクセントクラスを
付与する。次にステップＳ５０４に進み、上記実施の形
態のいずれかのアクセントクラスの決定方法に基づいて
テキスト全体のアクセントパターンを決定する。次にス
テップＳ５０５に進み、そのアクセントパターンの情
報、及び音声合成に必要な他の情報（読み、品詞、ポー
ズ情報等）を音声合成処理に渡す。このステップＳ５０
５の音声合成処理では、ステップＳ５０４で決定された
アクセントパターンの情報に基づいて合成音声波形を生
成して、ステップＳ５０６で出力部１１に出力する。こ
の出力部１１では、例えばＤ／Ａコンバータ、スピーカ
等によって合成音声を出力する。

【００５７】なお本発明は、複数の機器（例えばホスト
コンピュータ、インターフェース機器、リーダ、プリン
タなど）から構成されるシステムに適用しても、一つの
機器からなる装置（例えば、複写機、ファクシミリ装置
など）に適用してもよい。

【００５８】また本発明の目的は、前述した実施形態の
機能を実現するソフトウェアのプログラムコードを記録
した記憶媒体（又は記録媒体）を、システム或は装置に
供給し、そのシステムあるいは装置のコンピュータ（又
はCPUやMPU）が記憶媒体に格納されたプログラムコード
を読み出し実行することによっても達成される。この場
合、記憶媒体から読み出されたプログラムコード自体が
前述した実施形態の機能を実現することになり、そのプ
ログラムコードを記憶した記憶媒体は本発明を構成する
ことになる。また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているオペレーテ
ィングシステム（OS）などが実際の処理の一部又は全部
を行い、その処理によって前述した実施形態の機能が実
現される場合も含まれる。

【００５９】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張カードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部又は全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれる。

【００６０】以上説明したように本実施の形態によれ
ば、形態素単位のアクセントの変化をアクセントクラス
として捉え、これを統計的に処理することによって、様
々な方言や言語に対するアクセント結合規則が高精度に
構築できる。

【００６１】またこれにより、より自然言語に近い音声
を合成して出力できるという効果がある。

【００６２】

【発明の効果】以上説明したように本発明によれば、テ
キストの形態素単位のアクセントの変化をアクセントク
ラスとして捉え、これを統計的に処理することによっ
て、様々な方言や言語に対するアクセント結合規則を高
精度に構築できる。

【００６３】また本発明によれば、テキストの単語単位
のアクセントの変化をアクセントクラスとして捉え、こ
れを統計的に処理することによって、様々な方言や言語
に対するアクセント結合規則を高精度に構築できるとい
う効果がある。

【００６４】また本発明によれば、より自然言語に近い
音声を合成して出力できる自然言語処理方法及び前記方
法を用いた音声合成装置を提供することができる。

【図面の簡単な説明】

【図１】本実施の形態に係る、テキストデータの形態素
解析により得られる例を説明する図である。

【図２】図１の形態素解析により決定されるアクセント
クラスを説明する図である。

【図３】他のテキストデータの形態素解析により得られ
るアクセントクラスを説明する図である。

【図４】他のテキストデータの形態素解析により得られ
るアクセントクラスを説明する図である。

【図５】他のテキストデータの形態素解析により得られ
るアクセントクラスを説明する図である。

【図６】他のテキストデータの形態素解析により得られ
るアクセントクラスを説明する図である。

【図７】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。

【図８】本発明の実施の形態１に係る、決定木に基づく
アクセントクラスの決定規則の作成手順を示すフローチ
ャートである。

【図９】本実施の形態に係る、アクセントクラス決定規
則を作成するために用いられる学習データの一例を示す
図である。

【図１０】本実施の形態１に係る決定木に基づくアクセ
ントクラス決定規則を説明する図である。

【図１１】本発明の実施の形態２に係る、決定木から得
られるプロダクションルールに基づくアクセントクラス
の決定規則の作成手順を示すフローチャートである。

【図１２】実施の形態２に係るプロダクションルールの
一例を示す図である。

【図１３】本発明の実施の形態３に係る、ニューラルネ
ットワークに基づくアクセントクラスの決定規則の作成
手順を示すフローチャートである。

【図１４】本実施の形態３に係るニューラルネットワー
クによって実現されるアクセントクラス決定機構の一例
を示す図である。

【図１５】本発明の実施の形態６に係る、決定木に基づ
いて分類される確率値付きアクセントクラスの決定規則
の一例を示す図である。

【図１６】本発明の実施の形態７に係る音声合成処理の
処理手順を示したフローチャートである。

Claims

【特許請求の範囲】

【請求項１】テキストを形態素単位に分割する分割ス
テップと、前記分割ステップで分割された各形態素の属性に基づい
て各形態素毎のアクセントクラスの決定規則を規定する
アクセントクラス決定規則を求めるステップと、前記アクセントクラス決定規則に従って各形態素毎にア
クセントクラスを付与する付与ステップと、各形態素のアクセントクラスから前記テキスト全体のア
クセントパターンを決定する決定ステップと、を有する
ことを特徴とする自然言語処理方法。
【請求項２】前記アクセントクラス決定規則は、各形
態素の属性に対するアクセントクラスを統計的に学習し
たアクセントクラス推定データを用いて求められること
を特徴とする請求項１に記載の自然言語処理方法。
【請求項３】前記アクセントクラス推定データは、決
定木に基づく分類により学習することにより求められる
ことを特徴とする請求項２に記載の自然言語処理方法。
【請求項４】前記アクセントクラス決定規則は、決定
木に基づく分類により学習を行って得られるプロダクシ
ョンルールを用いることを特徴とする請求項１に記載の
自然言語処理方法。
【請求項５】前記アクセントクラス決定規則は、ニュ
ーラルネットワークを用いて学習を行うことにより得ら
れることを特徴とする請求項１に記載の自然言語処理方
法。
【請求項６】前記決定ステップは、各形態素のアクセ
ントクラスを複数候補出力し、前記アクセントクラス間
の制約を用いることによって前記テキスト全体に対する
アクセントクラスの組合せを求めることを特徴とする請
求項１に記載の自然言語処理方法。
【請求項７】テキストを単語単位に分割する分割ステ
ップと、前記分割ステップで分割された各単語の属性に基づいて
各単語毎のアクセントクラスの決定規則を規定するアク
セントクラス決定規則を求めるステップと、前記アクセントクラス決定規則に従って各単語毎にアク
セントクラスを付与する付与ステップと、各単語のアクセントクラスから前記テキスト全体のアク
セントパターンを決定する決定ステップと、を有するこ
とを特徴とする自然言語処理方法。
【請求項８】前記アクセントクラス決定規則は、各単
語の属性に対するアクセントクラスを統計的に学習した
アクセントクラス推定データを用いて求められることを
特徴とする請求項７に記載の自然言語処理方法。
【請求項９】前記アクセントクラス推定データは、決
定木に基づく分類により学習することにより求められる
ことを特徴とする請求項８に記載の自然言語処理方法。
【請求項１０】前記アクセントクラス決定規則は、決
定木に基づく分類により学習を行って得られるプロダク
ションルールを用いることを特徴とする請求項７に記載
の自然言語処理方法。
【請求項１１】前記アクセントクラス決定規則は、ニ
ューラルネットワークを用いて学習を行うことにより得
られることを特徴とする請求項７に記載の自然言語処理
方法。
【請求項１２】前記決定ステップは、各単語のアクセ
ントクラスを複数候補出力し、前記アクセントクラス間
の制約を用いることによって前記テキスト全体に対する
アクセントクラスの組合せを求めることを特徴とする請
求項７に記載の自然言語処理方法。
【請求項１３】テキストを入力する入力手段と、前記入力手段により入力された前記テキストを形態素単
位に分割する分割手段と、前記分割手段で分割された各形態素の属性に基づいて各
形態素毎のアクセントクラスの決定規則を規定するアク
セントクラス決定規則を求める規則決定手段と、前記規則決定手段により決定された前記アクセントクラ
ス決定規則に従って各形態素毎にアクセントクラスを付
与する付与手段と、前記付与手段により付与された各形態素のアクセントク
ラスから前記テキスト全体のアクセントパターンを決定
する決定手段と、前記テキストのアクセントパターンに従って前記テキス
トを音声合成して出力する音声合成手段と、を有するこ
とを特徴とする音声合成装置。
【請求項１４】前記アクセントクラス決定規則は、各
形態素の属性に対するアクセントクラスを統計的に学習
したアクセントクラス推定データを用いて求められるこ
とを特徴とする請求項１３に記載の音声合成装置。
【請求項１５】前記アクセントクラス推定データは、
決定木に基づく分類により学習することにより求められ
ることを特徴とする請求項１３に記載の音声合成装置。
【請求項１６】前記アクセントクラス決定規則は、決
定木に基づく分類により学習を行って得られるプロダク
ションルールを用いることを特徴とする請求項１３に記
載の音声合成装置。
【請求項１７】前記アクセントクラス決定規則は、ニ
ューラルネットワークを用いて学習を行うことにより得
られることを特徴とする請求項１３に記載の音声合成装
置。
【請求項１８】前記決定手段は、各形態素のアクセン
トクラスを複数候補出力し、前記アクセントクラス間の
制約を用いることによって前記テキスト全体に対するア
クセントクラスの組合せを求めることを特徴とする請求
項１３に記載の音声合成装置。
【請求項１９】テキストを入力する入力手段と、前記入力手段により入力された前記テキストを単語単位
に分割する分割手段と、前記分割手段で分割された各単語の属性に基づいて各形
態素毎のアクセントクラスの決定規則を規定するアクセ
ントクラス決定規則を求める規則決定手段と、前記規則決定手段により決定された前記アクセントクラ
ス決定規則に従って各単語毎にアクセントクラスを付与
する付与手段と、前記付与手段により付与された各単語のアクセントクラ
スから前記テキスト全体のアクセントパターンを決定す
る決定手段と、前記テキストのアクセントパターンに従って前記テキス
トを音声合成して出力する音声合成手段と、を有するこ
とを特徴とする音声合成装置。