JP2002311982A

JP2002311982A - 韻律情報設定方法及び装置並びにプログラム及び記録媒体

Info

Publication number: JP2002311982A
Application number: JP2001121097A
Authority: JP
Inventors: Hisako Asano; 久子浅野; Hisashi Obara; 永小原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-04-19
Filing date: 2001-04-19
Publication date: 2002-10-25
Anticipated expiration: 2021-04-19
Also published as: JP3690502B2

Abstract

(57)【要約】【課題】読み韻律情報の精度を向上させて自然で聞き易
い音声合成を行うことが可能な韻律情報設定方法を提供
する。【解決手段】入力した日本語テキストを形態素解析し、
読み・アクセントの付与とアクセント句の認定、アクセ
ント句情報を得て、当該アクセント句の前後所定個数の
アクセント句区間を設定し、係り受け解析モデルを用い
て隣接アクセント句係り受け解析を行い、係り受け有無
の確率PDを求め、各組み合わせパターンにおける連続係
り受け有無確率PSDを算出し、ポーズモデルを用いて隣
接アクセント句係り受け有無の各組み合わせにおけるポ
ーズ確率PPMを算出し、PSDとPPMからポーズ確率PSDPを
算出し、ポーズ確率PSDPの総和を計算して統合ポーズ確
率PTPを得て、統合ポーズ確率PTPと予め設定された閾値
と比較することにより当該アクセント句のポーズの設定
を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日本語テキストに
対して、高精度に韻律情報を付与し、自然で聞き易い合
成音声を出力させるための韻律情報設定方法及び装置並
びに韻律情報設定プログラム及び記録媒体に関するもの
である。

【０００２】

【従来の技術】日本語テキスト音声合成は、漢字かな交
じりの日本語テキストに対して、読み、および、アクセ
ント（韻律上の基本単位であるアクセント句（少なくと
も１個以下のアクセント核を持つ単位）の設定とそのア
クセント型付与）、ポーズ、強弱（構文・意味や文脈的
な情報を反映した音声的な強調・抑圧）等の韻律情報を
設定し、これらを元に音声波形を生成して合成音声を出
力する。自然で聞き易い合成音声を出力するためには、
この読みや韻律情報を正しく設定する必要がある。

【０００３】読みとアクセントの付与は、単語に対する
情報（単語情報）を用いることで、高精度に設定するこ
とができる。単語情報は、一般に形態素解析を用いて得
ることができる。形態素解析は成熟した技術であり、99
%以上の精度を実現しているものが数多く存在する。

【０００４】これに対し、ポーズや強弱は、単語情報に
加え、一般に構文、意味、文脈等の情報が影響を与えて
いると言われている（音声文法研究会編：「文法と音
声」くろしお出版、1997等）。日本語の構文情報として
は、ある文節がどの文節に係るかを表す文節係り受け情
報が一般に用いられる。文節係り受け解析の既存技術と
しては、統計ベースのものとして、決定木を用いた手法
（春野：「機械学習の手法による自然言語処理」、音声
言語情報処理 29−23）、語の共起確率に基づく手法
（藤尾他：「語の共起確率に基づく係り受け解析とその
評価」、情報処理学会論文誌、Vol.40,No.12）、ルール
ベースのものとして、白井他：「階層的認識構造に着目
した日本語従属節間の係り受け解析の方法とその精
度」、情報処理学会論文誌、Vol.36,No.10等が存在す
る。しかし、文節係り受け解析の精度は、現状では最も
優れたものでも85%前後であり、形態素解析と比べ精度
に問題が残る。

【０００５】また、日本語テキスト音声合成において、
構文情報を利用する際には、文法上の基本単位である文
節の係り受け情報を利用するのが一般的である。しか
し、文節と韻律上の基本単位であるアクセント句が一致
しない部分に対し、文節係り受け関係を利用すること
は、精度低下の一因となる。意味、文脈解析について
は、現状では十分な精度が達成されているとはいえな
い。

【０００６】

【発明が解決しようとする課題】従来の韻律情報の設定
では、ポーズや強弱情報を設定する際には、次のような
問題があった。 (1)形態素解析より得られる単語情報のみを用いる手法
では、構文的な違いを正しく表現できない場合がある。 (2)単語情報に加えて、文節係り受け情報を用いる手法
では、文節係り受け解析の誤りがそのまま韻律情報の誤
りになる場合がある。また、文節とアクセント句が一致
しない部分に対し、文節係り受け情報を利用すること
で、正しく韻律情報を設定できない場合がある。 (3)汎用的な意味、文脈解析は、現状では十分が精度が
達成されているとはいえない。また、あるドメインに特
化した意味、文脈解析を他のドメインに適応させるのも
難しい。このため、これらを汎用な枠組みで韻律情報の
設定に利用するのは難しい。

【０００７】本発明は、上記問題点を解決するためにな
されたものであり、既存の統計的な文節係り受け解析を
流用して、韻律情報の設定に最適な情報に変形し、その
情報を用いて、ポーズ、強弱情報を設定することによ
り、現状の係り受け解析の精度を考慮した韻律情報の設
定を行うこと、統計モデルを利用しているため、ドメイ
ンに応じて学習データを切り替えることにより、間接的
に意味、文脈的な情報を反映して韻律情報の設定を行う
ことにある。

【０００８】

【課題を解決するための手段】請求項１の発明は、入力
した日本語テキストを単語認定及び読み韻律情報を設定
するための辞書を用いて形態素解析し、単語情報を得
て、単語情報と、韻律単位の設定単位であるアクセント
句を認定し、アクセント句の読みとアクセント型を付与
するための規則を用いて読み・アクセントの付与を行
い、アクセント句の認定及びアクセント句情報を得て、
当該アクセント句の前後所定個数のアクセント句区間を
設定し、アクセント句区間のアクセント句情報に基づい
て係り受け解析モデルを用いて隣接アクセント句係り受
け解析を行い各隣接アクセント句の係り受け有無の確率
PDを求め、各隣接アクセント句の係り受け有無の確率PD
を元にアクセント句区間の隣接アクセント句係り受け有
無の組み合わせパターンにおける連続係り受け有無確率
PSDを算出し、アクセント句区間のアクセント句情報
と、アクセント句係り受け有無の組み合わせパターンに
基づいてポーズモデルを用いてポーズ確率PPMを算出
し、連続係り受け有無確率PSDとポーズ確率PPMからアク
セント句区間の隣接アクセント句係り受け有無の各組み
合わせパターンにおけるポーズ確率PSDPを算出し、隣接
アクセント句係り受け有無の各組み合わせパターンにお
けるポーズ確率PSDPの総和を計算して統合ポーズ確率PT
Pを得て、統合ポーズ確率PTPと予め設定された閾値と比
較することにより当該アクセント句のポーズの設定を行
うことを特徴とする。

【０００９】請求項２の発明は、請求項１に記載の発明
において、予め決められた規則によるポーズ設定とポー
ズ未設定区間が予め決められたポーズ未設定区間より長
い場合に統合ポーズ確率PTP以上で最も高い確率を持つ
位置にポーズの設定を行うことを特徴とする。

【００１０】請求項３の発明は、請求項１に記載の発明
において、当該アクセント句の前後所定個数のアクセン
ト句区間におけるアクセント句情報と、アクセント句係
り受け有無の組み合わせパターン、各アクセント句のポ
ーズ有無に基づいて強弱モデルを用いて強度毎の強弱確
率APMを算出し、強度毎の強弱確率APMと前記連続係り受
け有無の確率PSDから隣接アクセント句係り受け有無の
強弱確率ASDPを算出し、強度毎の強弱確率ASDPの総和を
統合強弱確率ATPとして算出し、強度毎の統合強弱確率A
TPの中で最大となる強度を当該アクセント句に設定する
ことを特徴とする。

【００１１】

【発明の実施の形態】図１は、本発明を説明する概略フ
ローチャートである。本発明は、(1)日本語テキストを
入力して、(2)形態素解析、(3)読み・アクセント付与、
(4)隣接アクセント句係り受け解析((8)係り受け解析モ
デルを利用）、(5)ポーズ付与（(9)ポーズ付与モデルを
利用）、(6)強弱付与（(10)強弱モデルを利用）を行
い、(7)読み、韻律情報を出力する。

【００１２】以下、本発明を詳細に説明する。はじめ
に、(8)係り受け解析モデル、(9)ポーズ付与モデル、(1
0)強弱モデルについて説明する。(8)係り受け解析モデ
ルは、数値化アクセント句情報（品詞、アクセント句位
置、アクセント型、モーラ数、自立語等）を用いて隣接
アクセント句間の係り受け有（または無）確率PDを演算
する演算式である。この演算式は例えば、PD＝a₁x₁＋a₂
x₂＋・・・（a₁,a₂,・・・はパラメータ、x₁,x₂,・・・
はアクセント句情報（属性）による変数、例えば、ア
クセント句が名詞の場合、x₁＝0.3、アクセント句が動
詞の場合、x₁＝0.１等）のように表される。
(9)ポーズ付与モデルは、アクセント句情報
（数値化情報）のセットFを用いてアクセント句の隣接
係り受け有（または無）ポーズ確率PPMを演算する演算
式である。(10)強弱モデルは、アクセント句情報を用い
て通常（音声的に強めも弱めもしない）、強調（音声的
に弱める）、抑圧（音声的に弱める）のそれぞれ（強度
毎）の強弱確率APMを演算する演算式である。

【００１３】次に、(8)係り受け解析モデル、(9)ポーズ
付与モデル、(10)強弱モデルの作成方法について説明す
る。これらは統計モデルであり、図２に示すフローによ
り作成する。(12)モデルパラメータ設定は、(11)学習デ
ータを入力として、(13)パラメータ設定されたモデルを
出力する。(11)学習データは、推定に利用する属性値
（アクセント句情報）の集合および正解データからな
る。どのような属性を規定するかは、何を推定するかに
応じて異なる。(12)モデルパラメータ設定は、あるモデ
ルに対して、最大エントロピー法(Berger,A.Lら,"A Max
imum Entropy Approach to Natural Language Processi
ng",Computational Linguistics,No.22,Vol.1)、決定木
法(J.Ross Quinlan,"C4.5 Programs for mashine learn
ing",Morgan Kanfmann Publishers,1993)等のアルゴリ
ズムを用いて、モデルで利用するパラメータを設定す
る。(13)パラメータ設定されたモデル（演算式）は図１
の(8)〜(10)の各モデルに相当し、図１の(4)〜(6)にお
いては、(11)学習データで規定した属性値（アクセント
句情報）のセットをそれぞれ(8)〜(10)の各モデル（演
算式）に入力し、出力値（確率値）を得る。

【００１４】図３に本発明の韻律情報設定装置の構成を
示す。韻律情報設定装置は、形態素解析部２、読み・ア
クセント付与部３、隣接アクセント句係り受け解析部
４、ポーズ付与部５、強弱付与部６、係り受け解析モデ
ル格納部８、ポーズ付与モデル格納部９、強弱モデル格
納部10から構成される。 (1)日本語テキストは、任意の日本語テキストである。 (2)形態素解析〜(6)強弱付与は、原則的には文単位に処
理を行う。 (2)形態素解析形態素解析部２は、特開平9−134359号公報(特願平7−2
91143号)「形態素解析方法および装置」や、宮崎、大
山：「日本文音声出力のための言語処理方式」、情報処
理学会論文誌、Vol.27,NO.11に記述された多段解析法に
よる形態素解析など、既存の技術を用いて行う。形態素
解析は、日本語テキストを辞書を参照することにより認
識可能な文字列に対して形態素として属性を付与し、接
続規則ファイルを用いて隣接した部分文字列に付与され
ている属性を調べて隣接可能な部分文字列の並びを検出
し、複数の部分文字列の並びが検出された場合、優先度
規則ファイルの優先度規則を適用して解を絞り込み単一
の解（すなわち、最適な隣接可能な部分文字列の並び）
を得る。この形態素解析により、表記、品詞、読み、ア
クセント型などからなる単語情報が得られる。

【００１５】(3)読み・アクセント付与読み・アクセント付与部３は、特開平11−344998号公報
(特願平10−154605号)「読み韻律情報設定方法及び装置
及び読み韻律情報設定プログラムを格納した記憶媒体」
で記述された既存の技術を用いる。読み・アクセント付
与は、宮崎方式等を用いて読みを付与し、a.１語で登録
された複合語内でアクセント句境界が存在する場合に対
応する、複数のアクセント句に関する情報、b.１語で登
録され、付属語を含み、その内部にアクセント句境界が
存在する場合に対応する、短単位の単語に展開するため
の構成単語情報、c.１語で登録された複合語で内部に
は、アクセント句境界は存在しないが、長単位語である
ことを表すための語数の各情報を格納した辞書と意味的
係り受け情報を用いてアクセント句境界及びアクセント
型の設定を行う。また、アクセント付与時に、結びつき
の強い文節間のアクセント結合を行う。この読み・アク
セント付与により、読みとアクセント（アクセント句の
設定とそのアクセント型の付与）が設定される。

【００１６】(4)隣接アクセント句係り受け解析隣接アクセント句係り受け解析部４は、従来の統計的な
文節係り受け解析を流用して隣接アクセント句係り受け
解析を行う。統計的な文節係り受け解析は、一般に、単
語情報から得られる文節単位の各種情報（表記、品詞、
読み、アクセント型等）と、各文節がどの文節に係るか
を学習データとして、規定した統計モデルで学習を行
い、統計モデルのパラメータ設定を行う。解析時には、
単語情報から得られる文節単位の各種情報をパラメータ
設定された統計モデルに入力して、各文節がどの文節に
係るかを推定し、その推定確率を出力する。

【００１７】本発明では、この統計的な文節係り受け解
析に対しては以下の変更を行う。まず、ポーズ、強弱情
報の設定単位は、文節ではなく、アクセント句であるこ
とから、学習データに対して、・単語情報から得られる文節単位の各種情報→単語情報
から得られるアクセント句単位の各種情報・各文節がどの文節に係るか→各アクセント句がどのア
クセント句に係るかという変更を行い、統計モデルのパラメータ設定を行
う。このパラメータ設定された統計モデルが(8)係り受
け解析モデルとなる。解析時には、単語情報から得られ
るアクセント句単位の各種情報（主辞主品詞、主辞主副
詞、語形主品詞、アクセント句位置、アクセント型、モ
ーラ数等）を入力として、各アクセント句がどのアクセ
ント句に係るかを、その推定確率とともに出力するよう
に変更する。

【００１８】さらに、一般に、係り先が遠くになるほど
係り受け精度が低下すること、韻律情報の設定において
は、隣接アクセント句に係るか（左枝分かれ境界）、そ
れ以外に係るか（右枝分かれ境界）が最も重要であるこ
とから、各アクセント句がどのアクセント句に係るかと
いうアクセント句係り受け確率を、各アクセント句が直
後アクセント句に係る確率に変更する。具体的には、各
アクセント句に対して、隣接アクセント句係り受け確率
PD=直後アクセント句に係る確率とする。さらに、より
簡易に、「各アクセント句がどのアクセント句に係る
か」ではなく、はじめから、「各アクセント句が直後ア
クセント句に係るか」という統計モデルを用いて、直
接、隣接アクセント句係り受け確率を算出することも可
能である。この場合には、このパラメータ設定された統
計モデルが(8)係り受け解析モデルとなる。

【００１９】(5)ポーズ付与ポーズ付与部５の具体的な処理フローを図４を用いて説
明する。 (i)はじめに、(21)規則によるポーズ設定を行う。処理
対象は、単語情報のみからその構造が自明となり、規則
により正しくポーズ有無が設定できるアクセント句であ
り、例えば、日時表現、数量表現（「先月/三十日」が
月要素＋日要素となるため、[小ポーズ]先月[ポーズな
し]三十日と認定される）や文末（句読点[ポーズ]と認
定される）などが考えられる。これらのアクセント句に
対しては、特開平11−344998号公報「読み韻律情報設定
方法及び装置及び読み韻律情報設定プログラムを格納し
た記憶媒体」等の従来技術を用いて、ポーズを設定す
る。 (ii)また、(24)モーラ数、統合ポーズ確率に基づくポー
ズ設定で利用するため、ここで処理対象としたアクセン
ト句に対しては、ポーズを設定しないアクセント句：統合ポーズ確率PTP
＝０ポーズを設定するアクセント句：統合ポーズ確率PTP＝
１を設定する。

【００２０】(iii)次に、(22)と(23)の処理を、処理対
象の先頭アクセント句から末尾アクセント句まで順に行
う（ただし(21)で処理対象としたアクセント句を除
く）。(22)係り受け有無組み合わせパターン単位のポー
ズ確率設定では、当該アクセント句−i番目〜当該アク
セント句＋j番目（i,jは予め設定する）の(i+j+1)個の
アクセント句を対象に、そのアクセント句を構成する単
語情報から得られる情報（アクセント句情報）および隣
接アクセント句係り受け有無を、(9)ポーズモデルに入
力して、当該アクセント句直後のポーズ確率を推定（演
算）する。アクセント句情報としては、アクセント句の
主辞主品詞、主辞副品詞、語形主品詞、語形副品詞、ア
クセント句位置、アクセント型、モーラ数、記号の有
無、自立語数、付属語数等が考えられる。

【００２１】隣接アクセント句係り受け有無は、(4)隣
接アクセント句係り受け解析により、確率付で得られる
が（隣接アクセント句係り受け有確率＝隣接アクセント
句係り受け確率、隣接アクセント句係り受け無確率＝１
−隣接アクセント句係り受け確率）、ここでは係り受け
閾値（0.5≧係り受け閾値≧０,係り受け閾値＝０の場合
は、全組み合わせ）以上の各組み合わせに対して、ポー
ズ確率推定を行う。そして、ある隣接アクセント句係り
受け有無の組み合わせパターンにおける連続係り受け有
無確率PSD(D−i,・・・,D−1,D0,D＋1,・・・,D＋j)
を、 PSD(D-i,・・・,D-1,D0,D+1,・・・,D+j)＝PD-i(D-i)
×,・・・,PD-1(D-1)×PD0(D0)×PD+1(D+1),・・・,×P
D+j(D+j) Dk＝当該アクセント句+k番目のアクセント句の係り受け
有または無 PDk(Dk)＝Dkの確率（当該アクセント句+k番目のアクセ
ント句の隣接アクセント句係り受け有無の確率）と定義し、この係り受け有無の組み合わせパターンにお
けるポーズ確率PSDP(D-i,・・・,D-1,D0,D+1,・・・,D+
j)を PSDP(D-i,・・・,D-1,D0,D+1,・・・,D+j)＝PSD(D-i,・
・・,D-1,D0,D+1,・・・,D+j)×PPM(F-i,・・・,F0,F+
1,・・・,F+j) Fk：当該アクセント句+k番目のアクセント句のアクセン
ト句情報（属性値セット）（このうち、隣接係り受け有
無はDk） PPM(F-i,・・・,F0,F+1,・・・,F+j)：アクセント句情
報（属性値）セットFを用いてポーズモデルにより推定
されたポーズ確率と定義する。

【００２２】具体例を用いて説明する。 (i) i=j=1、係り受け閾値＝0.05として、対象となる3つ
のアクセント句(PD-1,PD0,PD+1)の(8)係り受け解析モデ
ルを用いて(4)隣接アクセント句係り受け解析（数値化
アクセント句情報を係り受け解析モデル（演算式）に代
入して隣接係り受け有確率を算出）により隣接係り受け
有確率PDが PD-1（有）＝0.90 PD0（有）＝0.01 PD+1（有）＝0.55 であった場合（PD-1（無）＝0.10、PD0（無)＝0.99、PD
+1（無)＝0.45）とする。

【００２３】(ii)隣接アクセント句係り受け有無の各組
み合わせパターンに対する連続係り受け有無確率PSD
（・,・,・）＝PD-1（・）×PD0（・)×PD+1（・)は、 PSD（有,無,有）＝0.90×0.99×0.55＝0.49005 PSD（有,無,無）＝0.90×0.99×0.45＝0.40095 PSD（無,無,有）＝0.10×0.99×0.55＝0.05445 PSD（無,無,無）＝0.10×0.99×0.45＝0.04455 となる。（当該アクセント句の係り受け有(PD0（有）＝
0.01)の連続係り受け有無確率PSD（・,有,・）は係り受
け閾値（0.05）以下になることは明らかであるので含め
ない）

【００２４】(iii)また、上記の隣接アクセント句係り
受け有無の各組み合わせパターンにおけるポーズ確率PP
M（隣接係り受け有無以外の属性値は省略）が(9)ポーズ
付与モデルを用いてポーズ付与部で演算した結果、 PPM（有,無,有）＝0.45 PPM（有,無,無）＝0.80 PPM（無,無,有）＝0.15 PPM（無,無,無）＝0.60 であったとする。

【００２５】(iv)隣接アクセント句係り受け有無の組み
合わせパターンにおけるポーズ確率PSDP(・,・,・)＝PS
D(・,・,・)×PPM(・,・,・)は、 PSDP（有,無,有）＝0.49005×0.45＝0.2205225 PSDP（有,無,無）＝0.49005×0.80＝0.32076 PSDP（無,無,有）＝0.05445×0.15＝0.0081675 PSDP（無,無,無）＝0.04455×0.60＝0.02673 となる。

【００２６】(v)全PSDPを算出後、(23)統合ポーズ確率
設定を行う。(23)統合ポーズ確率設定では、統合ポーズ
確率PTPは PTP＝PSDP(D-i,・・・,D-1,D0,D+1,・・・,D+j)の総和と定義し、PTP≧0.5（閾値）となるアクセント句の直後
にポーズを設定する。上記例では、 PTP＝PSDP(有,無,有)＋PSDP(有,無,無)＋PSDP(無,無,有)＋PSDP(無,無,無) ＝0.2205225+0.32076+0.0081675+0.02673 ＝0.57618 となり、アクセント句D0にポーズが設定される。

【００２７】(24)モーラ数、統合ポーズ確率に基づくポ
ーズ設定は、長い区間ポーズがないと聞きにくいという
音声上の制約を考慮して設定するポーズである。予め、
ポーズ未設定区間長と統合ポーズ確率PTPからなるポー
ズ未設定区間閾値セット（複数指定可）を定めておき、
図５のフローによりポーズを設定する。

【００２８】以下、図５を用いて、(24)モーラ数、統合
ポーズ確率PTPに基づくポーズ設定を説明する。(31)で
は、ポーズ未設定区間の初期設定を行う。すなわち、ポ
ーズ未設定区間の開始位置を処理対象の先頭に、終了位
置を最初のポーズ位置に設定する。その後(32)へ移る。
(32)では、ポーズ未設定区間の総モーラ数がポーズ未設
定区間閾値セットのポーズ未設定区間長以上であるか判
定する（ポーズ未設定区間閾値セットが複数ある場合に
は、その中のいずれか以上であればよい）。条件を満た
す場合には(33)へ、満たさない場合は(35)へ移る。(33)
では、(32)の条件を満たすポーズ未設定区間閾値セット
で、最も長いポーズ未設定区間長のものに対応する統合
ポーズ確率PTP以上で、最も高い確率を持つ位置（これ
を最大位置とよぶ）を求める。その後、(34)へ移る。(3
4)では、最大位置が決定したかどうか判定する。条件を
満たす場合には(36)へ、満たさない場合には(35)へ移
る。(35)では、ポーズ未設定区間終了位置が、処理対象
末尾であるか判定する。条件を満たす場合には処理を終
了する。満たさない場合には(37)へ移る。(36)では、最
大位置にポーズを設定する。そして、最大位置を新たに
ポーズ未設定区間終了位置にして(32)へ移る。(37)で
は、現在のポーズ未設定区間終了位置をポーズ未設定区
間開始位置に、次のポーズ位置をポーズ未設定区間終了
位置にして、(32)へ移る。以上のポーズ付与では、ポー
ズ有無の２値のみの設定の具体的手順を示したが、さら
に細分化した（例えば、小ポーズ、中ポーズ等に分ける
など）ポーズ推定も可能である。この場合、(9)ポーズ
付与モデルで、細分化したポーズ推定確率値を出力する
ようにし、(23)統合ポーズ確率設定では最も確率値の高
いものを推定結果とすればよい。

【００２９】(6）強弱付与強弱付与部６は、(5)ポーズ付与の(22)係り受け有無組
み合わせパターン単位のポーズ確率設定と(23)統合ポー
ズ確率設定と同様の手法で、アクセント句単位に処理を
行う。図６に示すように、はじめに、(41）係り受け有
無組み合わせパターン単位の強弱確率設定において、当
該アクセント句の前後所定個数のアクセント句区間にお
いて品詞、アクセント句位置、アクセント型、モーラ
数、自立語数等からなるアクセント句情報と隣接アクセ
ント句間の係り受け有無の組み合わせに対応する強度
（通常、強調、抑圧）毎の強弱確率APMを(10)強弱モデ
ルを用いて求め、アクセント句間内の各隣接アクセント
句の係り受け有無の確率PDを係り受け解析モデルを用い
て求め、各隣接アクセント句の係り受け有無の確率PDか
ら隣接アクセント句間の係り受け有無の各組み合わせパ
ターンに対応する連続係り受け有無の確率PSDを求め、
強弱確率APMと連続係り受け有無の確率PSDから係り受け
有無の各組み合わせパターンに対応する強弱確率ASDPを
算出し、(42)統合強弱確率設定において、係り受け有無
の各組み合わせパターンにわたる強度毎の強弱確率ASDP
の総和を統合強弱確率ATPとして算出し、強度毎の統合
強弱確率ATPが最大となる強度（通常、強調、抑圧のい
ずれか）を当該アクセント句に設定する。なお、強弱付
与は音量の他にピッチ周波数の高低により行うこともで
きる。

【００３０】（実施例）図７〜図９を用いて、本発明の
実施例を説明する。図７を参照して(2)形態素解析、(3)
読み・アクセント付与、(4)隣接アクセント句係り受け
解析を説明する。 (i)図７に示す日本語テキストを入力例として、(2)形態
素解析を行う。形態素解析は、入力された日本語テキス
トに対して、単語辞書を用いて単語の認定を行い、各単
語ごとに、表記、品詞、読み、アクセント型などからな
る単語情報が得られる。 (ii)次に、単語情報を用いて(3)読み・アクセント付与
を行い、図７に示すようにアクセント句の認定を行い
（図の/で囲まれた部分が一つのアクセント句）、読み
とアクセント型（図では ’がアクセント位置を表す）
を付与する。 (iii)次に、アクセント句の情報を用いて(4)隣接アクセ
ント句係り受け解析を行い、各アクセント句に対して、
隣接アクセント句係り受け確率PDを算出する（図の()内
の数値が隣接アクセント句係り受け確率PDを表す）。 (iv)図８を参照して(５)ポーズ付与の説明を行う。はじ
めに、(21)規則によるポーズ設定により、通常のテキス
トではポーズが付与されるのが一般的な句読点の位置に
ポーズを付与する。具体的には、図８において、［ポー
ズ]と示した「陥るなか、」、「始めました。」の直後
にポーズを付与する。また、これらの位置の統合ポーズ
確率を1.0000に設定する。

【００３１】(v)次に、(22)係り受け有無組み合わせパ
ターン単位のポーズ確率設定と(23)統合ポーズ確率設定
について、当該アクセント句−2〜当該アクセント句＋2
の５つのアクセント句のアクセント句情報を用い、予め
設定された係り受け閾値0.05の場合について、「景気
が」と「いう」の２つのアクセント句の場合を具体的に
説明する。「景気が」：図７の隣接アクセント句係り受け解析の結
果より、 PSD（有,有,有,有,有）＝0.99×0.98×0.97×1.00×0.9
9＝0.9317（他の組み合わせはすべて係り受け閾値0.05
以下のため存在しない） PPM（有；名詞；判定詞；・・・,有；動詞；格助詞；・
・・,有；名詞；格助詞；・・・,有；名詞；名詞；・・
・,有；名詞；格助詞；・・・）＝0.98（推定に用いる
アクセント句情報（属性値）セットである隣接アクセン
ト句係り受け有無、アクセント句情報（ここでは、隣接
アクセント句有無；主辞主品詞；語形主品詞のみを表
示、他に主辞副品詞、語形副品詞、モーラ数等の数値化
した属性を用いる）を(9）ポーモデル（演算式）に入力
して与えられる） PSDP（有,有,有,有,有）＝0.9317×0.98＝0.9131 PTP＝PSDP（有,有,有,有,有）＝0.9131 PTP≧0.5（閾値）であるため、ポーズを設定する。「い
う」：

【００３２】図６の隣接アクセント句係り受け解析の結
果より、 PSD（無,有,有,有,有）＝0.91×0.98×0.80×0.98×0.9
6＝0.6712 PSD（無,有,無,有,有）＝0.91×0.98×0.20×0.98×0.9
6＝0.1678 PSD（有,有,有,有,有）＝0.09×0.98×0.80×0.98×0.9
6＝0.0664 PSD（有,有,無,有,有）＝0.09×0.98×0.20×0.98×0.9
6＝0.0166 上記に対応するPPMは順に以下のようであるとする。 PPM（無；名詞；連用助詞；・・・,有；名詞；格助詞；
・・・,有；動詞語幹；動詞活用語尾；・・・,有；名
詞；格助詞；・・・,有；名詞；格助詞；・・・）＝0.0
1 PPM（無；名詞；連用助詞；・・・,有；名詞；格助詞；
・・・,無；動詞語幹；動詞活用語尾；・・・,有；名
詞；格助詞；・・・,有；名詞；格助詞；・・・）＝0.6
0 PPM（有；名詞；連用助詞；・・・,有；名詞；格助詞；
・・・,有；動詞語幹；動詞活用語尾；・・・,有；名
詞；格助詞；・・・,有；名詞；格助詞；・・・）＝0.0
2 PPM（有；名詞；連用助詞；・・・,有；名詞；格助詞；
・・・,無；動詞語幹；動詞活用語尾；・・・,有；名
詞；格助詞；・・・,有；名詞；格助詞；・・・）＝0.6
5 これらから、各PSDPは順に、 PSDP（無,有,有,有,有）＝0.6712×0.01＝0.0067 PSDP（無,有,無,有,有）＝0.1678×0.60＝0.1007 PSDP（有,有,有,有,有）＝0.0664×0.02＝0.0013 PSDP（有,有,無,有,有）＝0.0166×0.65＝0.0108 となるので、 PTP＝0.0067+0.1007+0.0013+0.0108＝0.1195 PTP＜0.5であるため、ポーズを設定しない。

【００３３】(vi)その他の統合ポーズ確率設定について
は詳細は省略するが、図８の統合ポーズ確率設定の()内
の数値が統合ポーズ確率PTPを表す。これが0.5以上であ
る、「景気が」と「内閣府は」のアクセント句の直後に
ポーズを設定する。 (vii)次に（24）モーラ数、統合ポーズ確率に基づくポ
ーズ設定を行う。ここでは、ポーズ未設定区間閾値値セ
ットとして、セット１：ポーズ未設定区間長＝20、統合ポーズ確率＝
0.04 セット２：ポーズ未設定区間長＝30、統合ポーズ確率＝
0.0001 を設定している。具体的な処理の流れを、図５を用いて
説明する。まず、(31)で、ポーズ未設定区間開始位置を
先頭（「緩やかに」の前）、ポーズ未設定区間終了位置
を最初のポーズ位置である「景気が」の直後に設定す
る。次に(32)では、ポーズ未設定区間「緩やかに回復し
てきたはずの景気が」の総モーラ数22モーラがポーズ未
設定区間閾値セット１のポーズ未設定区間長を超えてい
るので、(33)へ移る。(33)では、未設定区間において、
セット１の統合ポーズ確率0.04以上となる位置を探す
が、存在しない。そこで(34)から(35)に移り、現在の終
了位置（「景気が」の直後）が処理対象末尾であるか判
定し、(37)へ移る。

【００３４】(37)では、開始位置を「景気が」の直後、
終了位置を「陥るなか、」の直後に設定し、(32)へ移
る。(32)では、ポーズ未設定区間「失速寸前に陥るな
か、」の総モーラ数が15モーラであるので、(35)、(37)
と移り、開始位置を「陥るなか、」の直後、終了位置を
「内閣府は」の直後に設定し、総モーラ数は６であるの
で、同様に(32)→(35)→(37)と移り、開始位置を「内閣
府は」の直後、終了位置を「始めました。」の直後に設
定し、(32)へ移る。(32)では、ポーズ未設定区間「デフ
レーションという言葉の定義を見直す作業を始めまし
た。」の総モーラ数31モーラがポーズ未設定区間閾値セ
ットのセット１、セット２両方のポーズ未設定区間長を
超えるので(33)へ移る。(33)では、最も長いポーズ未設
定区間長をもつセット２の統合ポーズ確率0.0001以上
で、最も高い確率をもつ位置として、統合ポーズ確率0.
1598を持つ「定義を」の直後を最大位置として設定す
る。

【００３５】そして（34）→(36)と移り、最大位置「定
義を」の直後にポーズを設定し、終了位置を「定義を」
の直後として(32)へ移る。(32)では、ポーズ未設定区間
「デフレーションという言葉の定義を」の総モーラ数が
17モーラのため(35)→(37)と移り、開始位置を「定義
を」の直後、終了位置を「始めました。」の直後に設定
し(32)へ移る。(32)では、ポーズ未設定区間「見直す作
業を始めました。」の総モーラ数が14モーラなので、(3
5)へ移り、「始めました。」の直後は、処理対象末尾で
あるため、処理を終了する。この結果、(24)モーラ数、
統合ポーズ確率に基づくポーズ設定では、「定義を」の
直後にポーズを付与する。

【００３６】(viii)最終的には、「景気が」、「陥るな
か」、「内閣府は」、「定義を」、「始めました」の直
後がポーズとなる。次に、(６)強弱付与の例を図９に示
す。ここでは、通常（音声的に強めも弱めもしない）、
強調（音声的に強める）、抑圧（音声的に弱める）の３
値のそれぞれを推定する(10)強弱モデル(演算式)を利用
するものである。(41)係り受け組み合わせパターン単位
の強弱確率設定については、(22)係り受け有無の組み合
わせパターン単位のポーズ確率設定と同様、当該アクセ
ント句−2〜当該アクセント句＋2の５つのアクセント
句、係り受け閾値0.05とした場合、組み合わせパターン
は(22)と同様になるため、ここでの具体例は省略する。
(42)統合強弱確率ATP設定により、図９の統合強弱確率
に示すように、統合強弱確率が設定されたとする（()内
に通常、強調、抑圧の順に各統合強弱確率値ATPを示し
ている）。

【００３７】この結果、「デフレーションと」というア
クセント句では、「強調」の統合強弱確率ATPが0.63と
最も高いため、「強調」を付与し、「いう」というアク
セント句では、「抑圧」の統合強弱確率ATPが0.76と最
も高いため、「抑圧」を付与し、それ以外のアクセント
句では「通常」の統合強弱確率ATPが最も高いため、
「通常」（つまり、特別な指定はしないデフォルト）と
する。本発明の韻律情報設定装置は、CPUやメモリ等を
有するコンピュータと、アクセス主体となるユーザが利
用する利用者端末と記録媒体から構成される。記録媒体
は、CD−ROM、磁気ディスク装置、半導体メモリ等の機
械読み取り可能な記録媒体であり、ここに記録されたプ
ログラムは、コンピュータに読み取られ、コンピュータ
の動作を制御し、コンピュータ上に前述した実施の形態
における各構成要素、すなわち形態素解析部、アクセン
ト句認定、読み・アクセント付与部、隣接アクセント句
係り受け解析部、ポーズ付与部、強弱付与部、各モデル
格納部等を実現して各処理を行う。

【００３８】

【発明の効果】以上説明したように、本発明によれば、
既存の統計的な文節係り受け解析を流用して、韻律情報
の設定に最適な情報に変形し、その情報を用いて、ポー
ズ、強弱情報を設定することにより、現状の係り受け解
析の精度を考慮した韻律情報の設定を行うことができ
る。また、統計モデルを利用しているため、ドメインに
応じて学習データを切り替えることにより、間接的に意
味、文脈的な情報を反映して韻律情報の設定を行うこと
ができる。

【図面の簡単な説明】

【図１】本発明の概略フローチャート。

【図２】本発明の韻律情報設定装置の構成図。

【図３】モデル作成のフローチャート。

【図４】ポーズ付与のフローチャート。

【図５】モーラ数、統合ポーズ確率に基づくポーズ設定
のフローチャート。

【図６】強弱付与のフローチャート。

【図７】入力テキスト〜隣接アクセント句係り受け解析
の処理例を説明する図。

【図８】ポーズ付与例を説明する図。

【図９】強弱付与例を説明する図。

【符号の説明】

２形態素解析部３アクセント句認定、読み・アクセント付与部４隣接アクセント句係り受け解析部５ポーズ付与部６強弱付与部

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B009 RD00 5D045 AA09

Claims

【特許請求の範囲】

【請求項１】日本語テキストを入力して、読み・韻律情
報を出力する読み・韻律情報設定方法において、入力した日本語テキストを単語認定及び読み韻律情報を
設定するための辞書を用いて形態素解析し、単語情報を
得る過程と、単語情報と、韻律単位の設定単位であるアクセント句を
認定し、アクセント句の読みとアクセント型を付与する
ための規則を用いて読み・アクセントの付与を行い、ア
クセント句の認定及びアクセント句情報を得る過程と、当該アクセント句の前後所定個数のアクセント句区間を
設定する過程と、アクセント句区間のアクセント句情報に基づいて係り受
け解析モデルを用いて隣接アクセント句係り受け解析を
行い各隣接アクセント句の係り受け有無の確率PDを求め
る過程と、各隣接アクセント句の係り受け有無の確率PDを元にアク
セント句区間の隣接アクセント句係り受け有無の組み合
わせパターンにおける連続係り受け有無確率PSDを算出
する過程と、アクセント句区間のアクセント句情報と、アクセント句
係り受け有無の組み合わせパターンに基づいてポーズモ
デルを用いてポーズ確率PPMを算出する過程と、連続係り受け有無確率PSDとポーズ確率PPMからアクセン
ト句区間の隣接アクセント句係り受け有無の各組み合わ
せパターンにおけるポーズ確率PSDPを算出する過程と、ポーズ確率PSDPの総和を計算して統合ポーズ確率PTPを
得る過程と、統合ポーズ確率PTPと予め設定された閾値とを比較する
ことにより当該アクセント句におけるポーズの設定を行
う過程とを備えたことを特徴とする韻律情報設定方法。
【請求項２】請求項１に記載の韻律情報設定方法におい
て、予め決められた規則によるポーズの設定を行う過程と、ポーズ未設定区間が予め決められたポーズ未設定区間よ
り長い場合に統合ポーズ確率PTP以上で最も高い確率を
持つ位置にポーズの設定を行う過程と、を備えたことを
特徴とする韻律情報設定方法。
【請求項３】請求項１に記載の韻律情報設定方法におい
て、当該アクセント句の前後所定個数のアクセント句区間に
おけるアクセント句情報と、アクセント句係り受け有無
の組み合わせパターン、各アクセント句のポーズ有無に
基づいて強弱モデルを用いて強度毎の強弱確率APMを算
出する過程と、強度毎の強弱確率APMと前記連続係り受け有無の確率PSD
から隣接アクセント句係り受け有無の組み合わせパター
ンの強弱確率ASDPを算出する過程と、強度毎の強弱確率ASDPの総和を統合強弱確率ATPとして
算出する過程と、強度毎の統合強弱確率ATPの中で最大となる強度を当該
アクセント句に設定する過程とを備えたことを特徴とす
る韻律情報設定方法。
【請求項４】日本語テキストを入力して、読み・韻律情
報を出力する読み・韻律情報設定装置において、入力した日本語テキストを単語認定及び読み韻律情報を
設定するための辞書を用いて形態素解析し、単語情報を
得る形態素解析部と、単語情報と、韻律単位の設定単位であるアクセント句を
認定し、アクセント句の読みとアクセント型を付与する
ための規則を用いて読み・アクセントの付与を行い、ア
クセント句の認定及びアクセント句情報を得る読み・ア
クセント付与部と、当該アクセント句の前後所定個数のアクセント句区間を
設定し、アクセント句区間のアクセント句情報に基づい
て係り受け解析モデルを用いて隣接アクセント句係り受
け解析を行い各隣接アクセント句の係り受け有無の確率
PDを演算する隣接アクセント句係り受け解析部と、各隣接アクセント句の係り受け有無の確率PDを元にアク
セント句区間の隣接アクセント句係り受け有無の組み合
わせパターンにおける連続係り受け有無確率PSDを算出
し、アクセント句区間のアクセント句情報と、アクセン
ト句係り受け有無の組み合わせパターンに基づいてポー
ズモデルを用いてポーズ確率PPMを算出し、連続係り受
け有無確率PSDとポーズ確率PPMからアクセント句区間の
隣接アクセント句係り受け有無の各組み合わせパターン
におけるポーズ確率PSDPを算出し、ポーズ確率PSDPの総
和を計算して統合ポーズ確率PTPを得て、統合ポーズ確
率PTPと予め設定された閾値と比較することにより当該
アクセント句のポーズの設定を行うポーズ付与部を備え
たことを特徴とする韻律情報設定装置。
【請求項５】請求項４に記載の韻律情報設定装置におい
て、ポーズ付与部は、予め決められた規則によるポーズの設定を行う手段と、ポーズ未設定区間が予め決められたポーズ未設定区間よ
り長い場合に統合ポーズ確率PTP以上で最も高い確率を
持つ位置にポーズの設定を行う手段を備えたことを特徴
とする韻律情報設定装置。
【請求項６】請求項４に記載の韻律情報設定装置におい
て、当該アクセント句の前後所定個数のアクセント句区間に
おけるアクセント句情報と、アクセント句係り受け有無
の組み合わせパターン、各アクセント句のポーズ有無に
基づいて強弱モデルを用いて強度毎の強弱確率APMを算
出し、強度毎の強弱確率APMと前記連続係り受け有無の
確率PSDから隣接アクセント句係り受け有無の組み合わ
せパターンの強度毎の強弱確率ASDPを算出し、強度毎の
強弱確率ASDPの総和を統合強弱確率ATPとして算出し、
強度毎の統合強弱確率ATPの中で最大となる強度を当該
アクセント句に設定する強弱付与部を備えたことを特徴
とする韻律情報設定装置。
【請求項７】入力した日本語テキストを単語認定及び読
み韻律情報を設定するための辞書を用いて形態素解析
し、単語情報を得る処理と、単語情報と、韻律単位の設定単位であるアクセント句を
認定し、アクセント句の読みとアクセント型を付与する
ための規則を用いて読み・アクセントの付与を行い、ア
クセント句の認定及びアクセント句情報を得る処理と、当該アクセント句の前後所定個数のアクセント句区間を
設定する処理と、アクセント句区間のアクセント句情報に基づいて係り受
け解析モデルを用いて隣接アクセント句係り受け解析を
行い各隣接アクセント句の係り受け有無の確率PDを求め
る処理と、各隣接アクセント句の係り受け有無の確率PDを元にアク
セント句区間の隣接アクセント句係り受け有無の組み合
わせパターンにおける連続係り受け有無確率PSDを算出
する処理と、アクセント句区間のアクセント句情報と、アクセント句
係り受け有無の組み合わせパターンに基づいてポーズモ
デルを用いてポーズ確率PPMを算出する処理と、連続係り受け有無確率PSDとポーズ確率PPMからアクセン
ト句区間の隣接アクセント句係り受け有無の組み合わせ
におけるポーズ確率PSDPを算出する処理と、隣接アクセント句係り受け有無の各組み合わせパターン
におけるポーズ確率PSDPの総和を計算して統合ポーズ確
率PTPを得る処理と、統合ポーズ確率PTPと予め設定された閾値と比較するこ
とにより当該アクセント句のポーズの設定を行う処理を
コンピュータに実行させるための韻律情報設定プログラ
ム。
【請求項８】請求項７に記載の韻律情報設定プログラム
において、予め決められた規則によるポーズの設定を行う処理と、ポーズ未設定区間が予め決められたポーズ未設定区間よ
り長い場合に統合ポーズ確率PTP以上で最も高い確率を
持つ位置にポーズの設定を行う処理を備えた韻律情報設
定プログラム。
【請求項９】請求項７に記載の韻律情報設定プログラム
において、当該アクセント句の前後所定個数のアクセント句区間に
おけるアクセント句情報と、アクセント句係り受け有無
の組み合わせパターン、各アクセント句のポーズ有無に
基づいて強弱モデルを用いて強度毎の強弱確率APMを算
出する処理と、強度毎の強弱確率APMと前記連続係り受け有無の確率PSD
から隣接アクセント句係り受け有無の組み合わせパター
ンの強度毎の強弱確率ASDPを算出する処理と、強度毎の強弱確率ASDPの総和を統合強弱確率ATPとして
算出する処理と、強度毎の統合強弱確率ATPの中で最大となる強度を当該
アクセント句に設定する処理をコンピュータに実行させ
るための韻律情報設定プログラム。
【請求項１０】入力した日本語テキストを単語認定及び
読み韻律情報を設定するための辞書を用いて形態素解析
し、単語情報を得る処理と、単語情報と、韻律単位の設定単位であるアクセント句を
認定し、アクセント句の読みとアクセント型を付与する
ための規則を用いて読み・アクセントの付与を行い、ア
クセント句の認定及びアクセント句情報を得る処理と、当該アクセント句の前後所定個数のアクセント句区間を
設定する処理と、アクセント句区間のアクセント句情報に基づいて係り受
け解析モデルを用いて隣接アクセント句係り受け解析を
行い各隣接アクセント句の係り受け有無の確率PDを求め
る処理と、各隣接アクセント句の係り受け有無の確率PDを元にアク
セント句間の隣接アクセント句係り受け有無の組み合わ
せパターンにおける連続係り受け有無確率PSDを算出す
る処理と、アクセント句区間のアクセント情報と、アクセント句係
り受け有無の組み合わせパターンに基づいてポーズモデ
ルを用いてポーズ確率PPMを算出する処理と、連続係り受け有無確率PSDとポーズ確率PPMからアクセン
ト句区間の隣接アクセント句係り受け有無の各組み合わ
せパターンにおけるポーズ確率PSDPを算出する処理と、ポーズ確率PSDPの総和を計算して統合ポーズ確率PTPを
得る処理と、統合ポーズ確率PTPと予め設定された閾値とを比較する
ことにより当該アクセント句のポーズの設定を行う処理
をコンピュータに実行させるための韻律情報設定プログ
ラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項１１】請求項１０に記載の韻律情報設定プログ
ラムを記録したコンピュータ読み取り記録媒体におい
て、予め決められた規則によるポーズの設定を行う処理と、ポーズ未設定区間が予め決められたポーズ未設定区間よ
り長い場合に統合ポーズ確率PTP以上で最も高い確率を
持つ位置にポーズの設定を行う処理を備えた韻律情報設
定プログラムを記録したコンピュータ読み取り可能な記
録媒体。
【請求項１２】請求項１０に記載の韻律情報設定プログ
ラムを記録したコンピュータ読み取り記録媒体におい
て、当該アクセント句の前後所定個数のアクセント句区間に
おけるアクセント句情報と、アクセント句係り受け有無
の組み合わせパターン、各アクセント句のポーズ有無に
基づいて強弱モデルを用いて強度毎の強弱確率APMを算
出する処理と、強度毎の強弱確率APMと前記連続係り受け有無の確率PSD
から隣接アクセント句係り受け有無の組み合わせパター
ンの強弱確率ASDPを算出する処理と、強度毎の強弱確率ASDPの総和を統合強弱確率ATPとして
算出する処理と、強度毎の統合強弱確率ATPの中で最大となる強度を当該
アクセント句に設定する処理を備えた韻律情報設定プロ
グラムを記録したコンピュータ読み取り可能な記録媒
体。