JP2015055793A

JP2015055793A - 音声合成装置、音声合成方法、およびプログラム

Info

Publication number: JP2015055793A
Application number: JP2013189845A
Authority: JP
Inventors: 淳哉斎藤; Junya Saito; 野田　拓也; Takuya Noda; 拓也野田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2015-03-23
Anticipated expiration: 2033-09-12
Also published as: JP6411015B2

Abstract

【課題】合成音声の質を向上させるためのユーザの修正の負担を低減することが可能な音声合成装置、音声合成方法、およびプログラムを提供する。
【解決手段】入力部は、音声合成の対象とする自然言語の言語表記の入力を受付ける。記憶部は、品詞情報とアクセント句情報とに関連付けて、韻律情報の修正内容を示す修正情報を記憶する。修正部は、言語処理部により生成された品詞情報とアクセント句情報とに関連付けて、前記修正情報が前記記憶部に記憶されている場合に、前記言語処理部により生成された韻律情報を前記修正情報に基づき修正する。音声合成部は、前記修正部による修正を反映した韻律情報を含む中間表記に基づき前記言語表記に対応する音声を合成する。
【選択図】図１

Description

本発明は、音声合成装置、音声合成方法、およびプログラムに関する。

ユーザが入力した日本語表記（漢字仮名交じり文など）を合成音声に変換して読み上げる音声合成技術が知られている。このような音声合成技術では、言語処理によって、日本語表記を、合成音声の表現に関わる韻律記号を表記した中間表記に変換し、中間表記にしたがって合成音声を生成する。

中間表記は、日本語表記から言語処理によって自動生成するが、精度が十分でないことが多い。そこで、日本語表記から合成音声に変換する際には、音声合成装置による自動変換と、ユーザによる修正作業の相互作用によって、対話的に発音情報を作成するようにしている例がある。固定された複数の文例パターンに、変化する部分をはめ込んで音声合成を行う例もある。また、入力文を解析し、生成規則に従って第一の中間言語文字列を生成し、重み付けを行う方法が知られている。この方法では、中間言語文字列の変更調整を行って第二の中間言語文字列を生成して重み付けを行い、第一または第二の中間言語文字列のうち信頼性、重み付けの高い方を選定して出力することにより、自然な音声を出力することを目指している。さらに、入力された合成音声信号、及び文字並び、モーラ数、アクセント型に基づいて、複数の自然発声された音声から合成しようとする音声に最も近い音声のピッチパターンを探しだし、このピッチパターンをもとに合成を行う技術も知られている。（例えば、特許文献１〜４参照）

特開平９−１７１３９２号公報特開平９−１３４１９０号公報特開２０００−５６７８６号公報特開平９−３４４９２号公報

しかしながら、情報技術を用いた教材用音声や、博物館や展示会の説明用音声などの高品質が求められる場面では、ユーザは何度も合成音声を聴取して中間表記を修正する必要があり、ユーザの負担が大きい。しかも、上記のような従来の技術では、不自然なアクセントになったり、修正パターンに適合する場合が少なすぎたり、複数文に依存した大局的な意味に依存する音声が合成されなかったりするという問題がある。

また、中間表記を修正した後、日本語表記が、原稿の訂正等よって変更される場合がある。この場合、単純には、変更された日本語表記から言語処理によって、新たに中間表記を自動生成する必要があるが、ユーザが以前に修正した中間表記の情報は消えてしまうため、再び同様の修正が必要になり、再びユーザに負担を強いることになる。

ひとつの側面によれば、本発明の目的は、音声合成において、合成音声の質を向上させるためのユーザの修正の負担を低減することである。

ひとつの態様である音声合成装置は、入力部、言語処理部、記憶部、修正部、音声合成部を有している。入力部は、音声合成の対象とする自然言語の言語表記の入力を受付ける。言語処理部は、少なくとも前記自然言語の形態素に対応する読み、品詞、アクセント句、および前記アクセント句に関する韻律を含む情報が登録された辞書情報に基づき前記言語表記を解析する。また、言語処理部は、前記言語表記に含まれる形態素と前記形態素に対応する品詞情報とを含む形態素表記、並びに、アクセント句のまとまりを示すアクセント句情報と前記アクセント句の韻律を示す韻律情報とを含む中間表記を生成する。記憶部は、品詞情報とアクセント句情報とに関連付けて、韻律情報の修正内容を示す修正情報を記憶する。修正部は、前記言語処理部により生成された品詞情報とアクセント句情報とに関連付けて、前記修正情報が前記記憶部に記憶されている場合に、前記言語処理部により生成された韻律情報を前記修正情報に基づき修正する。音声合成部は、前記修正部による修正を反映した韻律情報を含む中間表記に基づき前記言語表記に対応する音声を合成する。

なお、上述した態様に係る音声合成装置による音声処理方法、および音声処理方法をコンピュータに行わせるためのプログラムであっても、上述した態様に係る音声合成装置と同様の作用効果を奏するので、前述した課題が解決される。

実施形態の音声合成装置、音声合成方法、およびプログラムによれば、合成音声の質を向上させるためのユーザの修正の負担を低減することができる。

第１の実施の形態による音声合成装置の機能の一例を示すブロック図である。第１の実施の形態によるアクセント強度の修正を概念的に示す図である。第１の実施の形態による言語処理の一例を示す図である。第１の実施の形態によるアクセント強度の修正の一例を示す図である。第１の実施の形態による日本語表記の変更の一例を示す図である。第１の実施の形態による変更後の日本語表記の言語処理の一例を示す図である。第１の実施の形態による変更形態素検索の一例を示す図である。第１の実施の形態による形態素表記と中間表記との対応付けの一例を示す図である。第１の実施の形態によるアクセント強度の修正判定の一例を示す図である。第１の実施の形態による音声合成装置による処理を示すフローチャートである。第２の実施の形態による音声合成装置の構成の一例を示す機能ブロック図である。第２の実施の形態によるテンプレートの一例を示す図である。第２の実施の形態によるテンプレートＤＢを参照する例を概念的に示す図である。第２の実施の形態による音声合成装置の処理の一例を示すフローチャートである。第３の実施の形態による音声合成装置の構成の一例を示す機能ブロック図である。韻律情報の変形例を示す図である。韻律情報の変形例を示す図である。標準的なコンピュータのハードウエア構成の一例を示す図である。

（第１の実施の形態）
以下、図１から図７を参照しながら第１の実施の形態による音声合成装置１について説明する。説明の都合上、韻律記号の一例としてアクセント強度に着目して説明するが、他の韻律記号も適用可能である。アクセント強度は、アクセント句に対応して定められ、そのアクセント句の強弱を制御するという特徴をもつ韻律記号の一つである。他の韻律記号とは、例えば、音程高低、抑揚大小、話速緩急、音量大小などを示す記号である。以下に示す韻律記号の表記は一例であり、これに限定されない。

本実施の形態は、入力された日本語表記（漢字仮名交じり文など）に対応する合成音声においてアクセント強度の修正が行われる場合を想定している。この場合に、入力された日本語表記の一部を変更した変更後の日本語表記に、変更前の日本語表記における修正と同様にアクセント強度の修正を実行するか否かを自動的に判定する。なお、変更後の日本語表記に、変更前の日本語表記における修正と同様にアクセント強度の修正を実行することを、アクセント強度、または韻律情報を引き継ぐと表現するものとする。以下、初めにアクセント強度の修正が行われる日本語表記を第１の日本語表記、第１の日本語表記において日本語表記の一部が変更された日本語表記を第２の日本語表記という。

図１は、第１の実施の形態による音声合成装置１の機能の一例を示すブロック図である。図１に示すように、音声合成装置１は、入出力部５、言語処理部７、音声合成部９、中間表記修正部１１、記憶部２１を有している。中間表記修正部１１は、変更検索部１３、形態素対応付け部１５、修正判定部１７、韻律修正部１９を有している。音声合成装置１の上記の各機能は、例えば、記憶部２１に記憶されたプログラムをプロセッサが読み込んで実行することにより実現されるようにしてもよい。また、少なくとも一部の機能を例えば半導体集積回路などにより実現するようにしてもよい。音声合成装置１は、例えば記憶部２１に、言語処理を行うための辞書、音声合成に使用する音声を記憶するようにしてもよい。

制御部３は、音声合成装置１の動作を制御する。入出力部５は、音声合成装置１への情報の入出力を行う機能であり、例えば、タッチパネル、キーボードなどの入力装置、表示装置、スピーカなどの出力装置を含む。言語処理部７は、例えば日本語の品詞情報、アクセント情報などを含む辞書に基づき、日本語表記の言語処理を行い、形態素表記、中間表記などを出力する。形態素表記は、例えば、形態素ごとに分割された日本語表記と、対応する品詞情報を含む情報である。中間表記は、例えば、日本語表記のヨミと、日本語表記におけるひとつのアクセント句に対応する語句を示すアクセント句情報と、アクセント句に対応するアクセント強度とに基づく表記である。音声合成部９は、例えば中間表記、および予め録音された例えば単語毎、文節毎などの音声に基づいて、音声を合成する。記憶部２１は、情報を記憶する装置であり、音声合成装置１の動作を制御するプログラムや、各処理を行うための情報等を記憶するようにしてもよい。

中間表記修正部１１は、言語処理部７で出力された中間表記に修正が必要であるか否かを判定し、必要な場合には自動的に修正する。詳しくは、変更検索部１３は、第１の日本語表記の形態素表記と、第２の日本語表記の形態素表記とから、日本語表記における変更部分の形態素を検索する。形態素対応付け部１５は、入力された第１の日本語表記と、言語処理部７から出力された第１の日本語表記の中間表記に対し行われた修正後の中間表記とを対応付ける。

修正判定部１７は、第２の日本語表記に基づき言語処理部７で生成された中間表記において、アクセント強度の修正が必要であるか否かを判定する。すなわち、修正判定部１７は、第１および第２の日本語表記において、例えば、品詞情報とアクセント句情報とが一対一に対応している場合に、第２の日本語表記に対応するアクセント強度を修正すると判定する。すなわち、第１の日本語表記において行われたアクセント強度の修正が、修正後の第２の日本語表記のアクセント強度に引き継がれる。これにより、第２の日本語表記の、第１の日本語表記で変更された形態素を含むアクセント句のアクセント強度は、第１の日本語表記において修正された後のアクセント強度とされる。このようにして、修正判定部１７は、音声合成の対象の日本語表記のアクセント強度を、先に言語処理された日本語表記における修正後のアクセント強度に修正するか否かを判定する。韻律修正部１９は、修正判定部１７の判定結果に基づき、中間表記を修正する。

以下の説明においては、音声合成装置１における各動作は、例えば後述する演算処理装置が所定のプログラムを読み込むことにより実行される場合も含み、便宜的に上述した各機能が処理を行うとして説明する。

図２は、本実施の形態による中間表記修正の一例を表示例により概念的に示す図である。図２の表示例４０ａに示すように、処理（ａ）において、第１の日本語表記に対応する日本語表記４１が入力される。日本語表記４１は、「東京近辺に雷注意報が・・・」という日本語文を示している。表示例４０ｂに示すように、日本語表記４１は、処理（ｂ）において、例えば言語処理部７により、韻律情報４３に変換される。ここで、韻律情報４３＝「トーキョーキ’ンペンニ」「カミナリチューイ’ホーガ＆」である。

表示例４０ｃに示すように、処理（ｃ）において、ユーザにより韻律情報４３におけるアクセント強度が強アクセント「’」から弱アクセント「＊」に修正され、韻律情報４５とされている。ここで、韻律情報４５＝「トーキョーキ＊ンペンニ」「カミナリチューイ＊ホーガ＆」となる。

表示例４０ｄに示すように、処理（ｄ）では、第１の日本語表記の日本語表記４１の一部が修正され、日本語表記４７とされている。日本語表記４７は、「京都周辺に濃霧警報が・・・」という第２の日本語表記である。表示例４０ｅのように、処理（ｅ）では、言語処理部７が、日本語表記４７を解析して、形態素表記、中間表記を出力する。変更検索部１３は、形態素表記を比較して、日本語表記４１と日本語表記４７との異なる形態素を検索する。修正判定部１７は、検索された異なる形態素に対応する品詞情報、アクセント句情報を比較して、アクセント強度を修正するか否か判定する。判定の結果、「濃霧警報が」の部分のアクセント強度が「雷注意報が」で修正されたアクセント強度に設定され、韻律情報４９が出力される。

ところで、上記のように「東京近辺に」を「京都周辺に」に変更した場合、それぞれ形態素解析すると、「東京」（固有名詞）と「近辺」（普通名詞）と「に」（格助詞）および、「京都」（固有名詞）と「周辺」（普通名詞）と「に」（格助詞）になる。例えば、形態素の品詞の並びのみに基づき韻律を修正する例では、「東京近辺に」にマッチする品詞の並びの前例があれば、同じ品詞の並びが「京都周辺に」もマッチするため、両者は共通のアクセント強度を持つことになる。この方法は、意味という点では正しいが、聴感という点では正しくない。ここで、「東京近辺に」および「京都周辺に」をアクセント句に分割すると、「東京周辺に」および「京都」「周辺に」となり、アクセント句の個数が１つから２つに変化している。この例は、アクセント句の個数変化によって大きく聴感的に変化しているためである。このように、アクセント強度はアクセント句に紐づいているため、「東京周辺に」のアクセント強度をどのように「京都」と「周辺に」に反映させるかは、自明でない。このため、上記のように、本実施の形態においては、品詞情報とアクセント句情報との両方の一対一対応を中間表記の修正の条件としている。

なお、例えば、ある文中の「東京に」を「京都に」に変更する場合には、「東京に」、「京都に」の品詞情報は、それぞれ（固有名詞）（格助詞）であり、アクセント句も単一であるため、修正の条件が満たされることになる。

以下、図３から図９を参照しながら、中間表記修正の一例について説明する。図３は、日本語表記４１に基づき、言語処理部７により、形態素表記５２と中間表記４４とが生成されることを示す図である。品詞情報５１は、日本語表記４１に含まれる品詞を示す情報であり、言語処理部７により日本語表記４１が形態素解析された結果出力される。形態素区切り情報４２は、品詞情報５１と日本語表記４１との対応を示す情報である。形態素表記５２は、品詞情報５１および形態素区切り情報４２を対応させた情報である。

韻律情報４３は、日本語表記４１に基づき音声合成を行う際の、合成音声の表現に係る表記であり、言語処理部７により日本語表記４１が言語処理された結果に基づき出力される、アクセント強度などの韻律情報を含む情報である。アクセント句情報５４は、日本語表記４１におけるアクセントの区切りを示す情報である。中間表記４４は、韻律情報４３とアクセント句情報５４とを対応させた情報である。

例えば、日本語表記４１＝「東京近辺に、雷注意報が発令された。」に対する形態素単位の形態素区切り情報４２とは、「東京」「近辺」「に」「雷」「注意報」「が」「発令」「さ」「れ」「た」というような情報である。品詞情報５１とは、「東京」は固有名詞、「近辺」は普通名詞、「に」は格助詞、というような情報である。固有名詞、普通名詞などは、品詞の種類である。例えば品詞情報５１では、品詞の数は６個である。韻律情報４３とは、「トーキョーキ’ンペンニ」「カミナリチューイ’ホーガ＆」等の情報である。韻律情報４３では、「’」は、強アクセントを示している。また図３の例では、品詞情報５１、アクセント句情報５４によれば、一つのアクセント句に含まれる品詞の数は、３個ずつである。

図４は、中間表記４４に対して行われる、アクセント強度の修正例を示している。中間表記５５では、韻律情報４３においてアクセント強度が修正され、韻律情報４５とされている。韻律情報４５では、韻律情報４３の「カミナリチューイ’ホーガ＆」における強アクセント「’」に代えて、弱アクセント「＊」と修正されている。これにより、日本語表記４１に対応する韻律情報は、例えば、「トーキョーキ’ンペンニ、カミナリチューイ＊ホーガハツレーサレタ。」となる。

なお、「’」、「＊」は、アクセント位置およびアクセント強度を指定する韻律記号である。「’」はそのアクセント句のアクセント強度が強であること、「＊」は弱であることを意味する。「、」「。」は、呼気段落境界を指定し、「、」「。」および「」（全角スペース）はアクセント句境界を指定している。アクセント句境界に挟まれた文字列をアクセント句と呼ぶ。「＆」は、鼻濁音を示す韻律記号である。

図５は、日本語表記４１の変更の一例を示している。図５に示すように、日本語表記４１＝「東京近辺に、雷注意報が・・・」を日本語表記４７＝「（京都周辺）に（濃霧警報）が・・・」と変更している。括弧は、変更された部分を示す。

図６は、日本語表記４７に基づき、言語処理部７により、形態素表記５８と中間表記６１とが生成されることを示している。品詞情報５７は、日本語表記４７に含まれる品詞を示す情報であり、言語処理部７により日本語表記４７が形態素解析された結果出力される。形態素区切り情報４８は、品詞情報５７と日本語表記４７との対応を示す情報である。形態素表記５８は、品詞情報５７および形態素区切り情報４８を対応させた情報である。

韻律情報５９は、日本語表記４７に基づく合成音声の表現にかかわる表記であり、言語処理部７により出力される、アクセント強度を含む情報である。アクセント句情報６０は、日本語表記４７におけるアクセントの区切りを示す情報である。中間表記６１は、韻律情報５９とアクセント句情報６０とを対応させた情報である。

図７は、変更された形態素を検索する例を示す図である。図７に示すように、形態素表記５２と形態素表記５８とを比較して、互いに異なる形態素を検索する。変更形態素表記５３は、形態素表記５２において形態素表記５８と異なる形態素を示す情報である。変更形態素表記６２は、形態素表記５８において形態素表記５２と異なる形態素を示す情報である。

図８は、変更形態素表記５３と中間表記５５とを対応付ける例を示す図である。対応情報５６は、日本語表記４１における変更を示す変更形態素表記５３と韻律情報を修正した後の中間表記５５とを対応付けた情報である。

図９は、変更後の日本語表記４７に対し、修正後の韻律情報４５に応じた修正を行う修正判定例を示している。図９に示すように、変更情報６３は、中間表記６１と変更形態素表記６２とを対応付けた情報である。修正判別情報６４、修正参照情報６５は、アクセント句情報５４とアクセント句情報６０、品詞情報５１と品詞情報５７において、それぞれ一対一に対応するアクセント句を示す情報である。一対一に対応するとは、一つのアクセント句に対応する品詞の数と種類が一致していることである。この一対一に対応するアクセント句に修正参照情報６５におけるアクセント強度が適用されて修正が引き継がれ、韻律情報６６が生成される。なお、中間表記６７は、韻律情報６６とアクセント句情報６０とを対応させた情報である。

この例では日本語表記４７に対し韻律情報６６が出力され、音声合成部９は、韻律情報６６に基づき音声を合成する。なお、上記の例では、「東京周辺に」のアクセント強度は「京都近辺に」には適用されないが、「雷警報が」で修正されたアクセント強度は、「濃霧警報が」に適用されることになる。

以下、フローチャートを参照しながら、本実施の形態による音声合成装置１の動作についてさらに説明する。図１０は、音声合成装置１の動作を示すフローチャートである。図１０に示すように、入出力部５は、日本語表記の入力を受付ける（Ｓ７１）。例えば、入出力部５は、第１の日本語表記に対応する日本語表記４１を受付ける。入出力部５は、受付けた日本語表記４１を、例えば表示例４０ａのように表示してもよい。このとき、日本語表記４１を修正可能なように、ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ（ＧＵＩ）等によって、ユーザへ提示するように構成されることが好ましい。

言語処理部７は、受付けた例えば日本語表記４１に対して形態素解析や係り受け解析などを行い、形態素表記５２、中間表記５５を生成する（Ｓ７２）。例えば、図３に示したように、形態素表記５２は、品詞情報５１および形態素区切り情報４２を含む。例えば、中間表記４４は、韻律情報４３およびアクセント句情報５４を含む。

ここで、音声合成部９は、生成された中間表記５５に基づき音声を合成して入出力部５より出力する。例えば図２の表示例４０ｂにおいて、再生ボタンを表示し、再生ボタンが選択されると音声を出力するようにしてもよい。音声の出力は、例えばスピーカにより行うようにしてもよい。入出力部５は、中間表記４４において、ユーザの修正が入力されると修正を受付ける。例えば、図２の処理（ｃ）に示したように、アクセント強度の変更を受付ける（Ｓ７３）。さらに、図４に示したように、中間表記４４において、韻律情報４３が韻律情報４５に修正される。

図２の処理（ｄ）に示したように、入出力部５は、例えば、日本語表記４１の一部の修正を受付ける。修正された日本語表記は、日本語表記４７となる（Ｓ７４）。図６に示したように、言語処理部７は、日本語表記４７を言語処理して、形態素表記５８、中間表記６１を生成する（Ｓ７５）。

変更検索部１３は、形態素表記５２と形態素表記５８との対応をとる（Ｓ７６）。また、変更検索部１３は、図７に示すように、形態素表記５２と形態素表記５８との対応に基づき、変更形態素表記５３および変更形態素表記６２を生成する。すなわち、変更検索部１３は、形態素区切り情報４２と形態素区切り情報４８とを比較して異なる形態素を抽出し、変更形態素表記５３、６２を生成する。形態素対応付け部１５は、図８に示したように、変更形態素表記５３と中間表記５５との対応に基づき、対応情報５６を生成する（Ｓ７７）。対応情報５６は、記憶部２１に記憶される。このとき、記憶部２１は、例えば、音声合成装置１に内蔵された半導体メモリ等とすることができる。

修正判定部１７は、変更形態素表記６２で抽出された変更された形態素を含む未処理のアクセント句があるか否かを判別する（Ｓ７８）。未処理のアクセント句がない場合には（Ｓ７８：ＮＯ）、韻律修正部１９は、その時点での中間表記を出力する（Ｓ８１）。また、音声合成部９は、出力された中間表記に基づき音声を合成する（Ｓ８２）。

変更形態素表記６２で抽出された変更された形態素を含み、未処理のアクセント句がある場合には（Ｓ７８：ＹＥＳ）、修正判定部１７は、それぞれのアクセント句が、韻律情報修正条件を満たすか否かを判定する（Ｓ７９）。韻律情報修正条件とは、ここでは、例えば、当該形態素が含まれるアクセント句に対応する品詞情報５７、アクセント句情報６０共に、品詞情報５１、アクセント句情報５４と一対一に対応していることである。

修正判定部１７が、韻律情報修正条件を満たしていると判定した場合には（Ｓ７９：ＹＥＳ）、韻律修正部１９は、中間表記６１における当該アクセント句のアクセント強度を、中間表記５５における当該アクセント句のアクセント強度に修正する（Ｓ８０）。さらに韻律修正部１９は、処理をＳ７８に戻す。修正判定部１７は、韻律情報修正条件を満たしていないと判定した場合には（Ｓ７９：ＮＯ）、処理をＳ７８に戻す。

以上説明したように、第１の実施の形態による音声合成装置１によれば、言語処理部７は、入出力部５を介して入力された日本語表記４１などの言語処理を行う。この言語処理により、例えば、品詞情報５１、形態素区切り情報４２を含む形態素表記５２、韻律情報４３、アクセント句情報５４を含む中間表記４４が生成される。

音声合成部９は、生成された中間表記４４に基づき、音声を合成し出力する。入出力部５は、出力された音声に基づき、韻律情報４３の修正が入力されると、修正を受付ける。

入出力部５が、例えば、日本語表記４１の一部を修正した日本語表記４７を受付けると、言語処理部７は、日本語表記４７の言語処理を行う。この言語処理により、例えば、品詞情報５７、形態素区切り情報４８を含む形態素表記５８、韻律情報５９、アクセント句情報６０を含む中間表記６１が生成される。

変更検索部１３は、形態素表記５２と形態素表記５８との対応に基づき、変更形態素表記５３および変更形態素表記６２を取得する。すなわち、変更検索部１３は、形態素区切り情報４２と形態素区切り情報４８とを比較して、異なる形態素を抽出する。形態素対応付け部１５は、入力された第１の日本語表記の形態素表記５２と、第１の日本語表記が言語処理されて言語処理部７から出力された中間表記に対し行われた修正を反映した修正後の中間表記５５とを対応付け、対応情報５６を生成する。対応情報５６は、例えば記憶部２１に記憶される。

修正判定部１７は、抽出された変更形態素表記６２に基づき、変更されたそれぞれの形態素が含まれるアクセント句ごとに品詞情報とアクセント句情報とが対応情報５６と共通（一対一に対応している）か否かを判定する。変更検索部１３は、形態素区切り情報４２と形態素区切り情報４８とで変化している形態素の周囲、もしくは全ての形態素に対して、形態素単位で判定を行う。一対一に対応しているか否かの判定は、マッチング処理で広く行われている例えば、ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ（ＤＰ）マッチングを利用することで実現できる。共通な場合には、韻律情報５９の対応するアクセント句のアクセント強度を、韻律情報４５のアクセント強度に修正する。

以上詳細に説明したように、音声合成装置１によれば、第１の日本語表記の言語処理結果に基づき生成された合成音声に対して韻律情報の修正を行った場合、修正に関する情報を記憶部２１に記憶する。修正に関する情報とは、韻律情報に関する修正内容と、修正した箇所に対応する少なくとも品詞情報およびアクセント句情報を含む情報である。第１の日本語表記とは別の第２の日本語表記の言語処理結果に、第１の日本語表記の韻律情報の修正箇所と対応するアクセント句があるか否かを判定する。対応するアクセント句がある場合に、第２の日本語表記の対応するアクセント句の韻律情報を、第１の日本語表記に対する修正と同様に修正することで、韻律情報の修正を自動的に反映する。

対応するアクセント句とは、第１と第２の日本語表記において、品詞情報とアクセント句情報とが一対一に対応したアクセント句である。これにより、修正を行ったアクセント句と対応するアクセント句の韻律情報を、修正を行った後の韻律情報に自動的に修正し、修正を引き継ぐ。例えば、第１の日本語表記において、一部が変更されて第２の日本語表記となっている場合には、この修正を変更にかかわる全ての変更形態素を含むアクセント句について行う。さらに、ユーザが日本語表記、または中間表記の修正または変更を繰り返した場合は、以上の処理を繰り返す。

以上のように、第１の実施の形態による音声合成装置１によれば、韻律情報の修正が行われた場合に、修正が行われた韻律情報に対応する品詞情報とアクセント句情報とを有する日本語表記に、修正を引き継ぐことができる。すなわち、音声合成装置１は、アクセント句の品詞の数と種類が同一である場合に、記憶部に記憶された修正情報と同様に、韻律情報の修正を行うと判定することができる。ユーザの修正または変更が日本語表記に行われた場合には、既にユーザによる修正または変更のあった韻律を、修正または変更が行われた部分に自動的に反映させることができる。これにより、自然な合成音声を生成するために、ユーザが手動で韻律を繰り返し修正するなどの手間が大幅に縮小され、簡易に高品質の合成音声を生成することが可能になる。

本実施の形態によれば、既に行われた韻律情報の修正を、日本語表記の変更された箇所に反映させるために、品詞情報とアクセント句情報とが一対一に対応するか否かを判別し、対応する場合に修正を引き継ぐことができる。具体的には、形態素対応付け部１５が、変更後の日本語表記に関する品詞情報と中間表記とを対応付ける。これにより、修正判定部１７は、変更検索部１３が検索した、修正された形態素を含むアクセント句の全形態素の品詞が、修正前のアクセント句と一対一に対応する品詞情報を有しているか否かを判別することができる。

このように品詞情報を使用することで、変更前後で形態素の持つ意味が類似しているか否か判別することができる。また、アクセント句を使用することで、変更前後で合成音声にしたときに聴感上類似しているか否かを判別することができる。これにより、意味が類似し、かつ聴覚上類似している場合のみ、音声合成装置１は、すでに修正を行ったアクセント句と同様の韻律の修正を行うことができる。よって、文脈および韻律を考慮した中間表記を生成することができ、アクセント強度等が無理に引き継がれてかえって不自然なアクセント強度になってしまうことを防止することができるので、合成音声の適切な修正が可能である。また、品詞のみ、あるいはアクセント句のみが一致した場合にアクセントを同様に修正するような例と比べると、より自然な音声とすることができる。

教材音声や説明用音声など、高音質が求められる場合でも、十分な精度で合成音声を生成することができる。また、中間表記を修正した後、日本語表記が、原稿の訂正等よって変更される場合や、修正が繰り返される場合でも、ユーザが以前に修正した中間表記の情報を再利用することができる。よって、ユーザに修正のための負担を繰り返し強いることを回避でき、コストを削減できる。

モーラ数およびアクセント型の並びに基づいて引き継ぐような場合のように、制約が厳しすぎ、多くの場合に、アクセント強度を引き継ぐことができない、という事態も回避される。

以上の構成により、ユーザの修正した韻律記号を適切に引き継ぎ、ユーザの負担となる修正コストの削減に寄与する。

（第２の実施の形態）
以下、第２の実施の形態による音声合成装置１００について、図１１から図１４を参照しながら説明する。第２の実施の形態による音声合成装置１００において、第１の実施の形態による音声合成装置１と同様の構成および動作については同一番号を付し、重複説明を省略する。本実施の形態においては、言語処理部７により生成された中間表記にかかわらず用いる中間表記を指定する場合に、用いる中間表記および対応する形態素表記をテンプレートとして記憶する。そして、音声合成装置１００は、音声合成対象の日本語表記の中間表記を生成する際に、テンプレートを参照する。

図１１は、第２の実施の形態による音声合成装置１００の構成の一例を示す機能ブロック図である。図１１に示すように、音声合成装置１００は、入出力部５、言語処理部７、音声合成部９、中間表記修正部１０３、記憶部２１を有している。記憶部２１には、テンプレートＤａｔａＢａｓｅ（ＤＢ）１１７が記憶されるようにしてもよい。中間表記修正部１０３は、ＤＢ登録部１０５、テンプレート検索部１１３、テンプレート対応付け部１１５、韻律修正部１９を有している。音声合成装置１００の上記の各機能は、例えば、記憶部２１に記憶されたプログラムをプロセッサが読み込んで実行することにより実現されるようにしてもよい。また、一部もしくは全ての機能を例えば半導体集積回路などにより実現するようにしてもよい。

中間表記修正部１０３は、テンプレートＤＢ１１７を参照して、言語処理部７で出力された中間表記に修正が必要であるか否かを判定し、必要な場合には自動的に修正する。ＤＢ登録部１０５は、言語処理部７により生成される中間表記とは別の中間表記に関する情報をテンプレートＤＢ１１７に登録する。登録の対象となる中間表記は、例えば、入出力部５を介して入力される。ＤＢ登録部１０５は、品詞情報、アクセント句情報および韻律情報を対応付けて登録する。テンプレートＤＢ１１７は、例えば、品詞情報、アクセント句情報および韻律情報を対応付けて記憶したデータベースである。

テンプレート検索部１１３は、修正された日本語表記、または新たに登録された日本語表記の中間表記が、テンプレートＤＢ１１７に登録済の情報とマッチするか否か検索する。テンプレート対応付け部１１５は、マッチするテンプレートがある場合、対象の日本語表記とテンプレートとの対応付を行う。韻律修正部１９は、マッチするテンプレートがある場合に、テンプレート対応付け部１１５で対応付けられた、対応するアクセント強度をテンプレートＤＢ１１７に記憶されているアクセント強度に修正する。

なお、以下の説明においては、音声合成装置１における各動作は、例えば後述する演算処理装置が所定のプログラムを読み込むことにより実行される場合も含み、便宜的に上述した各機能が処理を行うとして説明する。

図１２は、テンプレート１２５の一例を示す図である。図１２に示すように、テンプレート１２５は、アクセント句情報１２１、品詞情報１２２、日本語表記例１２３、アクセント強度情報１２４を有している。日本語表記例１２３は、テンプレート１２５にマッチすると判別される日本語表記の例を示す情報である。日本語表記例１２３において「＃」は、品詞情報が一致するどのような形態素でもよいことを示している。日本語表記例１２３は、この例では、日本語表記の前半の格助詞と、日本語表記の後半の「発令されました。」とが指定されているが、これに限定されない。アクセント強度情報１２４は、韻律情報の一例である。アクセント強度情報１２４として、「指定なし」という情報が登録されているが、これは、修正の必要がないことを示している。

図１３は、日本語表記４７が入力された場合にテンプレートＤＢ１１７を参照する例を概念的に示す図である。図１３に示すように、テンプレートＤＢ１１７には、例えば、テンプレート１３５、１４５、１５５等、少なくとも一つのテンプレートが登録されている。テンプレート１３５は、アクセント句情報１３１、品詞情報１３２、日本語表記例１３３、アクセント強度情報１３４を有している。他のテンプレート１４５、１５５も同様である。アクセント強度情報１３４は、韻律情報の一例である。

図１３においては、日本語表記４７から生成されたアクセント句情報６０、品詞情報５７、形態素区切り情報４８が示されている。この例では、アクセント句情報６０がアクセント句情報１３１と一対一に対応し、品詞情報５７が品詞情報１３２と一対一に対応するため、日本語表記４７は、テンプレート１３５にマッチすることになる。よって、アクセント強度情報１３４を中間表記に適用することになる。

具体的には、アクセント句情報１３１＝「（アクセント句）（アクセント句）（アクセント句）」、品詞情報１３２＝「（固有名詞）（普通名詞）（格助詞）（普通名詞）（格助詞」である。これに対しアクセント強度情報１３４＝「（強アクセント（’））（弱アクセント（＊））（弱アクセント（＊））」と登録されている。一方、日本語表記４７については、図６において示したように、言語処理により韻律情報５９が生成される。このとき韻律情報５９は、アクセント強度情報１３４に基づき「シューヘンニ’」が「シューヘンニ＊」と修正され、「ノームケ’ーホーガ＆」が「ノームケ＊ーホーガ＆」と修正されることになる。

図１４は、第２の実施の形態による音声合成装置１００の処理を示すフローチャートである。図１４に示した処理の前に、例えばＤＢ登録部１０５は、例えば、韻律情報に修正のあった日本語表記の形態素解析結果および中間表記に基づき、テンプレートＤＢ１１７に登録を行うものとする。例えば、図３に示した形態素表記５２と図４に示した修正後の中間表記５５とに基づきテンプレートを登録する。または、ユーザが手動で入出力部５を介して登録内容を入力するようにしてもよい。

図１４に示すように、入出力部５は、例えば日本語表記４７の入力を受付ける（Ｓ１６１）。言語処理部７は、日本語表記４７を言語処理し、形態素表記５８および中間表記６１を出力する（Ｓ１６２）。テンプレート検索部１１３は、出力された形態素表記５８における品詞情報５７と中間表記６１におけるアクセント句情報６０とを、テンプレートＤＢ１１７のテンプレートとマッチするか否か検索する（Ｓ１６３）。このとき、テンプレート検索部１１３は、品詞情報５７およびアクセント句情報６０がそれぞれ一対一に対応付けられるテンプレートがあるか否かを検索する。なお、テンプレートとして日本文の一部が指定されている場合には、その日本語表記についても一致するか否かを検索する。

マッチするテンプレートがない場合には（Ｓ１６３：ＮＯ）、韻律修正部１９は、その時点での中間表記をそのまま出力する（Ｓ１６６）。マッチするテンプレートがある場合には（Ｓ１６３：ＹＥＳ）、テンプレート対応付け部１１５は、テンプレートＤＢ１１７におけるテンプレートと例えば韻律情報５９とを対応付ける（Ｓ１６４）。韻律修正部１９は、韻律情報５９をマッチした例えばテンプレート１３５に基づき修正し（Ｓ１６５）、テンプレートに基づく中間表記を出力する（Ｓ１６６）。音声合成部９は、中間表記に基づき音声を合成する（Ｓ１６７）。

ここで、図１３のテンプレートＤＢ１１７の例を参照しながら、テンプレート検索部１１３の動作についてさらに説明する。ここでは、品詞情報とアクセント強度以外に、日本語表記の一部を合わせて登録しているが、これはなくてもよい。

例えば、日本語表記４７の「京都周辺に濃霧警報が」は、テンプレート１３５にはマッチするが、テンプレート１４５にはマッチしない。「京都周辺に」が「京都」と「周辺に」の２アクセント句であり、テンプレート１４５のアクセント句情報１４１と一致しないためである。このような検索は、例えば、形態素単位のＤＰマッチングを利用することで実現できる。

ＤＰマッチングでは、まず、テンプレート検索部１１３は、ユーザの入力した日本語表記を言語処理して生成した例えば形態素表記５８と、テンプレートデータベースに格納されたテンプレートの形態素表記に対して、形態素ごとの置換コストを次のように定義する。そして、テンプレート検索部１１３は、言語処理部７により生成された形態素表記５８と、テンプレートの形態素表記との異なる部分に関して、挿入コストおよび削除コストを１として、形態素単位でＤＰマッチングを行う。挿入コストは、例えば、テンプレートＤＢ１１７のテンプレートになく、形態素表記５８にある形態素がある場合に「１」とすることができる。削除コストは、例えば、テンプレートＤＢ１１７のテンプレートにあり、形態素表記５８にない形態素がある場合に「１」とすることができる。
１）２つの形態素の品詞および文字列そのものが一致するならば置換コスト＝０
２）２つの形態素の品詞が一致しかつテンプレートの形態素が「＃」ならば置換コスト＝０
３）上記２つの条件を満たさない場合、置換コスト＝１

次に、形態素表記５８の中で、置換・挿入・削除コストの合計が０となるような部分があるかを調べ、さらに、その部分に対応するアクセント句と形態素の包含関係がテンプレートのアクセント句と形態素の包含関係と一致しているか確認する。一致するならば、そのテンプレートはマッチしていると判定する。以上を繰り返すことで、テンプレートデータベースからマッチしているテンプレートを検索できる。

以上説明したように、本実施の形態による音声合成装置１００によれば、例えば言語処理部７で生成された中間表記とは別の中間表記を含むテンプレートを作成する。音声合成対象の日本語表記が入力されると、言語処理の結果の形態素表記、中間表記をテンプレートＤＢ１１７で検索し、マッチするか否かを判定する。

テンプレートにマッチするか否かは、少なくとも品詞情報とアクセント句情報で判断する。具体的にどのような形態素であるかを指定し、検索してもよい。なお、テンプレートＤＢ１１７は、テンプレートを１つ以上格納する。

テンプレートＤＢ１１７に登録する情報に、例えば日本語表記例１３３、１４３、１５３などのように日本語表記の一部を登録することもできる。これにより、単語や形態素の並びといった局所的な意味だけでなく、複数文に依存した大局的な意味にも依存させて、適切にアクセント強度を設定することができる。テンプレートＤＢ１１７を自由に書き換え可能とすることにより、ユーザの要求により合致した合成音声を生成することができる。

以上の構成により、あらかじめ、テンプレートＤＢ１１７にテンプレートを登録しておけば、ユーザが日本語表記を入力し、言語処理で中間表記を自動生成する際に、登録しておいたテンプレートに基づき韻律情報を修正することができる。また、テンプレートに品詞情報とアクセント句情報を使用することで、文脈と韻律を考慮して適切に韻律情報を修正することができ、ユーザが中間表記を再び修正する手間の削減に寄与する。

（第３の実施の形態）
以下、第３の実施の形態による音声合成装置２００について、図１５を参照しながら説明する。第３の実施の形態による音声合成装置２００において、第１または第２の実施の形態による音声合成装置１、１００と同様の構成および動作については同一番号を付し、重複説明を省略する。本実施の形態においては、音声合成装置２００において、中間表記に修正が施された場合に、修正後の韻律情報および対応する品詞情報、アクセント句情報を自動的にテンプレートＤＢ１１７に登録して、テンプレートＤＢ１１７を更新する。

図１５は、第３の実施の形態による音声合成装置２００の構成の一例を示す機能ブロック図である。図１５に示すように、音声合成装置２００は、入出力部５、言語処理部７、音声合成部９、中間表記修正部１０３、記憶部２１を有している。記憶部２１には、テンプレートＤａｔａＢａｓｅ（ＤＢ）１１７が記憶されることが好ましい。中間表記修正部２０３は、ＤＢ登録部１０５、テンプレート検索部１１３、テンプレート対応付け部１１５、韻律修正部１９、テンプレート更新部２０５を有している。音声合成装置２００の上記の各機能は、例えば、記憶部２１に記憶されたプログラムをプロセッサが読み込んで実行することにより実現されるようにしてもよい。また、一部もしくは全ての機能を例えば半導体集積回路などにより実現するようにしてもよい。

テンプレート更新部２０５は、音声合成装置２００において、中間表記に修正が施された場合に、修正後の中間表記の韻律情報、および少なくとも対応する品詞情報およびアクセント句情報を互いに関連付けて自動的にテンプレートＤＢ１１７に登録または更新する。中間表記修正部２０３は、音声合成を行う際には、最新のテンプレートＤＢ１１７を参照して、テンプレートとのマッチングを判定する。その他の構成および動作は、第２の実施の形態による音声合成装置１００と同様である。

以上説明したように、第３の実施の形態による音声合成装置２００によれば、音声合成装置１００による効果に加え、自動的にテンプレートＤＢ１１７を登録および更新することができる。よって、さらにきめ細かく韻律情報修正を反映することができ、さらにユーザの修正の手間を削減しながら良質の音声を合成することが可能になる。

（変形例）
以下、図１６、１７を参照しながら、第１から第３の実施の形態に適用可能な変形例について説明する。本変形例が適用される音声合成装置は、音声合成装置１、１００、２００のいずれでもよい。第１から第３の実施の形態において説明した音声合成装置１、１００、２００の構成および動作については、重複説明を省略する。

図１６は、韻律情報として話速情報を用いる例である。図１６に示すように、韻律情報２１１として「トーキョーキ’ンペンニ、カミナリチューイ’ホーガ▽ ハツレーサレタ。」とされる。ここで「▽」は、話速を遅くすることを示す韻律記号とする。このとき、図１６において下線を付した「カミナリチューイ’ホーガ」に対応する品詞情報＝「（普通名詞）（普通名詞）（格助詞）」、アクセント句情報＝「（アクセント句）」と一対一に対応するアクセント句に関して、中間表記に韻律記号「▽」が適用されることになる。例えば、話速を早くする韻律記号「△」を用いることもできる。

図１７は、韻律情報として音量情報を用いる例である。図１７に示すように、韻律情報２１５として「トーキョーキ’ンペンニ、カミナリチューイ’ホーガ↑ ハツレーサレタ。」とされる。ここで「↑」は、音量を大きくすることを示す韻律記号とする。このとき、図１７において下線を付した「カミナリチューイ’ホーガ」に対応する品詞情報＝「（普通名詞）（普通名詞）（格助詞）」、アクセント句情報＝「（アクセント句）」と一対一に対応するアクセント句に関して、中間表記に韻律記号「↑」が適用されることになる。例えば、音量を小さくする韻律記号「↓」を用いることもできる。

以上のように、本変形例によれば、アクセント強度以外の様々な韻律記号にも、韻律記号の自動修正を行うことが可能である。よって、より高品質の合成音声を生成するための手間がさらに低減される。

上記第１から第３の実施の形態および変形例において、中間表記修正部１１、１０３、２０３は、修正部の一例であり、入出力部５は、入力部、韻律修正受付部、言語変更受付部の一例である。また、入出力部５、ＤＢ登録部１０５は、登録受付部の一例である。形態素対応付け部１５、テンプレート更新部２０５は、対応付け部の一例である。

なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、上記第１から第３の実施の形態および変形例においては、日本語表記について説明したが、上記のような言語処理が可能な他の自然言語についても適用が可能である。

形態素対応付け部１５は、図８に示したように、変更形態素表記５３と中間表記５５との対応付を行う。しかし中間表記５５は、ユーザにより修正が加えられた中間表記となるため、場合によっては、読み等が変更され、単純に対応をとることができない場合がある。このような場合には、例えば、変更された形態素の周囲のみの対応を取るようにしてもよい。対応をとる範囲の決定方法として、当該形態素の前後に連続する当該形態素と同一の品詞の形態素とするようにしてもよい。または、該当する日本語表記の全形態素に対してＤＰマッチングを行うことで、全形態素の対応をとることができる。

上記第１から第３の実施形態および変形例では、形態素表記が品詞情報を含んでいるが、品詞情報は、上記の例に限定されない。例えば、名詞や動詞などの大まかな分類、もしくは、固有名詞や自立動詞などの詳細な分類、もしくは、固有名詞でも地名、製品名といった、より詳細で意味に係るものを使用するようにしてもよい。また、種類が同一と判別する組み合わせを規定するようにしてもよい。詳細になるほど韻律情報の修正条件が厳しくなるので、韻律情報を引き継がせたい度合いに応じて修正を行うか否かを選択することが可能となり、韻律記号の修正の精度が向上する。

変更検索部１３が変更された形態素を検索する際には、ユーザが日本語表記を変更した前後の形態素の一部もしくは全てに対して、変更形態素を検索するようにしてもよい。これにより、効率的に変更形態素を検索し、計算速度の向上に寄与することができる。

アクセント強度の指定は、強弱などの他、言語処理の結果をそのまま使用する「指定なし」でもよい。テンプレートＤＢ１１７に登録されるテンプレートは、文単位のテンプレート以外に、アクセント句単位や、句読点などで区切られる呼気段落単位などのテンプレートでもよい。これにより、より合成音声の品質向上が期待される。

テンプレート更新部２０５は、例えば、中間表記の修正があるごとに、テンプレートを更新するようにしてもよい。また、ＤＢ登録部１０５、テンプレート更新部２０５は、例えば、ＧＵＩなどを用いたユーザによる手動の登録入力を受付けるようにしてもよい。

ここで、上記第１から第３の実施の形態および変形例による音声合成方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図１８は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図１８に示すように、コンピュータ３００は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）３０２、メモリ３０４、入力装置３０６、出力装置３０８、外部記憶装置３１２、媒体駆動装置３１４、ネットワーク接続装置等がバス３１０を介して接続されている。

ＣＰＵ３０２は、コンピュータ３００全体の動作を制御する演算処理装置である。メモリ３０４は、コンピュータ３００の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ３０４は、例えばＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）等である。入力装置３０６は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をＣＰＵ３０２に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置３０８は、コンピュータ３００による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、ＣＰＵ３０２により送付される表示データに応じてテキストや画像を表示する。

外部記憶装置３１２は、例えば、ハードディスクなどの記憶装置であり、ＣＰＵ３０２により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置３１４は、可搬記録媒体３１６に書き込みおよび読み出しを行うための装置である。ＣＰＵ３０２は、可搬記録媒体３１６に記録されている所定の制御プログラムを、記録媒体駆動装置３１４を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体３１６は、例えばＣｏｍｐａｃｔＤｉｓｃ（ＣＤ）−ＲＯＭ、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ（ＵＳＢ）メモリ等である。ネットワーク接続装置３１８は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。バス３１０は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。

上記第１から第３の実施の形態および変形例による音声合成方法をコンピュータに実行させるプログラムは、例えば外部記憶装置３１２に記憶させる。ＣＰＵ３０２は、外部記憶装置３１２からプログラムを読み出し、コンピュータ３００に音声合成の動作を行なわせる。このとき、まず、音声合成の処理をＣＰＵ３０２に行わせるための制御プログラムを作成して外部記憶装置３１２に記憶させておく。そして、入力装置３０６から所定の指示をＣＰＵ３０２に与えて、この制御プログラムを外部記憶装置３１２から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体３１６に記憶するようにしてもよい。また、例えばテンプレートＤＢ１１７は、ネットワーク接続装置３１８を介して接続される他のコンピュータなどの記憶装置に設けられるようにしてもよい。また、上記音声合成処理の少なくとも一部を、ネットワーク接続装置３１８を介して接続される他のコンピュータで行うことも可能である。

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
音声合成の対象とする自然言語の言語表記の入力を受付ける入力部と、
少なくとも前記自然言語の形態素に対応する読み、品詞、アクセント句、および前記アクセント句に関する韻律を含む情報が登録された辞書情報に基づき前記言語表記を解析し、前記言語表記に含まれる形態素と前記形態素に対応する品詞情報とを含む形態素表記、並びに、アクセント句のまとまりを示すアクセント句情報と前記アクセント句の韻律を示す韻律情報とを含む中間表記を生成する言語処理部と、
品詞情報とアクセント句情報とに関連付けて、韻律情報の修正内容を示す修正情報を記憶する記憶部と、
前記言語処理部により生成された品詞情報とアクセント句情報とに関連付けて、前記修正情報が前記記憶部に記憶されている場合に、前記言語処理部により生成された韻律情報を前記修正情報に基づき修正する修正部と、
前記修正部による修正を反映した韻律情報を含む中間表記に基づき前記言語表記に対応する音声を合成する音声合成部と、
を有することを特徴とする音声合成装置。
（付記２）
前記修正部は、前記言語処理部により生成されたアクセント句情報と、前記記憶部に記憶されたアクセント句情報とのそれぞれが示すアクセント句にそれぞれに含まれる品詞の数と種類が一致する場合に、修正を行う
ことを特徴とする付記１に記載の音声合成装置。
（付記３）
前記言語処理部により生成された韻律情報の修正を受付ける韻律修正受付部と、
前記修正後の韻律情報と前記言語処理部により生成された前記品詞情報および前記アクセント句情報の対応付を行う対応付け部と、
をさらに有し、
前記記憶部は、前記韻律修正受付部で受付けた修正の内容を示す修正情報を、対応付けられた前記品詞情報と前記アクセント句情報とに関連付けて記憶する
ことを特徴とする付記１または付記２に記載の音声合成装置。
（付記４）
前記音声合成の対象とする言語表記の変更を受け付ける言語変更受付部と、
前記変更に関連する形態素を検索する変更検索部と、
をさらに有し、
前記言語処理部は、変更後の言語表記を解析し、
前記修正部は、検索された前記変更に関連する形態素を含むアクセント句に対応する品詞情報に関連付けて前記修正情報が記憶されている場合に修正を行う
ことを特徴とする付記１から付記３のいずれかに記載の音声合成装置。
（付記５）
前記修正情報の登録を受付ける登録受付部
をさらに有し、
前記記憶部は、前記登録受付部で受付けた修正情報を登録する
ことを特徴とする付記１から付記４のいずれかに記載の音声合成装置。
（付記６）
音声合成装置が、
音声合成の対象とする自然言語の言語表記の入力を受付け、
少なくとも前記自然言語の形態素に対応する読み、品詞、アクセント句、および前記アクセント句に関する韻律を含む情報が登録された辞書情報に基づき前記言語表記を解析し、前記言語表記に含まれる形態素と前記形態素に対応する品詞情報とを含む形態素表記、並びに、アクセント句のまとまりを示すアクセント句情報と前記アクセント句の韻律を示す韻律情報とを含む中間表記を生成し、
生成された前記品詞情報と前記アクセント句情報とに関連付けて、前記韻律情報の修正内容を示す修正情報が記憶部に記憶されている場合に、生成された前記韻律情報を前記修正情報に基づき修正し、
前記修正を反映した韻律情報を含む中間表記に基づき前記言語表記に対応する音声を合成する、
ことを特徴とする音声合成方法。
（付記７）
前記修正する処理においては、前記生成されたアクセント句情報と、前記記憶部に記憶されたアクセント句情報とのそれぞれが示すアクセント句にそれぞれに含まれる品詞の数と種類が一致する場合に、修正を行う
ことを特徴とする付記７に記載の音声合成方法。
（付記８）
さらに、
前記生成された韻律情報の修正を受付け、
前記修正後の韻律情報と前記生成された品詞情報およびアクセント句情報の対応付けを行い、受付けた前記修正の内容を示す修正情報を、対応付けられた前記品詞情報と前記アクセント句情報とに関連付けて記憶する
ことを特徴とする付記６または付記７に記載の音声合成方法。
（付記９）
さらに、
前記音声合成の対象とする言語表記の変更を受け付け、
前記変更後の言語表記を解析して、前記変更に関連する形態素を検索し、
検索された前記変更に関連する形態素を含むアクセント句に対応する品詞情報に関連付けて前記修正情報が記憶されている場合に修正を行う
ことを特徴とする付記６から付記８のいずれかに記載の音声合成方法。
（付記１０）
前記修正情報の登録を受付け、受付けた修正情報を前記記憶部に記憶させる
ことを特徴とする付記６から付記９のいずれかに記載の音声合成方法。
（付記１１）
音声合成の対象とする自然言語の言語表記の入力を受付け、
少なくとも前記自然言語の形態素に対応する読み、品詞、アクセント句、および前記アクセント句に関する韻律を含む情報が登録された辞書情報に基づき前記言語表記を解析し、前記言語表記に含まれる形態素と前記形態素に対応する品詞情報とを含む形態素表記、並びに、アクセント句のまとまりを示すアクセント句情報と前記アクセント句の韻律を示す韻律情報とを含む中間表記を生成し、
生成された前記品詞情報と前記アクセント句情報とに関連付けて、前記韻律情報の修正内容を示す修正情報が記憶部に記憶されている場合に、生成された前記韻律情報を前記修正情報に基づき修正し、
前記修正を反映した韻律情報を含む中間表記に基づき前記言語表記に対応する音声を合成する、
処理をコンピュータに実行させるプログラム。
（付記１２）
前記修正する処理においては、前記生成されたアクセント句情報と、前記記憶部に記憶されたアクセント句情報とのそれぞれが示すアクセント句にそれぞれに含まれる品詞の数と種類が一致する場合に、修正を行う
ことを特徴とする付記１１に記載のプログラム。
（付記１３）
さらに、
前記生成された韻律情報の修正を受付け、
前記修正後の韻律情報と前記生成された品詞情報およびアクセント句情報の対応付けを行い、受付けた前記修正の内容を示す修正情報を、対応付けられた前記品詞情報と前記アクセント句情報とに関連付けて記憶する
ことを特徴とする付記１１または付記１２に記載のプログラム。
（付記１４）
さらに、
前記音声合成の対象とする言語表記の変更を受け付け、
前記変更後の言語表記を解析して、前記変更に関連する形態素を検索し、
検索された前記変更に関連する形態素を含むアクセント句に対応する品詞情報に関連付けて前記修正情報が記憶されている場合に修正を行う
ことを特徴とする付記１１から付記１３のいずれかに記載のプログラム。
（付記１５）
前記修正情報の登録を受付け、受付けた修正情報を前記記憶部に記憶させる
ことを特徴とする付記１１から付記１４のいずれかに記載のプログラム。

１音声合成装置
３制御部
５入出力部
７言語処理部
９音声合成部
１１中間表記修正部
１３変更検索部
１５形態素対応付け部
１７修正判定部
１９韻律修正部
２１記憶部
４１、４７日本語表記
４２、４８形態素区切り情報
４３、４５、４９、５９、６６韻律情報
５１、５７品詞情報
５２、５８形態素表記
５３、６２変更形態素表記
５４、６０アクセント句情報
５５、６１、６７中間表記
５６対応情報
６３変更情報
６４修正判別情報
６５修正参照情報

Claims

音声合成の対象とする自然言語の言語表記の入力を受付ける入力部と、
少なくとも前記自然言語の形態素に対応する読み、品詞、アクセント句、および前記アクセント句に関する韻律を含む情報が登録された辞書情報に基づき前記言語表記を解析し、前記言語表記に含まれる形態素と前記形態素に対応する品詞情報とを含む形態素表記、並びに、アクセント句のまとまりを示すアクセント句情報と前記アクセント句の韻律を示す韻律情報とを含む中間表記を生成する言語処理部と、
品詞情報とアクセント句情報とに関連付けて、韻律情報の修正内容を示す修正情報を記憶する記憶部と、
前記言語処理部により生成された品詞情報とアクセント句情報とに関連付けて、前記修正情報が前記記憶部に記憶されている場合に、前記言語処理部により生成された韻律情報を前記修正情報に基づき修正する修正部と、
前記修正部による修正を反映した韻律情報を含む中間表記に基づき前記言語表記に対応する音声を合成する音声合成部と、
を有することを特徴とする音声合成装置。
前記修正部は、前記言語処理部により生成されたアクセント句情報と、前記記憶部に記憶されたアクセント句情報とのそれぞれが示すアクセント句にそれぞれに含まれる品詞の数と種類が一致する場合に、修正を行う
ことを特徴とする請求項１に記載の音声合成装置。
前記言語処理部により生成された韻律情報の修正を受付ける韻律修正受付部と、
前記修正後の韻律情報と前記言語処理部により生成された前記品詞情報および前記アクセント句情報の対応付を行う対応付け部と、
をさらに有し、
前記記憶部は、前記韻律修正受付部で受付けた修正の内容を示す修正情報を、対応付けられた前記品詞情報と前記アクセント句情報とに関連付けて記憶する
ことを特徴とする請求項１または請求項２に記載の音声合成装置。
前記音声合成の対象とする言語表記の変更を受け付ける言語変更受付部と、
前記変更に関連する形態素を検索する変更検索部と、
をさらに有し、
前記言語処理部は、変更後の言語表記を解析し、
前記修正部は、検索された前記変更に関連する形態素を含むアクセント句に対応する品詞情報に関連付けて前記修正情報が記憶されている場合に修正を行う
ことを特徴とする請求項１から請求項３のいずれかに記載の音声合成装置。
前記修正情報の登録を受付ける登録受付部
をさらに有し、
前記記憶部は、前記登録受付部で受付けた修正情報を登録する
ことを特徴とする請求項１から請求項４のいずれかに記載の音声合成装置。
音声合成装置が、
音声合成の対象とする自然言語の言語表記の入力を受付け、
少なくとも前記自然言語の形態素に対応する読み、品詞、アクセント句、および前記アクセント句に関する韻律を含む情報が登録された辞書情報に基づき前記言語表記を解析し、前記言語表記に含まれる形態素と前記形態素に対応する品詞情報とを含む形態素表記、並びに、アクセント句のまとまりを示すアクセント句情報と前記アクセント句の韻律を示す韻律情報とを含む中間表記を生成し、
生成された前記品詞情報と前記アクセント句情報とに関連付けて、前記韻律情報の修正内容を示す修正情報が記憶部に記憶されている場合に、生成された前記韻律情報を前記修正情報に基づき修正し、
前記修正を反映した韻律情報を含む中間表記に基づき前記言語表記に対応する音声を合成する、
ことを特徴とする音声合成方法。
音声合成の対象とする自然言語の言語表記の入力を受付け、
少なくとも前記自然言語の形態素に対応する読み、品詞、アクセント句、および前記アクセント句に関する韻律を含む情報が登録された辞書情報に基づき前記言語表記を解析し、前記言語表記に含まれる形態素と前記形態素に対応する品詞情報とを含む形態素表記、並びに、アクセント句のまとまりを示すアクセント句情報と前記アクセント句の韻律を示す韻律情報とを含む中間表記を生成し、
生成された前記品詞情報と前記アクセント句情報とに関連付けて、前記韻律情報の修正内容を示す修正情報が記憶部に記憶されている場合に、生成された前記韻律情報を前記修正情報に基づき修正し、
前記修正を反映した韻律情報を含む中間表記に基づき前記言語表記に対応する音声を合成する、
処理をコンピュータに実行させるプログラム。