JP6232724B2

JP6232724B2 - 音声合成装置及び言語辞書登録方法

Info

Publication number: JP6232724B2
Application number: JP2013072559A
Authority: JP
Inventors: 野田　拓也; 拓也野田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2017-11-22
Anticipated expiration: 2033-03-29
Also published as: JP2014197117A

Description

本発明は、例えば、テキストデータから音声信号を合成する音声合成装置及びその音声合成装置で利用される言語辞書の登録方法に関する。

近年、音声を自動合成する音声合成技術が開発されている。音声合成技術は、短時間で所望の音声を作成できるというメリットを有するため、これまで予め録音されたプロのナレータによる音声を用いていたアプリケーションの中には、このような音声合成技術を採用したものもある。特に、商業施設における案内放送、ハイウェイラジオ、ハイウェイテレホンまたは天気予報の放送など、短い時間間隔で提供する情報が更新されるアプリケーションでは、上記のメリットを持つ音声合成技術が有用である。

合成したい音声信号を生成するために、音声合成装置には、例えば、キーボードなどを介して漢字仮名交じりのテキストデータが入力される。そして音声合成装置は、そのテキストデータに対して、単語の読みなどを登録した言語辞書を利用して、形態素解析または係り受け解析といった言語処理を行う。そして音声合成装置は、その言語処理によって、形態素単位の読み表記を表す形態素情報と、その形態素情報にアクセント位置、アクセントの強弱あるいは抑揚の大小といった韻律を表す韻律記号を付した中間表記を生成する。そして音声合成装置は、その中間表記に基づいて、合成音声信号を生成する。

漢字には、複数の読み方があり、また、単語によってその単語に含まれる漢字の読み方は異なる。また、日常で使用される単語は日々変化するので、全ての単語を予め言語辞書に登録することは事実上不可能であり、入力されたテキストデータに、言語辞書に登録されていない単語が含まれていることもある。そのため、言語処理の結果得られる中間表記が正確でないこともある。このような場合、正しい合成音声信号を得るために、ユーザが手動で中間表記を修正する必要がある。このような修正作業は、ユーザにとって煩雑であるため、できるだけこのような修正作業が発生しないことが好ましい。そこで、入力テキストデータの終端に至った際にいままで抽出された未知語を一括してユーザに伝え、その未知語とユーザにより入力されたその未知語についての情報を単語辞書に登録する技術が提案されている（例えば、特許文献１を参照）。また、言語解析結果のうちの第１候補の言語解析結果の中に記憶された置換条件と一致する部分が存在する場合、その一致部分を置換条件に対応する置換情報に置き換えて新たな言語解析結果を生成する技術が提案されている（例えば、特許文献２を参照）。この技術では、新たな言語解析結果と同じものが第１候補以外の言語解析結果として存在している場合には、新たな言語解析結果に基づいて合成音声が生成される。

上記の技術では、未知語として登録された単語または置換条件に合致する単語がテキストデータに含まれると、その登録された単語または置換条件にしたがって中間表記が生成されることになる。しかし、単語自体も、その単語の前後の文章などによって異なる読み方がなされたり、異なる韻律で発声されることがある。このような場合、上記の技術では、必ずしも適切な中間表記が生成されないおそれがある。そこで、読み上げ対象の文書の中間言語を編集する際に、修正対象の語句の指定と、修正反映の条件指定とを修正指示に含めるようにした技術が提案されている（例えば、特許文献３を参照）。この技術では、修正反映の条件として、例えば、関連単語・フレーズが指定される。

特開平７−２４４４９１号公報特開平１０−３１２３７７号公報特開２００６−３０３２６号公報

しかしながら、特許文献３に開示された技術でも、修正反映の条件が適切に指定されなければ、適切な中間言語が生成されないおそれがある。そして、全ての場合を予め考慮して、修正反映の条件を決定することは困難である。

そこで本明細書は、一つの側面として、異なる複数の読みまたは韻律がある単語が含まれるテキストに対しても適切な合成音声信号を生成できる音声合成装置を提供することを目的とする。

一つの実施形態によれば、テキストデータから生成した、テキストデータの読み及び韻律を表す韻律記号を含む中間表記に基づいて合成音声信号を生成する音声合成装置が提供される。この音声合成装置は、テキストデータを取得する入力部と、少なくとも単語の漢字仮名表記とその単語の読み及び韻律記号を含む中間表記とが登録され、テキストデータから中間表記を生成するために利用される言語辞書を記憶する記憶部と、中間表記が修正された修正後中間表記における修正範囲に含まれる単語が所定の品詞である場合、その修正範囲に含まれる単語の前後に連続する、その単語の品詞と同じ品詞の単語まで含むように、言語辞書に登録する登録範囲を拡張する登録範囲設定部と、修正後中間表記中の登録範囲に含まれる部分を一つの単語として、少なくともその単語の漢字仮名表記と中間表記とを言語辞書に登録する登録部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された音声合成装置は、異なる複数の読みまたは韻律がある単語が含まれるテキストに対しても適切な合成音声信号を生成できる。

テキストデータに対して誤って生成された中間表記の一例を示す図である。一つの実施形態による音声合成装置の概略構成図である。一つの実施形態による音声合成装置が有する処理部の機能ブロック図である。言語処理部により出力された中間表記と、ユーザにより修正された中間表記の一例を示す図である。図４の中間表記に対応する、ユーザ修正前の形態素読み表記とユーザ修正後の形態素読み表記を表す図である。ユーザが修正する前の形態素読み表記とユーザが修正した後の形態素読み表記の他の一例を示す図である。形態素情報設定処理の動作フローチャートである。ユーザ修正の前後のそれぞれの中間表記と、ユーザ修正後の形態素読み表記との関係の一例を示す図である。ユーザ修正の前後のそれぞれの中間表記と、設定される修正範囲との関係の一例を示す図である。ユーザ修正の前後の中間表記と登録範囲の関係の一例を示す図である。登録範囲設定処理の動作フローチャートを示す図である。辞書登録処理の動作フローチャートである。ユーザ辞書に登録された単語と中間表記辞書に登録された単語の一例を示す図である。辞書選択処理の動作フローチャートである。

以下、図を参照しつつ、様々な実施形態による音声合成装置について説明する。
最初に、図１を参照しつつ、音声合成の対象として入力されたテキストデータに対して誤って生成される中間表記の例を説明する。

テキストデータとして、「この羊羹最中は美しく・・・」という漢字仮名交じり文１００と、「創意工夫しながら・・・」という漢字仮名交じり文１１０が入力されたとする。そして、漢字仮名交じり文１００に対して「ヨーカンサ’イチューワ・・・」という中間表記１０１が生成され、漢字仮名交じり文１１０に対して「ソ−イク’フー」という中間表記１１１が生成されている。中間表記中の記号は「’」は、「アクセント強」を表す韻律記号である。なお、韻律記号自体は規格で定められているものではないので、特定の韻律を表す韻律記号として、本明細書で使用した韻律記号以外の記号が使用されてもよい。

この例では、中間表記１０１において「最中」に相当する部分の読みがを誤って「サ’イチュー」と表記されている。そのため、ユーザが修正した中間表記１０２に示されるように、「サ’イチュー」が「モ’ナカ」と修正されている。ここで、言語辞書に単語「最中」が登録されていると、音声合成装置が、例えば、動的計画法に基づくマッチングなどの技術を用いて修正範囲を自動抽出した場合、自動抽出される範囲は言語辞書に登録されている単語である「最中」となる。そのため、ユーザがした修正を言語辞書に反映させると、それ以降、単語「最中」を含むテキストデータが入力されたときに、その単語「最中」の中間表記が常に「モ’ナカ」となるおそれがある。例えば、「遊びの最中に・・・」といった文章では、単語「最中」の中間表記は、「モ’ナカ」ではなく、「サ’イチュー」とすべきである。このように、複数の読み方がある単語では、ユーザによる読みの修正を反映することで、逆に誤った中間表示の生成に結び付くおそれがある。このような誤りを防ぐためには、ユーザは、「羊羹最中」自体を複合名詞として言語辞書に登録する必要がある。しかしながら、音声合成に関する専門知識が無いユーザが、適切にこのような判断を行うことは難しい。また、ユーザが音声合成に関する専門知識を有する場合でも、言語辞書に登録すべき単語の設定を誤ってしまうこともある。

また、中間表記１１１では、読みは正しいものの、アクセントと区切りの位置が誤っている。そこで、中間表記１１２に示されるように、ユーザがアクセントの位置を修正し、区切りを表す韻律記号「＝」を追加して「ソ’−イ＝クフー」と修正したとする。その際、修正された箇所が韻律記号だけだと、修正の前後で各単語の読みに変化がないので、音声合成装置は、修正すべき範囲を特定できないおそれがある。この場合、ユーザが修正すべき範囲を、複合名詞「創意工夫」として指定することも考えられる。そして、言語辞書にその複合名詞を登録するために、「創意工夫」の品詞も指定することになる。ここで、単語「創意」は普通名詞であり、「工夫」はサ変名詞であるが、単語「工夫」が複合名詞中の最後尾に位置するので、ユーザは「創意工夫」の品詞もサ変名詞とすべきである。しかし、そのような専門知識を有さないユーザは、複合名詞「創意工夫」の正確な品詞が分からず、複合名詞「創意工夫」を普通名詞としてしまうこともある。そうすると、他のテキストデータにおいて、「創意工夫して」のように、その複合名詞「創意工夫」が動詞「する」とともに含まれていたとしても、「創意工夫」はサ変名詞として登録されていないので、サ変名詞と接続し易いサ変動詞「して」との接続で採用されず、その結果、元通り、普通名詞「創意」とサ変名詞「工夫」が採用されることになり、ユーザによるアクセント位置などの修正が中間表記に反映されなくなってしまう。

上記のような問題を解決するためには、音声合成装置には、ユーザが修正を加えた範囲を適正化した上で、その修正にかかわる単語の品詞及び単語の登録範囲を適切に決定することが求められる。そこで、本実施形態による音声合成装置は、ユーザによる修正前後の中間表記を比較して、形態素単位で一致する部分及び不一致の部分を特定し、その一致・不一致の情報に基づいて、修正後の中間表記に含まれる各形態素の品詞情報を設定する。そしてこの音声合成装置は、ユーザによる修正前後の中間表記を品詞単位でマッチング処理することで、不一致部分を含む品詞全体を修正範囲全体に設定する。そしてこの音声合成装置は、修正範囲となる品詞が名詞であれば、修正範囲とその前後で連続する名詞の並び全体を、ユーザの修正を反映する単語の登録範囲とする。またこの音声合成装置は、修正範囲となる品詞が活用自立語の語幹であれば、その語幹から同じ品詞の後置活用語尾までを、ユーザの修正を反映する単語の登録範囲とする。

図２は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置１は、入力部２と、記憶部３と、処理部４と、出力部５とを有する。

入力部２は、合成音声の原文であり、漢字仮名交じり文であるテキストデータを取得する。そのために、入力部２は、例えば、キーボードを有する。また、入力部２は、マウスなどのポインティングデバイスとそのポインティングデバイスにより指示される入力すべき文字または数値などを表示するディスプレイとを有する。あるいは、入力部２は、タッチパネルディスプレイを有してもよい。
さらにまた、入力部２は、テキストデータを通信ネットワークを介して音声合成装置１と接続された他の機器から取得してもよい。この場合、入力部２は、音声合成装置１を通信ネットワークに接続するためのインターフェース回路を有する。
そして入力部２は、入力されたテキストデータを処理部４へ渡す。

記憶部３は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部３は、処理部４で用いられる各種コンピュータプログラム及び音声合成処理に用いられる各種のデータを記憶する。
記憶部３は、音声合成処理に用いられるデータとして、例えば、韻律モデルと、音声波形辞書を記憶する。さらに記憶部３は、言語処理に用いられるデータとして、テキストデータ中に出現すると想定される様々な単語について、その単語の漢字仮名表記、中間表記、品詞及び活用形などを格納した言語辞書を記憶する。さらに記憶部３は、ユーザにより登録された単語について、その単語の漢字仮名表記、中間表記、品詞及び活用形などを格納したユーザ辞書を記憶する。なお、ユーザ辞書も、言語辞書の一例である。

出力部５は、処理部４から受け取った合成音声信号をスピーカ６へ出力する。そのために、出力部５は、例えば、スピーカ６を音声合成装置１と接続するためのオーディオインターフェース回路を有する。
また出力部５は、合成音声信号を、通信ネットワークを介して音声合成装置１と接続された他の装置へ出力してもよい。この場合、出力部５は、その通信ネットワークに音声合成装置１と接続するためのインターフェース回路を有する。なお、入力部２も通信ネットワークを介してテキストデータを取得する場合、入力部２と出力部５は一体化されていてもよい。

処理部４は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部４は、入力されたテキストデータに基づいて、合成音声信号を作成する。
図３は、処理部４の機能ブロック図である。処理部４は、言語処理部１０と、音声合成部１１と、辞書登録部１２とを有する。
処理部４が有するこれらの各部は、例えば、処理部４が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部４が有するこれらの各部は、その各部の機能を実現する一つの集積回路として音声合成装置１に実装されてもよい。

言語処理部１０は、入力された、漢字仮名交じり文であるテキストデータから形態素読み表記を生成するとともに、そのテキストデータに含まれる各形態素情報を特定する。さらに、言語処理部１０は、入力されたテキストデータから、中間表記及びそのテキストデータに含まれる各品詞の情報を特定する。ここで、形態素読み表記とは、形態素単位の読み表記を表し、例えば、カタカナで表される。また、中間表記とは、形態素読み表記に、韻律を表す韻律記号が追加されたものである。韻律記号には、例えば、「アクセント位置」、「アクセント強弱」、「音程高低」、「抑揚大小」、「話速緩急」、「音量大小」及び「区切り」を表現する記号が含まれる。したがって、中間表記から韻律記号を除いたものは、形態素読み表記と一致する。また、中間表記から韻律記号を除いたものにおける、各品詞の情報は、形態素情報と１対１に対応する。すなわち、中間表記と品詞情報から、形態素読み表記と形態素情報が抽出される。

言語処理部１０は、入力されたテキストデータから形態素読み表記及び中間表記などを生成するために、記憶部３に記憶されている言語辞書及びユーザ辞書を読み込む。そして言語処理部１０は、例えば、その言語辞書及びユーザ辞書を用いて、テキストデータに対して形態素解析及び係り受け解析を行って、テキストデータ中に出現する各単語の順序及び読み、アクセントの位置及び区切りの位置を決定する。その際、言語処理部１０は、テキストデータ中に言語辞書とユーザ辞書の両方に登録されている単語がある場合、ユーザ辞書に登録されている単語を優先的に利用してもよい。

言語処理部１０は、形態素解析として、例えば、動的計画法を用いる方法を利用できる。また言語処理部１０は、係り受け解析として、例えば、先読みＬＲパーザまたはＬＬ法といった構文解析の手法を利用できる。そして言語処理部１０は、各単語の順序、読み、アクセントの位置及び区切りの位置に応じて形態素読み表記及び中間表記を作成する。
言語処理部１０は、生成した形態素読み表記及び中間表記などを記憶部３に一時的に記憶する。

音声合成部１１は、入力されたテキストデータの中間表記に基づいて合成音声信号を作成する。

音声合成部１１は、中間表記に基づいて、合成音声信号を生成する際の目標韻律を生成する。そのために、音声合成部１１は、記憶部３から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして音声合成部１１は、複数の韻律モデルのうち、中間表記に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして音声合成部１１は、選択した韻律モデル及び合成パラメータに従って、中間表記に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。

音声合成部１１は、生成した目標韻律に従って、例えば、HMM(Hidden Markov Model)合成方式、音素接続方式またはコーパスベース方式によって合成音声信号を作成する。
例えば、音声合成部１１は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部１１は、記憶部３から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、一人以上のナレータが様々なテキストを読み上げた様々な音声を録音した音声信号から、音素単位で取り出された波形信号である。
さらに、音声合成部１１は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部１１は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。

音声合成部１１は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部３から読み込む。そして音声合成部１１は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部１１は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成する。
音声合成部１１は、合成音声信号を出力部５へ出力する。

辞書登録部１２は、言語処理部１０が生成した中間表記をユーザが修正したときに、その修正内容をユーザ辞書に登録する。そのために、辞書登録部１２は、編集部２１と、形態素情報設定部２２と、品詞情報設定部２３と、修正範囲設定部２４と、登録範囲設定部２５と、登録部２６とを有する。

処理部４は、入力部２から中間表記の編集を行うことを示す操作信号を受け取ると、編集部２１を起動する。

編集部２１は、例えば、編集対象となる中間表記を、対応するテキストデータとともに入力部２が有するディスプレイに表示させる。
そして編集部２１は、入力部２のキーボード等から編集対象の中間表記の一部、例えば、一部の単語の読みまたはアクセントの位置などを修正する操作信号を受け取ると、その操作信号に従って、中間表記を修正する。そして編集部２１は、修正された中間表記を記憶部３に一時的に記憶する。

なお、音声合成に対する専門知識が無いユーザでも、中間表記を修正できるように、編集部２１は、入力部２が有するディスプレイに、韻律記号を日本語で表示させたり、各形態素の形態素情報を表示させてもよい。またユーザが、例えば、入力部２が有するマウスなどを介して修正する韻律記号を選択したり、韻律記号を追加する位置を指定すると、編集部２１は、例えば、プルダウンメニューなどで、選択可能な韻律記号を表す日本語表記をディスプレイに表示させる。そして編集部２１は、マウスなどを介して選択された日本語表記に対応する韻律記号で、中間表記の指定された位置の韻律記号を置換したり、選択された日本語表記に対応する韻律記号をその指定された位置に自動的に追加する。
また編集部２１は、ユーザが自分で修正した内容を把握できるようにするために、修正後の中間表記をディスプレイに表記させてもよい。さらに、編集部２１は、修正後の中間表記を音声合成部１１に入力することにより、修正後の中間表記に対して実際に生成される合成音声をスピーカ６から出力させることで、ユーザに修正内容を確認させてもよい。

図４は、言語処理部１０により出力された中間表記と、ユーザにより修正された中間表記の一例を示す図である。文字列４０１及び４０２は、それぞれ、入力されたテキストデータから言語処理部１０が生成した形態素読み表記及び中間表記を表す。この例では、形態素読み表記４０１中に、６個の形態素「ヨーカン」（普通名詞）、「サイチュー」（普通名詞）、「ワ」（助詞）、「ウツクシ」（形容詞（語幹））、「ク」（形容詞（活用語尾））及び「，」（記号（読点））が含まれている。そして形態素読み表記４０１に対応する中間表記４０２では、上記の６個の形態素に対応する６個の品詞の他、助詞「ワ」と形容詞「ウツクシ」の間に挿入された、区切りを表す句の記号「＝」が含まれている。

また、文字列４０３は、ユーザが修正した後の中間表記を表す。中間表記４０３では、修正前の中間表記４０２の２番目の品詞「サ’イチュー」が、「モ＊ナカ」に変更されている。さらに、５番目の品詞「ウツクシ％’」が、「ウツク’シ％」に変更されている。なお、中間表記４０２、４０３に含まれる記号「’」、「＊」、「％」などは、韻律記号である。こことでは、韻律記号「’」は、「アクセント強」を表し、韻律記号「＊」は、「アクセント弱」を表す。なお、中間表記４０３では、ユーザは個々の品詞を指定していないので、ユーザが中間表記を修正した時点では、中間表記４０３に含まれる個々の品詞及び各品詞に相当する中間表記の範囲は不明である。

形態素情報設定部２２は、ユーザが修正した後の中間表記に含まれる各形態素の情報を設定する。そのために、形態素情報設定部２２は、ユーザが修正する前の中間表記と、ユーザが修正した後の中間表記を記憶部３から読み込む。そして形態素情報設定部２２は、ユーザが修正した後の中間表記から韻律記号を除去することで、ユーザが修正した後の中間表記に対応する修正後形態素読み表記を生成する。

図５は、図４の中間表記に対応する、ユーザ修正前の形態素読み表記とユーザ修正後の形態素読み表記を表す図である。図５に示されたユーザ修正前の形態素読み表記５０１は、図４に示された形態素読み表記４０１と同一である。また、ユーザ修正後の形態素読み表記５０２は、図４に示されたユーザ修正後の中間表記４０３から、韻律記号を除去したものである。形態素読み表記５０１と形態素読み表記５０２を比較すると、修正前の形態素「サイチュー」と、修正後の形態素読み表記中の「モナカ」が一致しないことが分かる。

この不一致部分を見つけるために、形態素情報設定部２２は、ユーザ修正後の形態素読み表記とユーザ修正前の形態素読み表記との間で、例えば、動的計画法を用いたマッチング処理（ＤＰマッチング）を実行する。そして形態素情報設定部２２は、ユーザ修正後の形態素読み表記とユーザ修正前の形態素読み表記との間で、形態素単位で一致する部分と一致しない部分を特定する。そして形態素情報設定部２２は、ユーザ修正後の形態素読み表記中で、ユーザ修正前の形態素と一致する部分を、そのユーザ修正前の形態素と同一の種別の形態素とする。また、形態素情報設定部２２は、ユーザ修正後の形態素読み表記中で、ユーザ修正前の形態素と一致しない部分が、ユーザ修正前の一形態素に相当する場合も、その一致しない部分を、対応するユーザ修正前の形態素と同じ種別の形態素とする。すなわち、形態素情報設定部２２は、ユーザ修正前の形態素に１対１に対応する部分がユーザ修正後の形態素読み表記中に含まれる限り、その部分を、対応するユーザ修正前の形態素と同じ種別の形態素に設定する。

図５では、ユーザ修正後の形態素読み表記５０２中の「ヨーカン」、「モナカ」、「ワ」、「ウツクシ」、「ク」、「，」が、それぞれ、ユーザ修正前の形態素読み表記５０１中の各形態素「ヨーカン」、「サイチュー」、「ワ」、「ウツクシ」、「ク」、「，」に対応する。したがって、ユーザ修正後の形態素読み表記５０２中の「ヨーカン」、「モナカ」、「ワ」、「ウツクシ」、「ク」、「，」が、それぞれ、ユーザ修正前の対応する形態素と同じ種別の形態素に設定される。例えば、「ヨーカン」は普通名詞となり、「ウツクシ」は形容詞の語幹となる。また、「モナカ」と一致する形態素は、ユーザ修正前の形態素読み表記５０１には含まれないが、「モナカ」の前後の表記により、「モナカ」が形態素「サイチュー」に対して１対１に対応することが分かる。そこで、形態素情報設定部２２は、「モナカ」の品詞を形態素「サイチュー」と同じ普通名詞とする。

しかし、ユーザ修正後の形態素読み表記のうち、ユーザ修正前の形態素読み表記と一致しない部分に、ユーザ修正前の形態素中の複数の形態素が対応することがある。この場合、形態素情報設定部２２は、その一致しない部分に対応する複数の形態素を、連続する同一種別の形態素ごとにグループ化する。ただし、本実施形態では、形態素情報設定部２２は、その形態素が名詞である場合には、普通名詞、サ変名詞といった名詞の分類は無視して同一種別の形態素として扱う。例えば、不一致部分に、普通名詞「ソーイ」とサ変名詞「クフー」が連続して含まれている場合、形態素情報設定部２２は、その二つの名詞「ソーイ」、「クフー」をまとめた「ソーイクフー」を一つのグループとする。

一致しない部分に対応する、グループに含まれる形態素が一つである場合は、上記の一つの形態素のみが対応する場合と同様に、修正の前後で１対１に対応している。そこで形態素情報設定部２２は、ユーザ修正後の形態素読み表記中のその不一致部分の形態素を、対応する形態素のグループと同じ種別の形態素とする。

一方、一致しない部分に対応するグループに複数の形態素が含まれる場合、その形態素のグループが名詞でなければ、形態素情報設定部２２は、そのグループの形態素の種別を、そのままユーザ修正後の不一致部分の形態素の種別とする。これは、以下の理由による。
通常、形態素のグループが名詞でない場合、その形態素のグループの形態素の種別は、非活用自立語、活用自立語、付属語に大別されるが、いずれも中間表記の読み修正がほぼ発生しない。極稀に、動詞「通った(とおった、かよった)」、「行った(いった、おこなった)」などの同表記異読語が存在するが、形態素単位では、語幹部分のみが読み修正の対象となり、活用語尾には読み修正が発生しない。すなわち、活用語尾は形態素単位で必ず一致する。このことから、事実上、グループに複数の形態素が含まれるケースは、その形態素が名詞である場合以外にない。したがって、複数形態素で構成されるグループとしては、名詞のみが考慮されればよい。

一つの実施例として、形態素のグループが複数の形態素で構成される場合、不一致部分に対する形態素の種別の設定は、以下の三つのケースに分類される。
（ケース１）形態素のグループに含まれる複数の形態素が全て普通名詞である場合
例えば、グループに含まれる形態素が「羊羹」「最中」である場合がケース１に相当する。この場合、形態素情報設定部２２は、その複数の形態素を一つの形態素に統合し、すなわち、複合名詞化する。そして形態素情報設定部２２は、不一致部分の形態素の種別を「普通名詞」に設定する。
（ケース２）形態素のグループに含まれる複数の形態素のうちの最後の形態素がサ変名詞（例えば）である場合
例えば、グループに含まれる形態素が「創意」「工夫」である場合がケース２に相当する。この場合、形態素情報設定部２２は、その複数の形態素を一つの形態素に統合し、すなわち、複合名詞化する。そして形態素情報設定部２２は、不一致部分の形態素の種別を「サ変名詞」に設定する。
（ケース３）形態素のグループに含まれる複数の形態素の種別が上記のケース以外の場合
この場合、形態素情報設定部２２は、その複数の形態素を一つの形態素に統合し、すなわち、複合名詞化する。そして形態素情報設定部２２は、不一致部分の形態素の種別を「固有名詞」に設定する。一般に、読み誤りは固有名詞(人名、地名など)に多く、確率上、固有名詞で定義することが好ましい。

図６は、ユーザが修正する前の形態素読み表記とユーザが修正した後の形態素読み表記の他の一例を示す図である。この例では、入力されたテキストデータ「ＩａａＳは、」に対する言語処理の結果、ユーザ修正前の形態素読み表記６０１は、６個の形態素の集合となっている。具体的には、形態素読み表記６０１には、形態素「アイ」（普通名詞）、「エー」（普通名詞）、「エー」（普通名詞）、「エス」（普通名詞）、「ワ」（助詞）、「，」（読点）が含まれる。一方、ユーザ修正後の形態素読み表記６０２は、「イアースワ，」となっている。そのため、形態素情報設定部２２は、ユーザ修正後の形態素読み表記６０２中の不一致部分「イアース」に、ユーザ修正前の形態素読み表記６０１中の４個の形態素「アイ」、「エー」、「エー」、「エス」が対応していることが分かる。この４個の形態素は、すべて名詞であるため、一つの形態素のグループに含まれる。さらに、この４個の形態素の名詞の種別は全て普通名詞であるため、図６の例は、上記のケース１に該当する。そのため、形態素情報設定部２２は、形態素読み表記６０３に示されるように、この４個の形態素を一つの形態素に統合し、ユーザ修正後の形態素読み表記中の対応する不一致部分の形態素の種別を普通名詞とする。

図７は、形態素情報設定部２２により実行される形態素情報設定処理の動作フローチャートである。
形態素情報設定部２２は、修正後の中間表記から修正後の形態素読み表記を導出する（ステップＳ１０１）。そして形態素情報設定部２２は、修正前後の形態素読み表記間のマッチングにより一致部分及び不一致部分を特定する（ステップＳ１０２）。

形態素情報設定部２２は、修正後の形態素読み表記中の一致部分に修正前の形態素読み表記中の対応する形態素の範囲及び種別を設定する（ステップＳ１０３）。
一方、形態素情報設定部２２は、修正後の形態素読み表記中の不一致部分に対応する形態素は一つか否か判定する（ステップＳ１０４）。
不一致部分に対応する形態素が一つである場合（ステップＳ１０４−Ｙｅｓ）、形態素情報設定部２２は、不一致部分に修正前の形態素読み表記中の対応する形態素の範囲及び種別を設定する（ステップＳ１０５）。一方、不一致部分に対応する形態素が複数である場合（ステップＳ１０４−ｎｏ）、形態素情報設定部２２は、修正前の形態素読み表記中の不一致部分を連続する同一種別の形態素ごとにグループ化する（ステップＳ１０６）。そして形態素情報設定部２２は、グループに含まれる形態素は一つか否か判定する（ステップＳ１０７）。グループに含まれる形態素が一つである場合（ステップＳ１０７−Ｙｅｓ）、形態素情報設定部２２は、不一致部分に修正前の形態素読み表記中の対応する形態素の範囲及び種別を設定する（ステップＳ１０５）。一方、グループに含まれる形態素が一つでない場合（ステップＳ１０７−ｎｏ）、形態素情報設定部２２は、グループに含まれる形態素が全て普通名詞か否か判定する（ステップＳ１０８）。

グループに含まれる形態素が全て普通名詞である場合（ステップＳ１０８−Ｙｅｓ）、形態素情報設定部２２は、修正後の形態素読み表記中の不一致部分全体を一つの普通名詞に設定する（ステップＳ１０９）。一方、グループに含まれる形態素の何れかが普通名詞でない場合（ステップＳ１０８−ｎｏ）、形態素情報設定部２２は、グループに含まれる最後の形態素がサ変名詞か否か判定する（ステップＳ１１０）。グループに含まれる最後の形態素がサ変名詞である場合（ステップＳ１１０−Ｙｅｓ）、形態素情報設定部２２は、修正後の形態素読み表記中の不一致部分全体を一つのサ変名詞に設定する（ステップＳ１１１）。一方、グループに含まれる最後の形態素がサ変名詞でない場合（ステップＳ１１０−ｎｏ）、形態素情報設定部２２は、修正後の形態素読み表記中の不一致部分全体を一つの固有名詞に設定する（ステップＳ１１２）。
ステップＳ１０５、Ｓ１０９、Ｓ１１１またはＳ１１２の後、形態素情報設定部２２は、形態素情報設定処理を終了する。形態素情報設定部２２は、この手順により、修正後の形態素読み表記中の各形態素の品詞を適切に設定できる。

形態素情報設定部２２は、ユーザ修正後の形態素読み表記について設定した形態素情報を、品詞情報設定部２３へ通知する。

品詞情報設定部２３は、ユーザ修正後の形態素読み表記中の各形態素の情報に基づいて、ユーザ修正後の中間表記中の各品詞の情報を設定する。形態素読み表記と中間表記の関係上、ユーザ修正後の形態素読み表記とユーザ修正後の中間表記とは、韻律記号を除いて１対１に対応している。そこで、品詞情報設定部２３は、ユーザ修正後の中間表記に含まれる各品詞の範囲を、ユーザ修正後の形態素読み表記の読みが一致する部分から特定し、各品詞の種別を、ユーザ修正後の形態素読み表記中の対応する形態素の種別に設定する。なお、韻律記号のみを含む品詞、例えば、句切りを表す韻律記号「＝」のみを含む品詞に関しては、品詞情報設定部２３は、ユーザ修正後の中間表記における品詞を、ユーザ修正前の中間表記における対応する品詞に設定すればよい。

図８は、ユーザ修正の前後のそれぞれの中間表記と、ユーザ修正後の形態素読み表記との関係の一例を示す図である。ユーザ修正後の中間表記８０２とユーザ修正後の形態素読み表記８０３とでは、韻律記号以外は一致している。そのため、形態素読み表記８０３に含まれる各形態素「ヨーカン」、「モナカ」、「ワ」、「ウツクシ」、「ク」及び「，」が、それぞれ、中間表記８０２の品詞「ヨーカン」、「モ＊ナカ」、「ワ」、「ウツク’シ％」、「ク」及び「，」に対応していることが分かる。そのため、各品詞「ヨーカン」、「モ＊ナカ」、「ワ」、「ウツク’シ％」、「ク」及び「，」の種別が、それぞれ形態素読み表記８０３中の対応する形態素の種別である、普通名詞、普通名詞、助詞（副）、形容詞（語幹）、形容詞（活用語尾）及び読点に設定される。また、形態素読み表記８０３中に対応する部分が無い、韻律記号「＝」は、ユーザ修正前の中間表記８０１中の対応する韻律記号「＝」の品詞である記号（句）に設定される。
品詞情報設定部２３は、ユーザ修正後の中間表記中の各品詞の情報を修正範囲設定部２４へ通知する。

修正範囲設定部２４は、ユーザ修正後の中間表記から、品詞単位でユーザが修正した範囲を設定する。そのために、修正範囲設定部２４は、ユーザ修正後の中間表記とユーザ修正前の中間表記との間で、品詞単位でマッチング処理、例えば、ＤＰマッチングを行って、一致しない品詞を特定する。そして修正範囲設定部２４は、ユーザ修正後の中間表記に含まれる品詞のうち、ユーザ修正前の中間表記の品詞と一致しない品詞を修正範囲とする。このように、品詞単位で修正範囲を設定することにより、修正範囲設定部２４は、修正範囲を、ユーザが修正を意図した範囲に適切に設定できる。

図９は、ユーザ修正の前後のそれぞれの中間表記と、設定される修正範囲との関係の一例を示す図である。図９において、ユーザ修正前の中間表記９０１に対して、ユーザ修正後の中間表記９０２では、品詞「サ’イチュー」が品詞「モ＊ナカ」に修正されている。そのため、矢印９０３に示されるように、品詞「モ＊ナカ」が修正範囲として設定される。
さらに、修正前の品詞「ウツクシ％’」について、修正後では「ウツク’シ％」となり、アクセント強を表す韻律記号の位置が修正されている。この場合も、韻律記号だけでなく、矢印９０４に示されるように、品詞「ウツク’シ％」全体が修正範囲として設定される。
修正範囲設定部２４は、設定した修正範囲を登録範囲設定部２５へ通知する。

登録範囲設定部２５は、ユーザ修正後の中間表記において設定された修正範囲から、ユーザ辞書に登録する範囲を設定する。連続する名詞のうちの一部をユーザが修正した場合に、その修正された名詞についてのみ、修正内容をユーザ登録すると、図１について上述した「最中」のように、修正された名詞が他の文脈で使用される場合に誤った中間表記に変換されるおそれがある。このような場合、ユーザ辞書には、名詞「最中」を、その名詞に前置された名詞「羊羹」まで含めて、「羊羹最中」として登録しておくことで、「最中」が「サイチュー」の読みで使用される場合に、誤って「モナカ」とされることを防止できる。そこで、本実施形態では、登録範囲設定部２５は、修正範囲に含まれる品詞が名詞である場合、その名詞と連続する名詞も登録範囲に含まれるように登録範囲に設定する。

また、活用自立語のアクセント位置は、語尾によって変化することがある。例えば、図８に示されるように、修正範囲が活用自立語の語幹である場合、韻律については、実際に修正された中間表記における語尾との組み合わせで使用されるときのみ、修正された韻律が適用される可能性が高い。そこで本実施形態では、登録範囲設定部２５は、修正範囲に含まれる品詞が活用自立語の語幹である場合、活用自立語とその活用自立語の語尾を登録範囲に設定する。このように、登録範囲設定部２５は、修正範囲に含まれる品詞が所定の品詞である場合、その修正範囲の品詞と連続する同じ品詞を含むように登録範囲に設定する。これにより、登録範囲設定部２５は、ユーザによる修正をユーザ辞書に適切に反映させることができる。

図１０は、ユーザ修正の前後の中間表記と登録範囲の関係の一例を示す図である。ユーザ修正前の中間表記１０００とユーザ修正後の中間表記１００１を比較すると、「サ’イチュー」が「モ＊ナカ」と修正され、「ウツクシ％’」が「ウツク’シ％」と修正されている。そのため、名詞１００２（「モ＊ナカ」）と形容詞の語幹１００３（「ウツク’シ％」）が修正範囲に設定されている。この場合、名詞１００２については、前置された名詞「ヨーカン」も含めるように登録範囲１００４が設定される。一方、形容詞の語幹１００３については、活用語尾である「ク」も含めるように登録範囲１００５が設定される。

図１１は、登録範囲設定処理の動作フローチャートである。なお、登録範囲設定部２５は、ユーザ修正後の中間表記に、複数の修正範囲が含まれる場合、修正範囲ごとに、以下の処理を実行する。

まず、初期処理として、登録範囲設定部２５は、修正範囲そのものを登録範囲とする。そして登録範囲設定部２５は、修正範囲に含まれる品詞が名詞か否か判定する（ステップＳ２０１）。修正範囲に含まれる品詞が名詞である場合（ステップＳ２０１−Ｙｅｓ）、登録範囲設定部２５は、登録範囲の前置品詞が名詞か否か判定する（ステップＳ２０２）。前置品詞が名詞である場合（ステップＳ２０２−Ｙｅｓ）、登録範囲設定部２５は、登録範囲の先頭位置をその前置品詞の先頭に拡張する（ステップＳ２０３）。その後、登録範囲設定部２５は、ステップＳ２０２以降の処理を繰り返す。

一方、前置品詞が名詞でなければ（ステップＳ２０２−Ｎｏ）、登録範囲設定部２５は、登録範囲の後置品詞が名詞か否か判定する（ステップＳ２０４）。後置品詞が名詞である場合（ステップＳ２０４−Ｙｅｓ）、登録範囲設定部２５は、登録範囲の後端位置をその後置品詞の終端に拡張する（ステップＳ２０５）。その後、登録範囲設定部２５は、ステップＳ２０４以降の処理を繰り返す。

一方、後置品詞が名詞でなければ（ステップＳ２０４−Ｎｏ）、登録範囲設定部２５は、登録範囲内に含まれる、連続する全ての名詞全体を登録範囲とする（ステップＳ２０６）。

また、ステップＳ２０１において、修正範囲に含まれる品詞が名詞でない場合（ステップＳ２０１−Ｎｏ）、登録範囲設定部２５は、修正範囲に含まれる品詞が活用自立語の語幹か否か判定する（ステップＳ２０７）。修正範囲に含まれる品詞が活用自立語の語幹であれば（ステップＳ２０７−Ｙｅｓ）、登録範囲設定部２５は、その活用自立語の語幹及び後置の活用語尾を登録範囲に設定する（ステップＳ２０８）。一方、修正範囲に含まれる品詞が活用自立語の語幹でなければ（ステップＳ２０７−Ｎｏ）、登録範囲設定部２５は、その修正範囲に含まれる品詞のみを登録範囲に設定する（ステップＳ２０９）。
ステップＳ２０６、Ｓ２０８またはＳ２０９の後、登録範囲設定部２５は、登録範囲設定処理を終了する。

登録範囲設定部２５は、設定された登録範囲を登録部２６に通知する。

登録部２６は、ユーザ修正後の中間表記中で設定された登録範囲に含まれる部分を一つの単語として、その単語の中間表記と品詞を、その単語の漢字仮名表記とともにユーザ辞書に登録する。例えば、図１０に示された例では、ユーザ辞書に、単語「羊羹最中」と対応付けて、「ヨーカンモ＊ナカ」という中間表記と普通名詞が登録される。また、ユーザ辞書に、単語「美しく」と対応付けて、「ウツク’シ％ク」という中間表記と形容詞が登録される。

図１２は、本実施形態による辞書登録処理の動作フローチャートである。
形態素情報設定部２２は、ユーザ修正後の中間表記からユーザ修正後の形態素読み表記を生成する（ステップＳ３０１）。そして形態素情報設定部２２は、ユーザ修正後の形態素読み表記に含まれる各形態素の範囲及び種別を設定する（ステップＳ３０２）。

品詞情報設定部２３は、ユーザ修正後の各形態素の範囲及び種別から、ユーザ修正後の中間表記における各品詞の範囲及び種別を特定する（ステップＳ３０３）。そして修正範囲設定部２４は、ユーザ修正の前後の中間表記を品詞単位でマッチングすることで品詞単位の修正範囲を設定する（ステップＳ３０４）。

登録範囲設定部２５は、修正範囲に含まれる品詞が所定の品詞である場合に前後に連続する同一品詞を含めるように登録範囲を設定する（ステップＳ３０５）。そして登録部２６は、登録範囲単位で修正内容をユーザ辞書に登録する（ステップＳ３０６）。
その後、処理部４は、辞書登録処理を終了する。

以上に説明してきたように、この音声合成装置は、ユーザが中間表記を修正すると、修正後の中間表記からユーザ辞書に登録すべき範囲及びその範囲に含まれる品詞を自動的に特定する。そのため、この音声合成装置は、ユーザが中間表記に対する特別な知識を有さなくても、あるいは、ユーザが修正した点について詳細に登録すべき範囲または品詞を設定しなくても、修正内容をユーザ辞書に適切に反映できる。そのため、この音声合成装置は、ユーザが不適切な修正内容をユーザ辞書に登録したり、登録すべき修正内容の一部がユーザ辞書に登録し忘れられることを防止できる。その結果として、この音声合成装置は、異なる複数の読みまたは韻律がある単語が含まれるテキストに対しても適切な合成音声信号を生成できる。

次に、第２の実施形態による音声合成装置について説明する。第２の実施形態による音声合成装置は、ユーザによる修正内容を登録する辞書として、単語の漢字仮名表記及び中間表記を記憶するユーザ辞書と、登録された単語の前後に位置する１以上の単語との関係も含めて記憶する中間表記辞書を有する。そしてこの音声合成装置は、言語辞書とともに、その２種類の辞書を利用して、言語処理を実行する。またこの音声号装置は、ユーザにより中間表記が修正された場合に、その修正内容をユーザ辞書に登録するか、中間表記辞書に登録するかを自動的に判別する。
なお、ユーザ辞書及び中間表記辞書は、それぞれ、言語辞書の一例である。

第２の実施形態による音声合成装置は、第１の実施形態による音声合成装置と比較して、記憶部３が中間表記辞書を記憶する点と、処理部４の言語処理部１０の処理及び辞書登録部１２の登録部２６の処理について相違する。
そこで以下では、中間表記辞書と、言語処理部１０及び登録部２６について説明する。第２の実施形態による音声合成装置のその他の構成要素については、第１の実施形態の対置する構成要素の説明を参照されたい。

本実施形態では、ユーザ辞書には、単一名詞及び複合名詞の修正した読みと、修正されたアクセント位置と、区切り位置とが登録されるものとする。一方、中間表記辞書には、ユーザ辞書の登録対象以外の中間表記の修正内容が登録されるものとする。例えば、中間表記辞書には、ユーザが修正した韻律情報が登録される。この韻律情報には、例えば、アクセントの強弱、音程の高低、抑揚の大小、話速の緩急、音量の大小及び区切り位置などが含まれる。しかし、ユーザ辞書の登録対象及び中間表記辞書の登録対象は、上記の例に限られない。ユーザ辞書に対する一般的な規定は存在しないので、音声合成装置の仕様に応じて、ユーザ辞書及び中間表記辞書の登録対象が設定されればよい。例えば、ユーザ辞書は、単一名詞及び複合名詞だけでなく、活用自立語または非活用自立語についても登録対象としてもよい。

図１３は、ユーザ辞書に登録された単語と中間表記辞書に登録された単語の一例を示す図である。ユーザ辞書１３００には、漢字仮名表記された単語「羊羹最中」について、その品詞の種別である普通名詞と、アクセント強の韻律記号を含む中間表記である「ヨーカンモ’ナカ」が関連付けて登録されている。一方、中間表記辞書１３０１には、漢字仮名表記された単語「羊羹最中」について、アクセント弱の韻律記号を含む中間表記である「ヨーカンモ＊ナカ」が関連付けて登録されている。さらに、中間表記辞書１３０１には、単語「羊羹最中」に関連付けられた中間表記が適用されるための条件である、前置される単語の漢字仮名表記「この」及び後置される単語の漢字仮名表記「は美しく」が関連付けて登録されている。すなわち、「羊羹最中」単独の場合には、「モ」のところのアクセントは強い方が好ましいが、「この羊羹最中は美しく」という文については、「モ」のところのアクセントは弱くすることを中間表記辞書は表している。なお、中間表記辞書１３０１には、前置される単語または後置される単語の中間表記も登録されていてもよい。

この実施形態でも、言語処理部１０は、まず、言語辞書及びユーザ辞書を利用して、入力されたテキストデータの中間表記を作成する。その際、テキストデータ中に、言語辞書とユーザ辞書の両方に登録された表記がある場合には、言語処理部１０は、ユーザ辞書を優先的に利用する。そのため、例えば、図１に示されるように、テキストデータ中に「この羊羹最中は美しく」という文が含まれており、ユーザ辞書に「羊羹最中」が登録されているとする。この場合、言語処理部１０は、中間表記として「・・・ヨーカンサ’イチュー・・・」ではなく、「・・・ヨーカンモ’ナカ・・・」を出力する。

さらに、言語処理部１０は、中間表記辞書を参照して、テキストデータ中に中間表記辞書に登録された単語の漢字仮名表記と前置される単語の漢字仮名表記及び後置される単語の漢字仮名表記と一致する部分があるか否か判定する。そして言語処理部１０は、一致する部分があれば、中間表記における対応する部分の中間表記を、中間表記辞書に登録されている中間表記で置換する。これにより、言語処理部１０は、文脈に応じて、合成音声信号中で単語のアクセント、音程、抑揚、話速、音量、または区切りなどを自動的に修正することができる。そのため、この音声合成装置は、ユーザが所望する合成音声をより適切に再現できる可能性を高めることができる。

次に、ユーザが中間表記を修正した際に、その修正を反映させる辞書を選択するための処理について説明する。本実施形態では、この辞書の選択を、辞書登録部１２の登録部２６が実行する。

図１４は、登録部２６により実行される辞書選択処理の動作フローチャートである。なお、辞書選択処理は、図１２に示した辞書登録処理のステップＳ３０６にて実行される。
登録部２６は、設定された登録範囲内の修正内容が、読み、区切り位置及びアクセント位置のうちの何れかの修正か否か判定する（ステップＳ４０１）。修正内容が、読み、区切り位置及びアクセント位置の何れでもない場合（ステップＳ４０１−Ｎｏ）、登録部２６は、中間表記辞書を選択する（ステップＳ４０２）。登録部２６は、ユーザ修正後の中間表記から、登録範囲に前置された品詞の漢字仮名表記及び登録範囲に後置された品詞の漢字仮名表記を抽出する（ステップＳ４０３）。なお、後置された品詞が助詞である場合、その助詞に後続する品詞も抽出してもよい。そして登録部２６は、登録範囲の修正後の中間表記及び漢字仮名表記と、前置漢字仮名表記及び後置漢字仮名表記とを中間表記辞書に登録する（ステップＳ４０４）。一般に、読み及びアクセント位置以外の修正は、合成音声信号における、「アクセント強弱」、「音程高低」、「抑揚大小」、「話速緩急」、「音量大小」及び「区切り」のうちの何れかの修正である。これらの修正は、合成音声の聴感上の前後のつながりを考慮して行われる。そのため、登録範囲の前後の単語も合わせて登録されることが好ましい。

一方、ステップＳ４０１にて、修正内容が、読み、区切り位置及びアクセント位置のうちの何れかである場合（ステップＳ４０１−Ｙｅｓ）、登録部２６は、登録範囲の品詞が単一名詞及び複合名詞の何れかか否か判定する（ステップＳ４０５）。登録範囲の品詞が単一名詞及び複合名詞の何れでもなければ（ステップＳ４０５−Ｎｏ）、登録部２６は、ステップＳ４０２〜Ｓ４０４の処理を実行し、修正内容を中間表記辞書に登録する。

一方、登録範囲の品詞が単一名詞及び複合名詞の何れかである場合（ステップＳ４０５−Ｙｅｓ）、登録部２６は、ユーザ辞書を選択する（ステップＳ４０６）。そして登録部２６は、登録範囲の修正後の中間表記、漢字仮名表記及び品詞の種別をユーザ辞書に登録する（ステップＳ４０７）。
ステップＳ４０４またはＳ４０７の後、登録部２６は、辞書選択処理を終了する。

この実施形態によれば、音声合成装置は、ユーザが特定の文脈の中での合成音声の表現を修正しようとしたのか否かを自動的に判別し、その結果を辞書に反映させることができる。そのため、この音声合成装置は、ユーザによる修正負担を軽減しつつ、文脈に応じて適切な韻律を持つ合成音声信号を作成することができる。

変形例によれば、中間表記辞書に登録される単語について、その単語の漢字仮名表記及び中間表記とともに、その単語に前置される１以上の単語またはその単語に後続する１以上の単語の何れかのみが登録されてもよい。また、中間表記辞書には、一つの単語が、その単語に前置または後置される１以上の異なる単語の組み合わせごとに、複数登録されてもよい。

他の変形例によれば、言語処理に利用される辞書は、言語辞書一つだけでもよい。この場合には、ユーザが中間表記についてした修正内容は、全て言語辞書に反映される。そして言語処理部１０は、言語辞書のうち、ユーザ修正の結果により追加登録された内容を優先して言語処理を行えばよい。

また他の変形例によれば、辞書登録部１２の編集部２１は、ユーザ自身が中間表記中の修正範囲及び修正範囲の品詞を指定できるようにしてもよい。この場合には、辞書登録部１２は、ユーザ自身が設定した修正範囲に基づいて、登録範囲を自動的に設定する。このようにユーザが詳細に修正内容を指定できるようにすることで、音声合成の知識が豊富なユーザの利便性も向上できる。

さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
テキストデータから生成した、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記に基づいて合成音声信号を生成する音声合成装置であって、
前記テキストデータを取得する入力部と、
少なくとも単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とが登録され、前記テキストデータから前記中間表記を生成するために利用される言語辞書を記憶する記憶部と、
前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が所定の品詞である場合、当該修正範囲に含まれる単語の前後に連続する、当該単語の品詞と同じ品詞の単語まで含むように、前記言語辞書に登録する登録範囲を拡張する登録範囲設定部と、
前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、少なくとも該単語の漢字仮名表記と中間表記とを前記言語辞書に登録する登録部と、
を有する音声合成装置。
（付記２）
前記所定の品詞は名詞であり、前記登録範囲設定部は、前記修正範囲に含まれる単語が名詞である場合、当該修正範囲の前後に連続する名詞まで含むように前記登録範囲を拡張する、付記１に記載の音声合成装置。
（付記３）
前記所定の品詞は活用自立語の語幹であり、前記登録範囲設定部は、前記修正範囲に含まれる単語が活用自立語の語幹である場合、当該修正範囲に後続する活用自立語の語尾まで含むように前記登録範囲を拡張する、付記１に記載の音声合成装置。
（付記４）
前記登録部は、前記登録範囲に含まれる単語の品詞を、該単語の漢字仮名表記と中間表記とともに前記言語辞書に登録する、付記１〜３の何れか一項に記載の音声合成装置。
（付記５）
前記修正後中間表記から前記韻律記号を除去することにより、修正後の前記テキストデータの読みを表す修正後形態素読み表記を生成し、前記中間表記から前記韻律記号を除去した形態素読み表記と前記修正後形態素読み表記との間のマッチングにより、前記修正後形態素読み表記に含まれる各品詞の範囲及び種別を求める形態素情報設定部と、
前記修正後形態素読み表記に含まれる各形態素について、前記修正後中間表記のうちで当該形態素の読みと一致する部分を、それぞれ、当該形態素と同一の品詞に設定する品詞情報設定部と、
前記修正後中間表記と前記中間表記間で異なる部分を抽出し、該異なる部分を含む品詞全体を前記修正範囲に設定する修正範囲設定部と、
をさらに有する、付記１〜４の何れか一項に記載の音声合成装置。
（付記６）
前記形態素情報設定部は、前記修正後形態素読み表記と前記形態素読み表記間で一致する部分と一致しない部分とを抽出し、前記修正後形態素読み表記中の一致する部分には、前記形態素読み表記における対応する品詞と同一の品詞を設定し、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記のうちの一つの品詞が対応している場合、当該一致しない部分に、前記形態素読み表記のうちの対応する部分の品詞を設定する、付記５に記載の音声合成装置。
（付記７）
前記形態素情報設定部は、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記の連続する複数の普通名詞が対応している場合、当該一致しない部分の品詞を普通名詞とする、付記６に記載の音声合成装置。
（付記８）
前記形態素情報設定部は、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記の連続する複数の名詞が対応し、かつ該複数の名詞のうちの最後尾の名詞がサ変名詞である場合、当該一致しない部分の品詞をサ変名詞とする、付記６に記載の音声合成装置。
（付記９）
前記形態素情報設定部は、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記の連続する複数の名詞が対応し、該複数の名詞のうちの最後尾の名詞がサ変名詞でなく、かつ、該複数の名詞の何れかが普通名詞でない場合、当該一致しない部分の品詞を固有名詞とする、付記６に記載の音声合成装置。
（付記１０）
前記記憶部は、前記言語辞書として、少なくとも単語の漢字仮名表記とともに該単語の中間表記が登録される第１の言語辞書と、少なくとも単語の漢字仮名表記とともに、該単語の中間表記と該単語の前または後に位置する１以上の単語の漢字仮名表記が登録される第２の言語辞書とを記憶し、
前記登録部は、前記修正後中間表記の前記登録範囲においてアクセント位置以外の韻律が変更されている場合、前記登録範囲の前または後に位置する１以上の単語の漢字仮名表記と、前記登録範囲に含まれる単語の漢字仮名表記と中間表記とを前記第２の言語辞書に登録する、付記１〜９の何れか一項に記載の音声合成装置。
（付記１１）
前記登録部は、前記修正後中間表記の前記登録範囲に含まれる単語の品詞が名詞であり、かつ、アクセント位置以外の韻律が変更されていない場合、前記登録範囲に含まれる単語の漢字仮名表記と中間表記とを前記第１の言語辞書に登録する、付記１０に記載の音声合成装置。
（付記１２）
前記テキストデータのうち、前記第１の言語辞書に登録されている漢字仮名表記と一致する単語を該単語の中間表記とすることで前記中間表記を生成し、かつ、前記テキストデータのうち、前記第２の言語辞書に登録されている単語の漢字仮名表記と一致し、かつ当該単語の前または後に位置する１以上の単語の漢字仮名表記とも一致する部分に対応する前記中間表記の中間表記を、前記第２の言語辞書に登録されている当該単語の中間表記に書き換える言語処理部をさらに有する、付記１０または１１に記載の音声合成装置。
（付記１３）
テキストデータから合成音声信号を生成するための、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記の作成に利用される言語辞書の登録方法であって、
前記テキストデータを取得し、
プロセッサが、前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が所定の品詞である場合、当該修正範囲に含まれる単語の前後に連続する、当該単語の品詞と同じ品詞の単語まで含むように、前記言語辞書に登録する登録範囲を拡張し、
前記プロセッサが、前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、該単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とを、記憶部に記憶された前記言語辞書に登録する、
ことを含む言語辞書登録方法。

１音声合成装置
２入力部
３記憶部
４処理部
５出力部
６スピーカ
１０言語処理部
１１音声合成部
１２辞書登録部
２１編集部
２２形態素情報設定部
２３品詞情報設定部
２４修正範囲設定部
２５登録範囲設定部
２６登録部

Claims

テキストデータから生成した、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記に基づいて合成音声信号を生成する音声合成装置であって、
前記テキストデータを取得する入力部と、
少なくとも単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とが登録され、前記テキストデータから前記中間表記を生成するために利用される言語辞書を記憶する記憶部と、
前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が名詞である場合、当該修正範囲に含まれる単語の前後に連続する名詞まで含むように、前記言語辞書に登録する登録範囲を拡張する登録範囲設定部と、
前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、少なくとも該単語の漢字仮名表記と中間表記とを前記言語辞書に登録する登録部と、
を有する音声合成装置。
テキストデータから生成した、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記に基づいて合成音声信号を生成する音声合成装置であって、
前記テキストデータを取得する入力部と、
少なくとも単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とが登録され、前記テキストデータから前記中間表記を生成するために利用される言語辞書を記憶する記憶部と、
前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が活用自立語の語幹である場合、当該修正範囲に後続する活用自立語の語尾まで含むように、前記言語辞書に登録する登録範囲を拡張する登録範囲設定部と、
前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、少なくとも該単語の漢字仮名表記と中間表記とを前記言語辞書に登録する登録部と、
を有する音声合成装置。
前記修正後中間表記から前記韻律記号を除去することにより、修正後の前記テキストデータの読みを表す修正後形態素読み表記を生成し、前記中間表記から前記韻律記号を除去した形態素読み表記と前記修正後形態素読み表記との間のマッチングにより、前記修正後形態素読み表記に含まれる各品詞の範囲及び種別を求める形態素情報設定部と、
前記修正後形態素読み表記に含まれる各形態素について、前記修正後中間表記のうちで当該形態素の読みと一致する部分を、それぞれ、当該形態素と同一の品詞に設定する品詞情報設定部と、
前記修正後中間表記と前記中間表記間で異なる部分を抽出し、該異なる部分を含む品詞全体を前記修正範囲に設定する修正範囲設定部と、
をさらに有する、請求項１または２に記載の音声合成装置。
前記形態素情報設定部は、前記修正後形態素読み表記と前記形態素読み表記間で一致する部分と一致しない部分とを抽出し、前記修正後形態素読み表記中の一致する部分には、前記形態素読み表記における対応する品詞と同一の品詞を設定し、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記のうちの一つの品詞が対応している場合、当該一致しない部分に、前記形態素読み表記のうちの対応する部分の品詞を設定する、請求項３に記載の音声合成装置。
前記形態素情報設定部は、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記の連続する複数の名詞が対応し、かつ該複数の名詞のうちの最後尾の名詞がサ変名詞である場合、当該一致しない部分の品詞をサ変名詞とする、請求項４に記載の音声合成装置。
前記記憶部は、前記言語辞書として、少なくとも単語の漢字仮名表記とともに該単語の中間表記が登録される第１の言語辞書と、少なくとも単語の漢字仮名表記とともに、該単語の中間表記と該単語の前または後に位置する１以上の単語の漢字仮名表記が登録される第２の言語辞書とを記憶し、
前記登録部は、前記修正後中間表記の前記登録範囲においてアクセント位置以外の韻律が変更されている場合、前記登録範囲の前または後に位置する１以上の単語の漢字仮名表記と、前記登録範囲に含まれる単語の漢字仮名表記と中間表記とを前記第２の言語辞書に登録する、請求項１〜５の何れか一項に記載の音声合成装置。
前記登録部は、前記修正後中間表記の前記登録範囲に含まれる単語の品詞が名詞であり、かつ、アクセント位置以外の韻律が変更されていない場合、前記登録範囲に含まれる単語の漢字仮名表記と中間表記とを前記第１の言語辞書に登録する、請求項６に記載の音声合成装置。
前記テキストデータのうち、前記第１の言語辞書に登録されている漢字仮名表記と一致する単語を該単語の中間表記とすることで前記中間表記を生成し、かつ、前記テキストデータのうち、前記第２の言語辞書に登録されている単語の漢字仮名表記と一致し、かつ当該単語の前または後に位置する１以上の単語の漢字仮名表記とも一致する部分に対応する前記中間表記の中間表記を、前記第２の言語辞書に登録されている当該単語の中間表記に書き換える言語処理部をさらに有する、請求項６または７に記載の音声合成装置。
テキストデータから合成音声信号を生成するための、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記の作成に利用される言語辞書の登録方法であって、
前記テキストデータを取得し、
プロセッサが、前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が名詞である場合、当該修正範囲に含まれる単語の前後に連続する名詞まで含むように、前記言語辞書に登録する登録範囲を拡張し、
前記プロセッサが、前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、該単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とを、記憶部に記憶された前記言語辞書に登録する、
ことを含む言語辞書登録方法。
テキストデータから合成音声信号を生成するための、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記の作成に利用される言語辞書の登録方法であって、
前記テキストデータを取得し、
プロセッサが、前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が活用自立語の語幹である場合、当該修正範囲に後続する活用自立語の語尾まで含むように、前記言語辞書に登録する登録範囲を拡張し、
前記プロセッサが、前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、該単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とを、記憶部に記憶された前記言語辞書に登録する、
ことを含む言語辞書登録方法。