JP2004354472A

JP2004354472A - 音声合成端末、音声合成管理サーバおよび音声合成方法

Info

Publication number: JP2004354472A
Application number: JP2003149183A
Authority: JP
Inventors: Atsushi Yamamoto; 篤志山本; Yasushi Yamazaki; 泰山崎; Nobuyuki Katae; 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-05-27
Filing date: 2003-05-27
Publication date: 2004-12-16

Abstract

【課題】記憶容量を抑制しつつ音声合成の精度を向上すること。
【解決手段】音声合成端末１において、言語処理部１２が端末単語辞書Ｄ１を参照して表音データに変換する際に文章データの読み誤りが生じたならば、読み誤り検出部１５が読み誤りが生じた文章データを音声合成管理サーバ２に送信する。音声合成管理サーバ２は、音声合成端末１から読み誤りが生じた文章データを受信した場合に、音声合成端末１が有する単語辞書と同一の端末単語辞書Ｄ１を用いて言語処理を行うとともに、大規模なサーバ単語辞書Ｄ３を用いて言語処理を行い、端末単語辞書Ｄ１を用いた言語処理の結果とサーバ単語辞書Ｄ３を用いた言語処理の結果とを比較して読み誤りを解消するために必要な端末単語辞書Ｄ１の更新の内容を更新単語データとして音声合成端末１に送信する。音声合成端末１は、受信した更新単語データを用いて端末単語辞書Ｄ１の更新をおこなう。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、単語辞書に基づいて文章データを表音データに変換し、波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末、音声合成端末における音声合成を管理する音声合成管理サーバ、および音声合成方法に関し、特に携帯型の音声合成端末における音声合成の精度を向上した音声合成端末、音声合成管理サーバおよび音声合成方法に関する。
【０００２】
【従来の技術】
従来、文章データを機械的に読み上げる音声出力が広く利用されてきた。音声出力には、特定の文章を予め読み上げた音声データを蓄積しておき、必要に応じて再生する方法と、文章データの構造を解析し、波形データを組み合わせて音声データを合成する方法とがある。
【０００３】
この文章データを解析して音声データを合成する方法は、文章データから表音データを作成する言語処理と、表音データから音声データを合成する音響処理からなる。言語処理では単語辞書を参照して文章データを言語解析することで表音データを作成する。また、音響処理では表音データによって示されたそれぞれの音に対応する波形データを波形辞書から検索し、該波形データを組み合わせて音声データを合成する。
【０００４】
音声データを合成によって作成する場合、この単語辞書および波形辞書によって読み上げ精度および音声品質が決定される。そこで、文章データを高い音質で精度良く読み上げるためには、十分な語彙を有する単語辞書と高品質な波形辞書とを用意する必要がある。
【０００５】
ところで近年、携帯電話などの小型端末を用いた文章データの送受信が一般的となり、小型端末上で文章の読み上げを行う需要が高まっている（例えば特許文献１参照）。しかし、これらの小型端末では記憶容量に制限があるため、単語辞書や波形辞書に十分な容量を割り当てることができない。
【０００６】
そのため、従来、携帯端末で、波形辞書を必要に応じて追加、削除することで所望の音質の波形辞書のみを記憶して記憶容量を節約したり（例えば特許文献２や特許文献３参照）、出現頻度や合成音への影響を考慮した登録語彙の削減により単語辞書の記憶容量を節約したり（例えば非特許文献１参照）していた。
【０００７】
【特許文献１】
特開２００１−１５６７０３号公報
【特許文献２】
特開平９−１７１３９６号公報
【特許文献３】
特開平１１−１４３４８３号公報
【非特許文献１】
清水勇詩、外３名、「コンパクトなテキスト音声合成システムの開発」、日本音響学会講演論文集１−１０−４、２００２年３月、ｐ２３７−２３８
【０００８】
【発明が解決しようとする課題】
しかしながら、従来の技術では、合成音声への影響が少ないように工夫はされているものの、語彙を削減しているため、削減された単語を正しく読むことはできず、十分な精度を保つことはできなかった。また、単語辞書の語彙数は読み上げの精度に直結するため、十分な精度を保とうとすれば記憶容量の削減ができなかった。
【０００９】
すなわち、従来の技術では、容量の制約から音声合成において十分な精度を保つことができず、また、十分な精度を保とうとすれば記憶領域を圧迫するという問題点があった。
【００１０】
この発明は、上述した従来技術による問題点を解消するためになされたものであり、記憶容量を抑制しつつ高精度な音声合成を実行可能な音声合成端末、音声合成管理サーバ、音声合成方法および音声合成管理方法を提供することを目的とする。
【００１１】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項１の発明に係る音声合成端末は、端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末であって、前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信手段と、前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新手段と、を備えたことを特徴とする。
【００１２】
この請求項１の発明によれば、音声合成端末は、単語辞書に基づいて文章データから表音データを作成する際に、読み誤りが生じた文章データを音声合成管理サーバに送信し、音声合成管理サーバから読み誤りを解消する更新単語データを受信して単語辞書を更新する。
【００１３】
また、請求項２の発明に係る音声合成端末は、請求項１の発明において、前記単語辞書更新手段は、前記単語辞書の更新によって前記端末単語辞書記憶手段の記憶容量が不足する場合に、該端末単語辞書記憶手段に記憶された端末単語辞書から所定の単語を削除することを特徴とする。
【００１４】
この請求項２の発明によれば、音声合成端末は、単語辞書の更新時に所定の単語を削除することで記憶容量の増加を防止する。
【００１５】
また、請求項３の発明に係る音声合成管理サーバは、端末単語辞書記憶手段に記憶する単語辞書に基づいて音声合成を実行する音声合成端末から、読み誤りが生じた文章データを受信する受信手段と、サーバ内端末単語辞書記憶手段に記憶する、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書と同一の辞書を用いて前記受信手段で受信した文章データを第１の表音データに変換し、サーバ単語辞書記憶手段に記憶するサーバ単語辞書を用いて前記受信手段で受信した文章データを第２の表音データに変換する言語処理手段と、前記言語処理手段が変換した第１の表音データと第２の表音データとを比較して、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書の更新を指示する更新単語データを作成する更新単語データ作成手段と、前記更新単語データ作成手段で作成した更新単語データを前記音声合成端末に送信する更新単語データ送信手段と、を備えたことを特徴とする。
【００１６】
この請求項３の発明によれば、音声合成管理サーバは、音声合成端末から読み誤りが生じた文章データを受信した場合に、音声合成端末と同一の辞書を用いて第１の表音データに変換するとともに、サーバ用単語辞書を用いて第２の表音データに変換し、これらの言語処理結果を比較して音声合成端末の単語辞書の更新を指示する更新単語データを作成する。
【００１７】
また、請求項４の発明に係る音声合成管理サーバは、請求項３の発明において前記更新単語データ送信手段は、同一の文章データの読み誤りを一定数以上の音声合成端末から受信した場合に、該文章データの読み誤りを受信していない音声合成端末へも該文章データの読み誤りを解消する更新単語データを送信することを特徴とする。
【００１８】
この請求項４の発明によれば、音声合成管理サーバは、同一の文章データの読み誤りを一定数以上の音声合成端末から指摘された場合に、その読み誤りを指摘していない音声合成端末に対しても更新単語データを送信する。
【００１９】
また、請求項５の発明に係る音声合成方法は、端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末が、前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信工程と、前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新工程と、を実行することを特徴とする。
【００２０】
この請求項５の発明によれば、音声合成方法は、単語辞書に基づいて文章データを音声データに合成する際に、読み誤りが生じた文章データを音声合成管理サーバに送信し、音声合成管理サーバから該文章データの読み誤りを解消する更新単語データを受信して単語辞書を更新する。
【００２１】
【発明の実施の形態】
以下に添付図面を参照して、この発明に係る音声合成端末および音声合成管理サーバの好適な実施の形態について説明する。
【００２２】
まず、本実施の形態にかかる音声合成端末および音声合成管理サーバの概要構成について説明する。図１は、本実施の形態にかかる音声合成端末および音声合成管理サーバの概要構成を説明する概要構成図である。同図において音声合成端末１は、携帯電話などに代表される携帯型の端末であり、文章データを音声によって読み上げる機能を有する。
【００２３】
具体的には、音声合成端末１は、その内部に文章データ入力部１１、言語処理部１２、音響処理部１３、音声データ出力部１４、読み誤り検出部１５、単語データ更新部１６、送受信部１７、単語辞書Ｄ１および波形辞書Ｄ２を備えている。
【００２４】
また、音声合成管理サーバ２は、その内部に読み誤り受信部２１、言語処理部２２、更新単語データ作成部２４、端末単語辞書Ｄ１、およびサーバ単語辞書Ｄ３を備えている。
【００２５】
音声合成端末１において文章データ入力部１１に文章データが入力されると、言語処理部１２は、端末単語辞書Ｄ１を参照して文章データを表音データに変換する。音響処理部１３は、この表音データに示されたそれぞれの音に対応する波形データを波形辞書Ｄ２から検索して合成し、音声データを作成する。
【００２６】
音声データ出力部１４は、音響処理部１３が作成した音声データを外部に出力する。読み誤り検出部１５は、表音データに読み誤りがあった場合に文章データ入力部１１から読み誤りが生じた文章データが渡され、送受信部１７を介して音声合成管理サーバ２に送信する。
【００２７】
ここで、読み誤り検出部１５による読み誤りの検出方法は、たとえば音声合成端末１に「読み誤り報告ボタン」等を設けておき、この読み誤り報告ボタンが押下された場合に、出力中の音声データに読み誤りが発生したと判定すればよい。
【００２８】
音声合成管理サーバ２において読み誤り受信部２１は、読み誤りが生じた文章データを受信し、言語処理部２２に送信する。言語処理部２２は、音声合成端末１における言語処理部１２と同様に、端末単語辞書Ｄ１，サーバ単語辞書Ｄ３を切り替えて参照して文章データを表音データに変換する。なお、本実施例では言語処理部２２を１つだけ用意して、端末単語辞書Ｄ１，サーバ単語辞書Ｄ３を切り替えて参照することにより該二つの辞書Ｄ１，Ｄ３を用いた言語処理を行っているが、該二つの辞書Ｄ１，Ｄ３にそれぞれの固有の言語処理部を個別に設けても良い。
【００２９】
ここで、言語処理部２２が参照する端末単語辞書Ｄ１は、言語処理部１２が参照する端末単語辞書Ｄ１と同一である。そこで、言語処理部２２が端末単語辞書Ｄ１を用いて変換出力する表音データは、言語処理部１２が変換出力する表音データと同一の内容となる。一方、サーバ単語辞書Ｄ３は、上記端末単語辞書Ｄ１に含まれる語彙と比較して、より各種の語彙を含んだ大規模な単語辞書である。そこで、言語処理部２２がサーバ単語辞書Ｄ３を用いて変換出力する表音データは、端末単語辞書Ｄ１を用いて変換出力する表音データに比して読み誤りが少なくなり、端末単語辞書Ｄ１を用いて変換した場合に読み誤りが発生した文章データを正確に読むことができる。なお、サーバ単語辞書Ｄ３が端末単語辞書Ｄ１に含まれる語彙を必ずしも全て持っている必要はない。
【００３０】
したがって、言語処理部２２が端末単語辞書Ｄ１を用いて変換出力する表音データとサーバ単語辞書Ｄ３を用いて変換出力する表音データとを比較することで、音声合成端末１において発生した読み誤りの内容を検出するとともに、読み誤りを解消するために端末単語辞書Ｄ１に必要な語彙を見出すことができる。
【００３１】
更新単語データ作成部２４は、言語処理部２２が端末単語辞書Ｄ１とサーバ単語辞書Ｄ３を参照しながら、端末単語辞書Ｄ１を用いて作成した表音データとサーバ単語辞書Ｄ３を用いて作成した表音データとを比較し、端末単語辞書Ｄ１に必要な語彙を更新単語データとして作成し、音声合成端末１に送信する。
【００３２】
音声合成端末１において単語データ更新部１６は、送受信部１７を介して受信した更新単語データに基づいて端末単語辞書Ｄ１の内容を書き換えることで端末単語辞書Ｄ１を更新する。
【００３３】
このように、音声合成端末１において読み誤りが発生した文章データを音声合成管理サーバ２に送信し、音声合成端末１と同内容の単語辞書を用いた言語処理結果と、サーバ用の大規模な単語辞書を用いた言語処理結果とを比較することで、文章データを正しく読み上げるために必要な単語データを作成し、音声合成端末１の端末単語辞書Ｄ１を更新することができる。
【００３４】
ここで、音声合成端末１において端末単語辞書Ｄ１の容量に制限があり単語データの更新によって容量が不足する場合、端末単語辞書Ｄ１の語彙のうち、所定の単語を削除して更新のための容量を確保する。
【００３５】
したがって、端末単語辞書Ｄ１によって、音声合成端末１は端末単語辞書Ｄ１の容量を増加させることなく読み取り精度を向上させることができる。なお、この所定の単語としては、例えば、使用頻度の低いものや、端末単語辞書Ｄ１の予め設定しておいた優先順位に基づく優先順位の低い単語、他の機種や他のキャリアと共通ではない独自仕様の単語などのほか、本発明の本旨を逸しない範囲において多種多様な理由による設定が考えられる。
【００３６】
さらに、端末単語辞書Ｄ１の更新を繰り返すことによって、音声合成端末１は、その使用者によって最も適切な語彙を含むようにカスタマイズされることとなる。
【００３７】
換言するならば、本発明にかかる音声合成端末１は、十分な語彙を有し、正確な読み上げを実行できる音声合成管理サーバ２との通信によって、使用者にとって最適な読み上げ行う音声合成システムを最小限の辞書容量によって構築するものである。
【００３８】
つぎに、音声合成端末１の言語処理部１２および端末単語辞書Ｄ１についてさらに説明する。図２は、端末単語辞書Ｄ１の具体例を説明する説明図であり、図３は、言語処理部１２による処理動作を説明するフローチャートである。
【００３９】
図２に示すように、端末単語辞書Ｄ１は、「表記」、「フリガナ」、「品詞」および「アクセント型」の項目を有する。例えば、表記「漢字」は、フリガナが「カンジ」、品詞が「普通名詞」、アクセント型が「０」である。また、表記「幹事」は、フリガナが「カンジ」、品詞が「人称名詞」、アクセント型が「１」である。
【００４０】
同様に、表記「新城」は、フリガナが「シンシロ」、品詞が「固有名詞（地名）」、アクセント型が「０」である。また、表記「高橋」は、フリガナが「タカハシ」、品詞が「固有名詞（姓）」、アクセント型が「２」である。
【００４１】
ここで、項目「表記」は単語の表記を示し、項目「フリガナ」は単語の振り仮名を示す。また、項目「品詞」は、文章データの言語解析の際に、適切な単語を検索する際に用いる。さらに、項目「アクセント型」は、単語のアクセント核を何拍目に置くかを示す。具体的には、「漢字」を読み上げる場合と「幹事」を読み上げる場合、そのフリガナは共に「カンジ」である。しかし、「幹事」のアクセントは１型であるので、１拍目の「カ」の後でピッチを下げて読み上げるが、「漢字」のアクセントは０型であるので、どこにも下げるところがなく平板に読み上げる。
【００４２】
この端末単語辞書Ｄ１を用い、言語処理部１２は、文章データから表音データを作成する。具体的には、図３に示すように、まず、文章データが入力されたならば（ステップＳ１０１）、言語処理部１２は、文章データを単語解析する（ステップＳ１０２）。具体的には、言語処理部１２は、端末単語辞書Ｄ１を検索し、入力された文章データから考えられるすべての単語を候補として抽出したのち、隣接する単語の繋がりやすさと、各単語の長さや出現頻度などを用いて文章データを適切な単語に分解する。ここで、隣接する単語の繋がりやすさは、端末単語辞書Ｄ１における項目「品詞」によって評価することができる。
【００４３】
つぎに、言語処理部１２は、ステップＳ１０２の単語解析結果を用いて構文解析をおこなう（ステップＳ１０３）。具体的には、言語処理部１２は、単語解析の結果得られた単語データを用いて文節を作成し、文節間の係り受け関係を解析する。文節は、単独の自立語（名詞、動詞など）、または１個の自立語とそれに後続する１個以上の付属語（助詞、助動詞）から成る。そこで、文節同士の文法上の関係と、文節の係り受けが他の文節の係り係り受けと交差しないという原則を考慮することで、それぞれの文節の係り受け関係を解析することができる。
【００４４】
その後、言語処理部１２は、ステップＳ１０３の構文解析結果を用いて韻律解析を行う（ステップＳ１０４）。具体的には、言語処理部１２は、文章中の単語の品詞情報や係り受けの解析結果をもとに、ポーズ、すなわち無音時間の挿入位置や文章全体のイントネーションを決定する。
【００４５】
言語処理部１２は、この韻律解析の結果を表音データとして出力する（ステップＳ１０５）。表音データは読みを示す「カタカナ」、アクセント情報やイントネーションを示す記号からなり、後段の音響処理部１３は、表音データに波形データを対応させることで音声データを合成することができる。
【００４６】
つぎに、音声合成管理サーバ２の処理動作について説明する。図４は、音声合成管理サーバ２の処理動作を説明するフローチャートである。同図に示すように、まず、読み誤り受信部２１が読み誤りが生じた文章データを受信したならば（ステップＳ２０１）、言語処理部２２は、端末単語辞書Ｄ１を参照して第１の表音データを作成する（ステップＳ２０２）。また、言語処理部２２は、サーバ単語辞書Ｄ３を参照して第２の表音データを作成する（ステップＳ２０３）。この時、言語処理部２２による処理の詳細は、音声合成端末１における言語処理部１２と同様である。
【００４７】
つづいて、更新単語データ作成部２４は、言語処理部２２が端末単語辞書Ｄ１を用いて作成した第１の表音データと、サーバ単語辞書Ｄ３を用いて作成した第２の表音データとを比較する（ステップＳ２０４）。表音データに差が生じなかった場合（ステップＳ２０４，Ｎｏ）、更新単語データ作成部２４は、端末単語辞書Ｄ１を更新する必要なしと判定し（ステップＳ２０７）、処理を終了する。
【００４８】
一方、端末単語辞書Ｄ１を用いて作成した第１の表音データと、サーバ単語辞書Ｄ３を用いて作成した第２の表音データとの間に差が生じた場合（ステップＳ２０４，Ｙｅｓ）、更新単語データ作成部２４は、読み誤りの解消に必要な端末辞書Ｄ１の更新内容を示す更新単語データを作成する（ステップＳ２０５）。この更新単語データには、端末単語辞書Ｄ１が単語を持っていないことが読み誤りの原因になっている場合には単語の追加が、端末単語辞書Ｄ１が余分な単語を持っていることが読み誤りの原因になっている場合には単語の削除が、それぞれ更新内容として含まれることになる。また、既に端末が持っている単語データの優先順位を上げる、または下げるための優先順位情報を更新内容として含むことも好ましい。
【００４９】
その後、更新単語データ作成部２４は、作成した更新単語データによって副作用が発生する可能性があるかか否かを判定する（ステップＳ２０６）。ここで、副作用とは、ある読み誤りを修正する更新によって、他の文章データで新たな読み誤りが発生することを示す。
【００５０】
例えば、「新城」という固有名詞の場合、「シンシロ」と呼ばれる地名を指す場合と、「シンジョウ」と呼ばれる地名を指す場合とがある。「シンシロ」を意図した文章中において「シンジョウ」と読み誤った場合に、「新城」を常に「シンシロ」と読むように辞書を更新すると、次に「シンジョウ」と読むべき文章中において「シンシロ」と読み誤るという副作用が発生する。
【００５１】
更新単語データ作成部２４は、更新単語データによってこのような副作用が発生する場合には（ステップＳ２０６，Ｙｅｓ）、副作用の内容を示す副作用情報を作成し（ステップＳ２０８）、更新単語データと副作用情報とを音声合成端末１に送信して（ステップＳ２０９）処理を終了する。
【００５２】
一方、更新単語データによる副作用がない場合（ステップＳ２０６，Ｎｏ）、更新単語データ作成部２４は、作成した更新単語データを音声合成端末１に送信して（ステップＳ２１０）処理を終了する。
【００５３】
ところで、音声合成端末１では、副作用がある場合と副作用がない場合とで処理を区別することが望ましい。具体的には、単語データ更新部１６は、副作用の有無に関わらず、単語辞書の更新内容をユーザに表示して更新の許可を求める手動更新モードと、副作用がある場合にのみ更新の許可を求める半自動モードと、副作用の有無に関わらず自動的に更新を実行する自動更新モード１と、ユーザに確認を求めないで、副作用があったら更新せず、副作用がなかったら自動的に更新を実行する自動更新モード２とを有する。
【００５４】
図５に示すように、単語データ更新部１６は、手動更新モードにおいては音声合成管理サーバ２から更新単語データとともに副作用情報を受信した場合と、副作用情報が無く、更新単語データのみを受信した場合とで、それぞれ更新の許可を求める表示を行い、ユーザの許可を確認した後に更新を実行する。許可されなければ更新しない。
【００５５】
また、半自動更新モードでは、単語データ更新部１６は、音声合成管理サーバ２から更新単語データとともに副作用情報を受信した場合は更新の許可を求める表示を行い、ユーザの許可を確認した後に更新を実行する（許可されなければ更新しない）が、更新単語データのみを受信した場合には更新の許可を求めることなく自動的に更新を実行する。
【００５６】
さらに、自動更新モード１では、単語データ更新部１６は、音声合成管理サーバ２から更新単語データとともに副作用情報を受信した場合と、副作用情報が無く、更新単語データのみを受信した場合とで、ともに更新の許可を求めることなく自動的に更新を実行する。
【００５７】
さらに、自動更新モード２では、単語データ更新部１６は、音声合成管理サーバ２から更新データと共に副作用情報を受信した場合は特に何もせずに、副作用情報がなく更新データのみを受信した場合はユーザに更新の許可を求めることなく自動的に更新を実行する。
【００５８】
つぎに、図６を参照し、半自動更新モードにおける単語データ更新部１６の処理動作をさらに詳細に説明する。図６は、半自動更新モードにおける単語データ更新部１６の処理動作を説明するフローチャートである。
【００５９】
図６に示すように、音声合成管理サーバ２から更新単語データを受信したならば（ステップＳ３０１）、単語データ更新部１６は、受信した更新単語データに副作用情報が付与されているか否かを判定する（ステップＳ３０２）。更新単語データに副作用情報が付与されていないならば（ステップＳ３０２，Ｎｏ）単語データ更新部１６は端末単語辞書Ｄ１の更新を実行して（ステップＳ３０６）処理を終了する。
【００６０】
一方、更新単語データに副作用情報が付与されているならば（ステップＳ３０２，Ｙｅｓ）、単語データ更新部１６は、副作用情報を表示し（ステップＳ３０３）、ユーザに更新の許可を求める。
【００６１】
副作用情報を見たユーザが更新を許可する入力指示を行ったならば（ステップＳ３０４，Ｙｅｓ）、単語データ更新部１６は、端末単語辞書Ｄ１を更新し（ステップＳ３０６）、処理を終了する。しかし、ユーザが更新を許可しなければ（ステップＳ３０４，Ｎｏ）、単語データ更新部１６は、端末単語辞書Ｄ１の更新を行わずに（ステップＳ３０５）処理を終了する。
【００６２】
このように、端末単語辞書Ｄ１の更新によって副作用が生じる場合には、副作用の内容をユーザに表示し、ユーザの許可を得た更新単語データのみを使用することで、辞書の更新による新たな読み誤りの発生を防止することができる。
【００６３】
なお、音声合成端末１が、ステップＳ３０６で端末単語辞書Ｄ１を更新した後、または、ステップＳ３０５で端末単語辞書Ｄ１を更新しなかった後、音声合成管理サーバ２に更新適用状況を通知することにより、該音声合成管理サーバ２では、該サーバ内の端末単語辞書Ｄ１に対し、該通知に応じた更新を反映し、音声合成端末１の端末単語辞書Ｄ１と音声合成管理サーバ２の端末単語辞書Ｄ１との整合性を保つことが好ましい。また、図５に示す音声合成端末１の単語データ更新部１６の動作モードが半自動モードで副作用情報がなく自動更新を行う場合や、自動更新モード１または２であった場合には、該動作モードに応じて音声合成管理サーバ２で更新単語データを該音声合成端末１に送信すると同時に該サーバの端末単語辞書Ｄ１の更新をを並行して行うことも好ましい。
【００６４】
ところで、音声合成端末での単語辞書の更新は、各ユーザにとって最適な辞書を作成することに主たる目的があるため、ユーザごとに個別に更新を行っている。しかし、更新の内容によっては他のユーザにとっても同様の更新を行うことが望ましい場合が考えられる。
【００６５】
そこで、図７に示した音声合成管理サーバ２ａでは、更新単語データ作成部２４ａに更新実績データベース２５を接続して各端末に送信した更新単語データを蓄積し、同じ内容の更新単語データが所定数以上の端末に送信された場合に、同じ内容の更新単語データを他の端末にも送信するようにしている。
【００６６】
たとえば、図７において音声合成端末３から読み誤りが生じた文章データが送信され、この文章データをもとに作成された更新単語データは、更新実績データベース２５に格納される。
【００６７】
ここで、既に同内容の更新単語データが記憶されており、音声合成端末３への送信によって同内容の更新単語データの送信実績が閾値に達した場合、この更新単語データは、他のユーザにとっても有効である可能性が高いと考えられる。
【００６８】
そこで、読み誤りを指摘していない音声合成端末４に対しても、音声合成端末３に送信した更新単語データと同内容の更新単語データを送信することで、音声合成端末４における読み誤りの発生を未然に防ぐことができる。
【００６９】
その他の構成は図１に示した音声合成管理サーバ２と同一であるので、同一の構成要素には同一の符号を付して説明を省略する。
【００７０】
上述してきたように、本実施の形態に示した音声合成端末１では、言語処理部１２が端末単語辞書Ｄ１を参照して表音データに変換する際に文章データの読み誤りが生じたならば、読み誤り検出部１５が読み誤りが生じた文章データを音声合成管理サーバ２に送信し、音声合成管理サーバ２から文章データの読み誤りを解消する更新単語データを受信して単語データ更新部１６が端末単語辞書Ｄ１の更新をおこなうので、単語辞書Ｄ１の容量を抑制しつつ読み誤りを解消し、音声合成の精度を向上することができる。
【００７１】
また、本実施の形態に示した音声合成管理サーバ２では、音声合成端末１から読み誤りが生じた文章データを受信した場合に、音声合成端末１が有する端末単語辞書Ｄ１と同一の端末単語辞書Ｄ１を用いて言語処理を行うとともに、大規模なサーバ単語辞書Ｄ３を用いて言語処理をおこない、端末単語辞書Ｄ１を用いた言語処理の結果とサーバ単語辞書Ｄ３を用いた言語処理の結果とを比較して、読み誤りを解消するために必要な更新の内容を見出すので、音声合成端末１において発生する読み誤りを解消する更新単語データを自動的に作成することができる。
【００７２】
このように、音声合成端末１および音声合成管理サーバ２によって音声合成システムを構築することで、音声合成端末上の記憶容量を抑制しつつ高精度な音声合成を実現できるので、携帯型の端末、たとえば電子メールの内容を音声によって読み上げる機能を有する携帯電話などに有用である。
【００７３】
（付記１）端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末であって、
前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信手段と、
前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新手段と、
を備えたことを特徴とする音声合成端末。
【００７４】
（付記２）前記単語辞書更新手段は、前記更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書を更新した場合に発生する新たな読み誤りの例である副作用情報をさらに受信し、該副作用情報に基づいて該端末単語辞書を更新するか否かを判定する
ことを特徴とする付記１に記載の音声合成端末。
（付記３）前記単語辞書更新手段は、前記更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書を更新した場合に発生する新たな読み誤りの例である副作用情報をさらに受信し、該副作用情報に基づく利用者の入力指示に基づき該端末単語辞書を更新する
ことを特徴とする付記１に記載の音声合成端末。
【００７５】
（付記４）前記単語辞書更新手段は、前記単語辞書の更新によって前記端末単語辞書記憶手段の記憶容量が不足する場合に、該端末単語辞書記憶手段に記憶された端末単語辞書から所定の単語を削除する
ことを特徴とする付記１から３のいずれか一つに記載の音声合成端末。
【００７６】
（付記５）前記単語辞書更新手段は、前記単語辞書の更新によって前記端末単語辞書記憶手段の記憶容量が不足する場合に、該端末単語辞書記憶手段に記憶された端末単語辞書から、最も使用頻度の低い単語、または、各単語に設定された優先順位が低い単語を削除する
ことを特徴とする付記１から３のいずれか一つに記載の音声合成端末。
【００７７】
（付記６）端末単語辞書記憶手段に記憶する単語辞書に基づいて音声合成を実行する音声合成端末から、読み誤りが生じた文章データを受信する受信手段と、
サーバ内端末単語辞書記憶手段に記憶する、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書と同一の辞書を用いて前記受信手段で受信した文章データを第１の表音データに変換し、サーバ単語辞書記憶手段に記憶するサーバ単語辞書を用いて前記受信手段で受信した文章データを第２の表音データに変換する言語処理手段と、
前記言語処理手段が変換した第１の表音データと第２の表音データとを比較して、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書の更新を指示する更新単語データを作成する更新単語データ作成手段と、
前記更新単語データ作成手段で作成した更新単語データを前記音声合成端末に送信する更新単語データ送信手段と、
を備えたことを特徴とする音声合成管理サーバ。
【００７８】
（付記７）前記更新単語データ送信手段は、前記音声合成端末が前記更新単語データに基づき前記端末単語辞書記憶手段に記憶した端末単語辞書を更新することによって発生する可能性のある新たな読み誤りの例を副作用情報として作成して前記音声合成端末に送信する
ことを特徴とする付記６に記載の音声合成管理サーバ。
【００７９】
（付記８）前記更新単語データ送信手段は、同一の文章データの読み誤りを一定数以上の音声合成端末から受信した場合に、該文章データの読み誤りを受信していない音声合成端末へも該文章データの読み誤りを解消する更新単語データを送信する
ことを特徴とする付記６または７に記載の音声合成管理サーバ。
【００８０】
（付記９）端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末が、
前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信工程と、
前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新工程と、
を実行することを特徴とする音声合成方法。
【００８１】
（付記１０）前記単語辞書更新工程は、前記更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書を更新した場合に発生する新たな読み誤りの例である副作用情報をさらに受信し、該副作用情報に基づいて該端末単語辞書を更新するか否かを判定する
ことを特徴とする付記９に記載の音声合成方法。
【００８２】
（付記１１）端末単語辞書記憶手段に記憶する端末単語辞書に基づいて音声合成を実行する音声合成端末から、読み誤りが生じた文章データを受信する受信工程と、
サーバ内端末単語辞書記憶手段に記憶する、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書と同一の辞書を用いて前記受信工程で受信した文章データを第１の表音データに変換し、サーバ単語辞書記憶手段に記憶するサーバ用単語辞書を用いて前記受信工程で受信した文章データを第２の表音データに変換する言語処理工程と、
前記言語処理工程が変換した第１の表音データと第２の表音データとを比較して、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書の更新を指示する更新単語データを作成する更新単語データ作成工程と、
前記更新単語データ作成工程で作成した更新単語データを前記音声合成端末に送信する更新単語データ送信工程と、
を実行することを特徴とする音声合成管理方法。
【００８３】
（付記１２）前記更新単語データ送信工程は、前記音声合成端末が前記更新単語データに基づき前記端末単語辞書記憶手段に記憶した端末単語辞書を更新することによって発生する可能性のある新たな読み誤りの例を副作用情報として作成して前記音声合成端末に送信する
ことを特徴とする付記１１に記載の音声合成管理方法。
【００８４】
（付記１３）前記更新単語データ送信工程は、同一の文章データの読み誤りを一定数以上の音声合成端末から受信した場合に、該文章データの読み誤りを受信していない音声合成端末へも当該文章データの読み誤りを解消する更新単語データを送信する
ことを特徴とする付記１１または１２に記載の音声合成管理方法。
【００８５】
【発明の効果】
以上説明したように、請求項１の発明によれば、音声合成端末は、単語辞書に基づいて文章データを音声データに合成する際に、読み誤りが生じた文章データを音声合成管理サーバに送信し、音声合成管理サーバから該文章データの読み誤りを解消する更新単語データを受信して単語辞書を更新するので、記憶容量を抑制しつつ高精度な音声合成を実行可能な音声合成端末が得られるという効果を奏する。
【００８６】
また、請求項２の発明によれば、音声合成端末は、更新単語データに基づいて単語辞書を更新した場合に、新たな読み誤りが発生するか否かによって単語辞書を更新するか否かを決定するので、単語辞書の更新による新たな読み誤りの発生を防止し、高精度な音声合成を実行可能な音声合成端末が得られるという効果を奏する。
【００８７】
また、請求項３の発明によれば、音声合成管理サーバは、音声合成端末から読み誤りが生じた文章データを受信した場合に、音声合成端末と同一の辞書を用いて第１の表音データに変換するとともに、サーバ用単語辞書を用いて第２の表音データに変換し、これら言語処理結果を比較して音声合成端末の単語辞書の更新を指示する更新単語データを作成するので、音声合成端末の更新内容を自動的に作成し、高精度な音声合成を実行させる音声合成管理サーバが得られるという効果を奏する。
【００８８】
また、請求項４の発明によれば、音声合成管理サーバは、同一の読み誤りを一定数以上の音声合成端末から指摘された場合に、その読み誤りを指摘していない音声合成端末に対しても更新単語データを送信するので、読み誤りの発生を未然に防止し、高精度な音声合成を実行させる音声合成管理サーバが得られるという効果を奏する。
【００８９】
また、請求項５の発明によれば、音声合成方法は、単語辞書に基づいて文章データを音声データに合成する際に、読み誤りが生じた文章データを音声合成管理サーバに送信し、音声合成管理サーバから読み誤りを解消する更新単語データを受信して単語辞書を更新するので、記憶容量を抑制しつつ高精度な音声合成を実行可能な音声合成方法が得られるという効果を奏する。
【図面の簡単な説明】
【図１】本実施の形態にかかる音声合成端末および音声合成管理サーバの概要構成を説明する概要構成図である。
【図２】図１に示した単語辞書の具体例を説明する説明図である。
【図３】図１に示した言語処理部による処理動作を説明するフローチャートである。
【図４】図１に示した音声合成管理サーバの処理動作を説明するフローチャートである。
【図５】図１に示した単語データ更新部の動作について説明する説明図である。
【図６】図５に示した半自動更新モードにおける単語データ更新部の処理動作を説明するフローチャートである。
【図７】図１に示した音声合成管理サーバの応用例を説明する説明図である。
【符号の説明】
１音声合成端末
２音声合成管理サーバ
１１文章データ入力部
１２，２２言語処理部
１３音響処理部
１４音声データ出力部
１５読み誤り検出部
１６単語データ更新部
１７送受信部
２１読み誤り受信部
２４，２４ａ更新単語データ作成部
Ｄ１，Ｄ３単語辞書
Ｄ２波形辞書

Claims

端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末であって、
前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信手段と、
前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新手段と、
を備えたことを特徴とする音声合成端末。
前記単語辞書更新手段は、前記更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書を更新した場合に発生する新たな読み誤りの例である副作用情報をさらに受信し、該副作用情報に基づいて該端末単語辞書を更新するか否かを判定する
ことを特徴とする請求項１に記載の音声合成端末。
端末単語辞書記憶手段に記憶する単語辞書に基づいて音声合成を実行する音声合成端末から、読み誤りが生じた文章データを受信する受信手段と、
サーバ内端末単語辞書記憶手段に記憶する、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書と同一の辞書を用いて前記受信手段で受信した文章データを第１の表音データに変換し、サーバ単語辞書記憶手段に記憶するサーバ単語辞書を用いて前記受信手段で受信した文章データを第２の表音データに変換する言語処理手段と、
前記言語処理手段が変換した第１の表音データと第２の表音データとを比較して、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書の更新を指示する更新単語データを作成する更新単語データ作成手段と、
前記更新単語データ作成手段で作成した更新単語データを前記音声合成端末に送信する更新単語データ送信手段と、
を備えたことを特徴とする音声合成管理サーバ。
前記更新単語データ送信手段は、同一の文章データの読み誤りを一定数以上の音声合成端末から受信した場合に、該文章データの読み誤りを受信していない音声合成端末へも該文章データの読み誤りを解消する更新単語データを送信する
ことを特徴とする請求項３に記載の音声合成管理サーバ。
端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末が、
前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信工程と、
前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新工程と、
を実行することを特徴とする音声合成方法。