JP2004354472A - 音声合成端末、音声合成管理サーバおよび音声合成方法 - Google Patents

音声合成端末、音声合成管理サーバおよび音声合成方法 Download PDF

Info

Publication number
JP2004354472A
JP2004354472A JP2003149183A JP2003149183A JP2004354472A JP 2004354472 A JP2004354472 A JP 2004354472A JP 2003149183 A JP2003149183 A JP 2003149183A JP 2003149183 A JP2003149183 A JP 2003149183A JP 2004354472 A JP2004354472 A JP 2004354472A
Authority
JP
Japan
Prior art keywords
data
terminal
word
word dictionary
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003149183A
Other languages
English (en)
Inventor
Atsushi Yamamoto
篤志 山本
Yasushi Yamazaki
泰 山崎
Nobuyuki Katae
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003149183A priority Critical patent/JP2004354472A/ja
Publication of JP2004354472A publication Critical patent/JP2004354472A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】記憶容量を抑制しつつ音声合成の精度を向上すること。
【解決手段】音声合成端末1において、言語処理部12が端末単語辞書D1を参照して表音データに変換する際に文章データの読み誤りが生じたならば、読み誤り検出部15が読み誤りが生じた文章データを音声合成管理サーバ2に送信する。音声合成管理サーバ2は、音声合成端末1から読み誤りが生じた文章データを受信した場合に、音声合成端末1が有する単語辞書と同一の端末単語辞書D1を用いて言語処理を行うとともに、大規模なサーバ単語辞書D3を用いて言語処理を行い、端末単語辞書D1を用いた言語処理の結果とサーバ単語辞書D3を用いた言語処理の結果とを比較して読み誤りを解消するために必要な端末単語辞書D1の更新の内容を更新単語データとして音声合成端末1に送信する。音声合成端末1は、受信した更新単語データを用いて端末単語辞書D1の更新をおこなう。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は、単語辞書に基づいて文章データを表音データに変換し、波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末、音声合成端末における音声合成を管理する音声合成管理サーバ、および音声合成方法に関し、特に携帯型の音声合成端末における音声合成の精度を向上した音声合成端末、音声合成管理サーバおよび音声合成方法に関する。
【0002】
【従来の技術】
従来、文章データを機械的に読み上げる音声出力が広く利用されてきた。音声出力には、特定の文章を予め読み上げた音声データを蓄積しておき、必要に応じて再生する方法と、文章データの構造を解析し、波形データを組み合わせて音声データを合成する方法とがある。
【0003】
この文章データを解析して音声データを合成する方法は、文章データから表音データを作成する言語処理と、表音データから音声データを合成する音響処理からなる。言語処理では単語辞書を参照して文章データを言語解析することで表音データを作成する。また、音響処理では表音データによって示されたそれぞれの音に対応する波形データを波形辞書から検索し、該波形データを組み合わせて音声データを合成する。
【0004】
音声データを合成によって作成する場合、この単語辞書および波形辞書によって読み上げ精度および音声品質が決定される。そこで、文章データを高い音質で精度良く読み上げるためには、十分な語彙を有する単語辞書と高品質な波形辞書とを用意する必要がある。
【0005】
ところで近年、携帯電話などの小型端末を用いた文章データの送受信が一般的となり、小型端末上で文章の読み上げを行う需要が高まっている(例えば特許文献1参照)。しかし、これらの小型端末では記憶容量に制限があるため、単語辞書や波形辞書に十分な容量を割り当てることができない。
【0006】
そのため、従来、携帯端末で、波形辞書を必要に応じて追加、削除することで所望の音質の波形辞書のみを記憶して記憶容量を節約したり(例えば特許文献2や特許文献3参照)、出現頻度や合成音への影響を考慮した登録語彙の削減により単語辞書の記憶容量を節約したり(例えば非特許文献1参照)していた。
【0007】
【特許文献1】
特開2001−156703号公報
【特許文献2】
特開平9−171396号公報
【特許文献3】
特開平11−143483号公報
【非特許文献1】
清水勇詩、外3名、「コンパクトなテキスト音声合成システムの開発」、日本音響学会講演論文集 1−10−4、2002年3月、p237−238
【0008】
【発明が解決しようとする課題】
しかしながら、従来の技術では、合成音声への影響が少ないように工夫はされているものの、語彙を削減しているため、削減された単語を正しく読むことはできず、十分な精度を保つことはできなかった。また、単語辞書の語彙数は読み上げの精度に直結するため、十分な精度を保とうとすれば記憶容量の削減ができなかった。
【0009】
すなわち、従来の技術では、容量の制約から音声合成において十分な精度を保つことができず、また、十分な精度を保とうとすれば記憶領域を圧迫するという問題点があった。
【0010】
この発明は、上述した従来技術による問題点を解消するためになされたものであり、記憶容量を抑制しつつ高精度な音声合成を実行可能な音声合成端末、音声合成管理サーバ、音声合成方法および音声合成管理方法を提供することを目的とする。
【0011】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項1の発明に係る音声合成端末は、端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末であって、前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信手段と、前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新手段と、を備えたことを特徴とする。
【0012】
この請求項1の発明によれば、音声合成端末は、単語辞書に基づいて文章データから表音データを作成する際に、読み誤りが生じた文章データを音声合成管理サーバに送信し、音声合成管理サーバから読み誤りを解消する更新単語データを受信して単語辞書を更新する。
【0013】
また、請求項2の発明に係る音声合成端末は、請求項1の発明において、前記単語辞書更新手段は、前記単語辞書の更新によって前記端末単語辞書記憶手段の記憶容量が不足する場合に、該端末単語辞書記憶手段に記憶された端末単語辞書から所定の単語を削除することを特徴とする。
【0014】
この請求項2の発明によれば、音声合成端末は、単語辞書の更新時に所定の単語を削除することで記憶容量の増加を防止する。
【0015】
また、請求項3の発明に係る音声合成管理サーバは、端末単語辞書記憶手段に記憶する単語辞書に基づいて音声合成を実行する音声合成端末から、読み誤りが生じた文章データを受信する受信手段と、サーバ内端末単語辞書記憶手段に記憶する、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書と同一の辞書を用いて前記受信手段で受信した文章データを第1の表音データに変換し、サーバ単語辞書記憶手段に記憶するサーバ単語辞書を用いて前記受信手段で受信した文章データを第2の表音データに変換する言語処理手段と、前記言語処理手段が変換した第1の表音データと第2の表音データとを比較して、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書の更新を指示する更新単語データを作成する更新単語データ作成手段と、前記更新単語データ作成手段で作成した更新単語データを前記音声合成端末に送信する更新単語データ送信手段と、を備えたことを特徴とする。
【0016】
この請求項3の発明によれば、音声合成管理サーバは、音声合成端末から読み誤りが生じた文章データを受信した場合に、音声合成端末と同一の辞書を用いて第1の表音データに変換するとともに、サーバ用単語辞書を用いて第2の表音データに変換し、これらの言語処理結果を比較して音声合成端末の単語辞書の更新を指示する更新単語データを作成する。
【0017】
また、請求項4の発明に係る音声合成管理サーバは、請求項3の発明において前記更新単語データ送信手段は、同一の文章データの読み誤りを一定数以上の音声合成端末から受信した場合に、該文章データの読み誤りを受信していない音声合成端末へも該文章データの読み誤りを解消する更新単語データを送信することを特徴とする。
【0018】
この請求項4の発明によれば、音声合成管理サーバは、同一の文章データの読み誤りを一定数以上の音声合成端末から指摘された場合に、その読み誤りを指摘していない音声合成端末に対しても更新単語データを送信する。
【0019】
また、請求項5の発明に係る音声合成方法は、端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末が、前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信工程と、前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新工程と、を実行することを特徴とする。
【0020】
この請求項5の発明によれば、音声合成方法は、単語辞書に基づいて文章データを音声データに合成する際に、読み誤りが生じた文章データを音声合成管理サーバに送信し、音声合成管理サーバから該文章データの読み誤りを解消する更新単語データを受信して単語辞書を更新する。
【0021】
【発明の実施の形態】
以下に添付図面を参照して、この発明に係る音声合成端末および音声合成管理サーバの好適な実施の形態について説明する。
【0022】
まず、本実施の形態にかかる音声合成端末および音声合成管理サーバの概要構成について説明する。図1は、本実施の形態にかかる音声合成端末および音声合成管理サーバの概要構成を説明する概要構成図である。同図において音声合成端末1は、携帯電話などに代表される携帯型の端末であり、文章データを音声によって読み上げる機能を有する。
【0023】
具体的には、音声合成端末1は、その内部に文章データ入力部11、言語処理部12、音響処理部13、音声データ出力部14、読み誤り検出部15、単語データ更新部16、送受信部17、単語辞書D1および波形辞書D2を備えている。
【0024】
また、音声合成管理サーバ2は、その内部に読み誤り受信部21、言語処理部22、更新単語データ作成部24、端末単語辞書D1、およびサーバ単語辞書D3を備えている。
【0025】
音声合成端末1において文章データ入力部11に文章データが入力されると、言語処理部12は、端末単語辞書D1を参照して文章データを表音データに変換する。音響処理部13は、この表音データに示されたそれぞれの音に対応する波形データを波形辞書D2から検索して合成し、音声データを作成する。
【0026】
音声データ出力部14は、音響処理部13が作成した音声データを外部に出力する。読み誤り検出部15は、表音データに読み誤りがあった場合に文章データ入力部11から読み誤りが生じた文章データが渡され、送受信部17を介して音声合成管理サーバ2に送信する。
【0027】
ここで、読み誤り検出部15による読み誤りの検出方法は、たとえば音声合成端末1に「読み誤り報告ボタン」等を設けておき、この読み誤り報告ボタンが押下された場合に、出力中の音声データに読み誤りが発生したと判定すればよい。
【0028】
音声合成管理サーバ2において読み誤り受信部21は、読み誤りが生じた文章データを受信し、言語処理部22に送信する。言語処理部22は、音声合成端末1における言語処理部12と同様に、端末単語辞書D1,サーバ単語辞書D3を切り替えて参照して文章データを表音データに変換する。なお、本実施例では言語処理部22を1つだけ用意して、端末単語辞書D1,サーバ単語辞書D3を切り替えて参照することにより該二つの辞書D1,D3を用いた言語処理を行っているが、該二つの辞書D1,D3にそれぞれの固有の言語処理部を個別に設けても良い。
【0029】
ここで、言語処理部22が参照する端末単語辞書D1は、言語処理部12が参照する端末単語辞書D1と同一である。そこで、言語処理部22が端末単語辞書D1を用いて変換出力する表音データは、言語処理部12が変換出力する表音データと同一の内容となる。一方、サーバ単語辞書D3は、上記端末単語辞書D1に含まれる語彙と比較して、より各種の語彙を含んだ大規模な単語辞書である。そこで、言語処理部22がサーバ単語辞書D3を用いて変換出力する表音データは、端末単語辞書D1を用いて変換出力する表音データに比して読み誤りが少なくなり、端末単語辞書D1を用いて変換した場合に読み誤りが発生した文章データを正確に読むことができる。なお、サーバ単語辞書D3が端末単語辞書D1に含まれる語彙を必ずしも全て持っている必要はない。
【0030】
したがって、言語処理部22が端末単語辞書D1を用いて変換出力する表音データとサーバ単語辞書D3を用いて変換出力する表音データとを比較することで、音声合成端末1において発生した読み誤りの内容を検出するとともに、読み誤りを解消するために端末単語辞書D1に必要な語彙を見出すことができる。
【0031】
更新単語データ作成部24は、言語処理部22が端末単語辞書D1とサーバ単語辞書D3を参照しながら、端末単語辞書D1を用いて作成した表音データとサーバ単語辞書D3を用いて作成した表音データとを比較し、端末単語辞書D1に必要な語彙を更新単語データとして作成し、音声合成端末1に送信する。
【0032】
音声合成端末1において単語データ更新部16は、送受信部17を介して受信した更新単語データに基づいて端末単語辞書D1の内容を書き換えることで端末単語辞書D1を更新する。
【0033】
このように、音声合成端末1において読み誤りが発生した文章データを音声合成管理サーバ2に送信し、音声合成端末1と同内容の単語辞書を用いた言語処理結果と、サーバ用の大規模な単語辞書を用いた言語処理結果とを比較することで、文章データを正しく読み上げるために必要な単語データを作成し、音声合成端末1の端末単語辞書D1を更新することができる。
【0034】
ここで、音声合成端末1において端末単語辞書D1の容量に制限があり単語データの更新によって容量が不足する場合、端末単語辞書D1の語彙のうち、所定の単語を削除して更新のための容量を確保する。
【0035】
したがって、端末単語辞書D1によって、音声合成端末1は端末単語辞書D1の容量を増加させることなく読み取り精度を向上させることができる。なお、この所定の単語としては、例えば、使用頻度の低いものや、端末単語辞書D1の予め設定しておいた優先順位に基づく優先順位の低い単語、他の機種や他のキャリアと共通ではない独自仕様の単語などのほか、本発明の本旨を逸しない範囲において多種多様な理由による設定が考えられる。
【0036】
さらに、端末単語辞書D1の更新を繰り返すことによって、音声合成端末1は、その使用者によって最も適切な語彙を含むようにカスタマイズされることとなる。
【0037】
換言するならば、本発明にかかる音声合成端末1は、十分な語彙を有し、正確な読み上げを実行できる音声合成管理サーバ2との通信によって、使用者にとって最適な読み上げ行う音声合成システムを最小限の辞書容量によって構築するものである。
【0038】
つぎに、音声合成端末1の言語処理部12および端末単語辞書D1についてさらに説明する。図2は、端末単語辞書D1の具体例を説明する説明図であり、図3は、言語処理部12による処理動作を説明するフローチャートである。
【0039】
図2に示すように、端末単語辞書D1は、「表記」、「フリガナ」、「品詞」および「アクセント型」の項目を有する。例えば、表記「漢字」は、フリガナが「カンジ」、品詞が「普通名詞」、アクセント型が「0」である。また、表記「幹事」は、フリガナが「カンジ」、品詞が「人称名詞」、アクセント型が「1」である。
【0040】
同様に、表記「新城」は、フリガナが「シンシロ」、品詞が「固有名詞(地名)」、アクセント型が「0」である。また、表記「高橋」は、フリガナが「タカハシ」、品詞が「固有名詞(姓)」、アクセント型が「2」である。
【0041】
ここで、項目「表記」は単語の表記を示し、項目「フリガナ」は単語の振り仮名を示す。また、項目「品詞」は、文章データの言語解析の際に、適切な単語を検索する際に用いる。さらに、項目「アクセント型」は、単語のアクセント核を何拍目に置くかを示す。具体的には、「漢字」を読み上げる場合と「幹事」を読み上げる場合、そのフリガナは共に「カンジ」である。しかし、「幹事」のアクセントは1型であるので、1拍目の「カ」の後でピッチを下げて読み上げるが、「漢字」のアクセントは0型であるので、どこにも下げるところがなく平板に読み上げる。
【0042】
この端末単語辞書D1を用い、言語処理部12は、文章データから表音データを作成する。具体的には、図3に示すように、まず、文章データが入力されたならば(ステップS101)、言語処理部12は、文章データを単語解析する(ステップS102)。具体的には、言語処理部12は、端末単語辞書D1を検索し、入力された文章データから考えられるすべての単語を候補として抽出したのち、隣接する単語の繋がりやすさと、各単語の長さや出現頻度などを用いて文章データを適切な単語に分解する。ここで、隣接する単語の繋がりやすさは、端末単語辞書D1における項目「品詞」によって評価することができる。
【0043】
つぎに、言語処理部12は、ステップS102の単語解析結果を用いて構文解析をおこなう(ステップS103)。具体的には、言語処理部12は、単語解析の結果得られた単語データを用いて文節を作成し、文節間の係り受け関係を解析する。文節は、単独の自立語(名詞、動詞など)、または1個の自立語とそれに後続する1個以上の付属語(助詞、助動詞)から成る。そこで、文節同士の文法上の関係と、文節の係り受けが他の文節の係り係り受けと交差しないという原則を考慮することで、それぞれの文節の係り受け関係を解析することができる。
【0044】
その後、言語処理部12は、ステップS103の構文解析結果を用いて韻律解析を行う(ステップS104)。具体的には、言語処理部12は、文章中の単語の品詞情報や係り受けの解析結果をもとに、ポーズ、すなわち無音時間の挿入位置や文章全体のイントネーションを決定する。
【0045】
言語処理部12は、この韻律解析の結果を表音データとして出力する(ステップS105)。表音データは読みを示す「カタカナ」、アクセント情報やイントネーションを示す記号からなり、後段の音響処理部13は、表音データに波形データを対応させることで音声データを合成することができる。
【0046】
つぎに、音声合成管理サーバ2の処理動作について説明する。図4は、音声合成管理サーバ2の処理動作を説明するフローチャートである。同図に示すように、まず、読み誤り受信部21が読み誤りが生じた文章データを受信したならば(ステップS201)、言語処理部22は、端末単語辞書D1を参照して第1の表音データを作成する(ステップS202)。また、言語処理部22は、サーバ単語辞書D3を参照して第2の表音データを作成する(ステップS203)。この時、言語処理部22による処理の詳細は、音声合成端末1における言語処理部12と同様である。
【0047】
つづいて、更新単語データ作成部24は、言語処理部22が端末単語辞書D1を用いて作成した第1の表音データと、サーバ単語辞書D3を用いて作成した第2の表音データとを比較する(ステップS204)。表音データに差が生じなかった場合(ステップS204,No)、更新単語データ作成部24は、端末単語辞書D1を更新する必要なしと判定し(ステップS207)、処理を終了する。
【0048】
一方、端末単語辞書D1を用いて作成した第1の表音データと、サーバ単語辞書D3を用いて作成した第2の表音データとの間に差が生じた場合(ステップS204,Yes)、更新単語データ作成部24は、読み誤りの解消に必要な端末辞書D1の更新内容を示す更新単語データを作成する(ステップS205)。この更新単語データには、端末単語辞書D1が単語を持っていないことが読み誤りの原因になっている場合には単語の追加が、端末単語辞書D1が余分な単語を持っていることが読み誤りの原因になっている場合には単語の削除が、それぞれ更新内容として含まれることになる。また、既に端末が持っている単語データの優先順位を上げる、または下げるための優先順位情報を更新内容として含むことも好ましい。
【0049】
その後、更新単語データ作成部24は、作成した更新単語データによって副作用が発生する可能性があるかか否かを判定する(ステップS206)。ここで、副作用とは、ある読み誤りを修正する更新によって、他の文章データで新たな読み誤りが発生することを示す。
【0050】
例えば、「新城」という固有名詞の場合、「シンシロ」と呼ばれる地名を指す場合と、「シンジョウ」と呼ばれる地名を指す場合とがある。「シンシロ」を意図した文章中において「シンジョウ」と読み誤った場合に、「新城」を常に「シンシロ」と読むように辞書を更新すると、次に「シンジョウ」と読むべき文章中において「シンシロ」と読み誤るという副作用が発生する。
【0051】
更新単語データ作成部24は、更新単語データによってこのような副作用が発生する場合には(ステップS206,Yes)、副作用の内容を示す副作用情報を作成し(ステップS208)、更新単語データと副作用情報とを音声合成端末1に送信して(ステップS209)処理を終了する。
【0052】
一方、更新単語データによる副作用がない場合(ステップS206,No)、更新単語データ作成部24は、作成した更新単語データを音声合成端末1に送信して(ステップS210)処理を終了する。
【0053】
ところで、音声合成端末1では、副作用がある場合と副作用がない場合とで処理を区別することが望ましい。具体的には、単語データ更新部16は、副作用の有無に関わらず、単語辞書の更新内容をユーザに表示して更新の許可を求める手動更新モードと、副作用がある場合にのみ更新の許可を求める半自動モードと、副作用の有無に関わらず自動的に更新を実行する自動更新モード1と、ユーザに確認を求めないで、副作用があったら更新せず、副作用がなかったら自動的に更新を実行する自動更新モード2とを有する。
【0054】
図5に示すように、単語データ更新部16は、手動更新モードにおいては音声合成管理サーバ2から更新単語データとともに副作用情報を受信した場合と、副作用情報が無く、更新単語データのみを受信した場合とで、それぞれ更新の許可を求める表示を行い、ユーザの許可を確認した後に更新を実行する。許可されなければ更新しない。
【0055】
また、半自動更新モードでは、単語データ更新部16は、音声合成管理サーバ2から更新単語データとともに副作用情報を受信した場合は更新の許可を求める表示を行い、ユーザの許可を確認した後に更新を実行する(許可されなければ更新しない)が、更新単語データのみを受信した場合には更新の許可を求めることなく自動的に更新を実行する。
【0056】
さらに、自動更新モード1では、単語データ更新部16は、音声合成管理サーバ2から更新単語データとともに副作用情報を受信した場合と、副作用情報が無く、更新単語データのみを受信した場合とで、ともに更新の許可を求めることなく自動的に更新を実行する。
【0057】
さらに、自動更新モード2では、単語データ更新部16は、音声合成管理サーバ2から更新データと共に副作用情報を受信した場合は特に何もせずに、副作用情報がなく更新データのみを受信した場合はユーザに更新の許可を求めることなく自動的に更新を実行する。
【0058】
つぎに、図6を参照し、半自動更新モードにおける単語データ更新部16の処理動作をさらに詳細に説明する。図6は、半自動更新モードにおける単語データ更新部16の処理動作を説明するフローチャートである。
【0059】
図6に示すように、音声合成管理サーバ2から更新単語データを受信したならば(ステップS301)、単語データ更新部16は、受信した更新単語データに副作用情報が付与されているか否かを判定する(ステップS302)。更新単語データに副作用情報が付与されていないならば(ステップS302,No)単語データ更新部16は端末単語辞書D1の更新を実行して(ステップS306)処理を終了する。
【0060】
一方、更新単語データに副作用情報が付与されているならば(ステップS302,Yes)、単語データ更新部16は、副作用情報を表示し(ステップS303)、ユーザに更新の許可を求める。
【0061】
副作用情報を見たユーザが更新を許可する入力指示を行ったならば(ステップS304,Yes)、単語データ更新部16は、端末単語辞書D1を更新し(ステップS306)、処理を終了する。しかし、ユーザが更新を許可しなければ(ステップS304,No)、単語データ更新部16は、端末単語辞書D1の更新を行わずに(ステップS305)処理を終了する。
【0062】
このように、端末単語辞書D1の更新によって副作用が生じる場合には、副作用の内容をユーザに表示し、ユーザの許可を得た更新単語データのみを使用することで、辞書の更新による新たな読み誤りの発生を防止することができる。
【0063】
なお、音声合成端末1が、ステップS306で端末単語辞書D1を更新した後、または、ステップS305で端末単語辞書D1を更新しなかった後、音声合成管理サーバ2に更新適用状況を通知することにより、該音声合成管理サーバ2では、該サーバ内の端末単語辞書D1に対し、該通知に応じた更新を反映し、音声合成端末1の端末単語辞書D1と音声合成管理サーバ2の端末単語辞書D1との整合性を保つことが好ましい。また、図5に示す音声合成端末1の単語データ更新部16の動作モードが半自動モードで副作用情報がなく自動更新を行う場合や、自動更新モード1または2であった場合には、該動作モードに応じて音声合成管理サーバ2で更新単語データを該音声合成端末1に送信すると同時に該サーバの端末単語辞書D1の更新をを並行して行うことも好ましい。
【0064】
ところで、音声合成端末での単語辞書の更新は、各ユーザにとって最適な辞書を作成することに主たる目的があるため、ユーザごとに個別に更新を行っている。しかし、更新の内容によっては他のユーザにとっても同様の更新を行うことが望ましい場合が考えられる。
【0065】
そこで、図7に示した音声合成管理サーバ2aでは、更新単語データ作成部24aに更新実績データベース25を接続して各端末に送信した更新単語データを蓄積し、同じ内容の更新単語データが所定数以上の端末に送信された場合に、同じ内容の更新単語データを他の端末にも送信するようにしている。
【0066】
たとえば、図7において音声合成端末3から読み誤りが生じた文章データが送信され、この文章データをもとに作成された更新単語データは、更新実績データベース25に格納される。
【0067】
ここで、既に同内容の更新単語データが記憶されており、音声合成端末3への送信によって同内容の更新単語データの送信実績が閾値に達した場合、この更新単語データは、他のユーザにとっても有効である可能性が高いと考えられる。
【0068】
そこで、読み誤りを指摘していない音声合成端末4に対しても、音声合成端末3に送信した更新単語データと同内容の更新単語データを送信することで、音声合成端末4における読み誤りの発生を未然に防ぐことができる。
【0069】
その他の構成は図1に示した音声合成管理サーバ2と同一であるので、同一の構成要素には同一の符号を付して説明を省略する。
【0070】
上述してきたように、本実施の形態に示した音声合成端末1では、言語処理部12が端末単語辞書D1を参照して表音データに変換する際に文章データの読み誤りが生じたならば、読み誤り検出部15が読み誤りが生じた文章データを音声合成管理サーバ2に送信し、音声合成管理サーバ2から文章データの読み誤りを解消する更新単語データを受信して単語データ更新部16が端末単語辞書D1の更新をおこなうので、単語辞書D1の容量を抑制しつつ読み誤りを解消し、音声合成の精度を向上することができる。
【0071】
また、本実施の形態に示した音声合成管理サーバ2では、音声合成端末1から読み誤りが生じた文章データを受信した場合に、音声合成端末1が有する端末単語辞書D1と同一の端末単語辞書D1を用いて言語処理を行うとともに、大規模なサーバ単語辞書D3を用いて言語処理をおこない、端末単語辞書D1を用いた言語処理の結果とサーバ単語辞書D3を用いた言語処理の結果とを比較して、読み誤りを解消するために必要な更新の内容を見出すので、音声合成端末1において発生する読み誤りを解消する更新単語データを自動的に作成することができる。
【0072】
このように、音声合成端末1および音声合成管理サーバ2によって音声合成システムを構築することで、音声合成端末上の記憶容量を抑制しつつ高精度な音声合成を実現できるので、携帯型の端末、たとえば電子メールの内容を音声によって読み上げる機能を有する携帯電話などに有用である。
【0073】
(付記1)端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末であって、
前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信手段と、
前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新手段と、
を備えたことを特徴とする音声合成端末。
【0074】
(付記2)前記単語辞書更新手段は、前記更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書を更新した場合に発生する新たな読み誤りの例である副作用情報をさらに受信し、該副作用情報に基づいて該端末単語辞書を更新するか否かを判定する
ことを特徴とする付記1に記載の音声合成端末。
(付記3)前記単語辞書更新手段は、前記更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書を更新した場合に発生する新たな読み誤りの例である副作用情報をさらに受信し、該副作用情報に基づく利用者の入力指示に基づき該端末単語辞書を更新する
ことを特徴とする付記1に記載の音声合成端末。
【0075】
(付記4)前記単語辞書更新手段は、前記単語辞書の更新によって前記端末単語辞書記憶手段の記憶容量が不足する場合に、該端末単語辞書記憶手段に記憶された端末単語辞書から所定の単語を削除する
ことを特徴とする付記1から3のいずれか一つに記載の音声合成端末。
【0076】
(付記5)前記単語辞書更新手段は、前記単語辞書の更新によって前記端末単語辞書記憶手段の記憶容量が不足する場合に、該端末単語辞書記憶手段に記憶された端末単語辞書から、最も使用頻度の低い単語、または、各単語に設定された優先順位が低い単語を削除する
ことを特徴とする付記1から3のいずれか一つに記載の音声合成端末。
【0077】
(付記6)端末単語辞書記憶手段に記憶する単語辞書に基づいて音声合成を実行する音声合成端末から、読み誤りが生じた文章データを受信する受信手段と、
サーバ内端末単語辞書記憶手段に記憶する、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書と同一の辞書を用いて前記受信手段で受信した文章データを第1の表音データに変換し、サーバ単語辞書記憶手段に記憶するサーバ単語辞書を用いて前記受信手段で受信した文章データを第2の表音データに変換する言語処理手段と、
前記言語処理手段が変換した第1の表音データと第2の表音データとを比較して、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書の更新を指示する更新単語データを作成する更新単語データ作成手段と、
前記更新単語データ作成手段で作成した更新単語データを前記音声合成端末に送信する更新単語データ送信手段と、
を備えたことを特徴とする音声合成管理サーバ。
【0078】
(付記7)前記更新単語データ送信手段は、前記音声合成端末が前記更新単語データに基づき前記端末単語辞書記憶手段に記憶した端末単語辞書を更新することによって発生する可能性のある新たな読み誤りの例を副作用情報として作成して前記音声合成端末に送信する
ことを特徴とする付記6に記載の音声合成管理サーバ。
【0079】
(付記8)前記更新単語データ送信手段は、同一の文章データの読み誤りを一定数以上の音声合成端末から受信した場合に、該文章データの読み誤りを受信していない音声合成端末へも該文章データの読み誤りを解消する更新単語データを送信する
ことを特徴とする付記6または7に記載の音声合成管理サーバ。
【0080】
(付記9)端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末が、
前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信工程と、
前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新工程と、
を実行することを特徴とする音声合成方法。
【0081】
(付記10)前記単語辞書更新工程は、前記更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書を更新した場合に発生する新たな読み誤りの例である副作用情報をさらに受信し、該副作用情報に基づいて該端末単語辞書を更新するか否かを判定する
ことを特徴とする付記9に記載の音声合成方法。
【0082】
(付記11)端末単語辞書記憶手段に記憶する端末単語辞書に基づいて音声合成を実行する音声合成端末から、読み誤りが生じた文章データを受信する受信工程と、
サーバ内端末単語辞書記憶手段に記憶する、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書と同一の辞書を用いて前記受信工程で受信した文章データを第1の表音データに変換し、サーバ単語辞書記憶手段に記憶するサーバ用単語辞書を用いて前記受信工程で受信した文章データを第2の表音データに変換する言語処理工程と、
前記言語処理工程が変換した第1の表音データと第2の表音データとを比較して、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書の更新を指示する更新単語データを作成する更新単語データ作成工程と、
前記更新単語データ作成工程で作成した更新単語データを前記音声合成端末に送信する更新単語データ送信工程と、
を実行することを特徴とする音声合成管理方法。
【0083】
(付記12)前記更新単語データ送信工程は、前記音声合成端末が前記更新単語データに基づき前記端末単語辞書記憶手段に記憶した端末単語辞書を更新することによって発生する可能性のある新たな読み誤りの例を副作用情報として作成して前記音声合成端末に送信する
ことを特徴とする付記11に記載の音声合成管理方法。
【0084】
(付記13)前記更新単語データ送信工程は、同一の文章データの読み誤りを一定数以上の音声合成端末から受信した場合に、該文章データの読み誤りを受信していない音声合成端末へも当該文章データの読み誤りを解消する更新単語データを送信する
ことを特徴とする付記11または12に記載の音声合成管理方法。
【0085】
【発明の効果】
以上説明したように、請求項1の発明によれば、音声合成端末は、単語辞書に基づいて文章データを音声データに合成する際に、読み誤りが生じた文章データを音声合成管理サーバに送信し、音声合成管理サーバから該文章データの読み誤りを解消する更新単語データを受信して単語辞書を更新するので、記憶容量を抑制しつつ高精度な音声合成を実行可能な音声合成端末が得られるという効果を奏する。
【0086】
また、請求項2の発明によれば、音声合成端末は、更新単語データに基づいて単語辞書を更新した場合に、新たな読み誤りが発生するか否かによって単語辞書を更新するか否かを決定するので、単語辞書の更新による新たな読み誤りの発生を防止し、高精度な音声合成を実行可能な音声合成端末が得られるという効果を奏する。
【0087】
また、請求項3の発明によれば、音声合成管理サーバは、音声合成端末から読み誤りが生じた文章データを受信した場合に、音声合成端末と同一の辞書を用いて第1の表音データに変換するとともに、サーバ用単語辞書を用いて第2の表音データに変換し、これら言語処理結果を比較して音声合成端末の単語辞書の更新を指示する更新単語データを作成するので、音声合成端末の更新内容を自動的に作成し、高精度な音声合成を実行させる音声合成管理サーバが得られるという効果を奏する。
【0088】
また、請求項4の発明によれば、音声合成管理サーバは、同一の読み誤りを一定数以上の音声合成端末から指摘された場合に、その読み誤りを指摘していない音声合成端末に対しても更新単語データを送信するので、読み誤りの発生を未然に防止し、高精度な音声合成を実行させる音声合成管理サーバが得られるという効果を奏する。
【0089】
また、請求項5の発明によれば、音声合成方法は、単語辞書に基づいて文章データを音声データに合成する際に、読み誤りが生じた文章データを音声合成管理サーバに送信し、音声合成管理サーバから読み誤りを解消する更新単語データを受信して単語辞書を更新するので、記憶容量を抑制しつつ高精度な音声合成を実行可能な音声合成方法が得られるという効果を奏する。
【図面の簡単な説明】
【図1】本実施の形態にかかる音声合成端末および音声合成管理サーバの概要構成を説明する概要構成図である。
【図2】図1に示した単語辞書の具体例を説明する説明図である。
【図3】図1に示した言語処理部による処理動作を説明するフローチャートである。
【図4】図1に示した音声合成管理サーバの処理動作を説明するフローチャートである。
【図5】図1に示した単語データ更新部の動作について説明する説明図である。
【図6】図5に示した半自動更新モードにおける単語データ更新部の処理動作を説明するフローチャートである。
【図7】図1に示した音声合成管理サーバの応用例を説明する説明図である。
【符号の説明】
1 音声合成端末
2 音声合成管理サーバ
11 文章データ入力部
12,22 言語処理部
13 音響処理部
14 音声データ出力部
15 読み誤り検出部
16 単語データ更新部
17 送受信部
21 読み誤り受信部
24,24a 更新単語データ作成部
D1,D3 単語辞書
D2 波形辞書

Claims (5)

  1. 端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末であって、
    前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信手段と、
    前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新手段と、
    を備えたことを特徴とする音声合成端末。
  2. 前記単語辞書更新手段は、前記更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書を更新した場合に発生する新たな読み誤りの例である副作用情報をさらに受信し、該副作用情報に基づいて該端末単語辞書を更新するか否かを判定する
    ことを特徴とする請求項1に記載の音声合成端末。
  3. 端末単語辞書記憶手段に記憶する単語辞書に基づいて音声合成を実行する音声合成端末から、読み誤りが生じた文章データを受信する受信手段と、
    サーバ内端末単語辞書記憶手段に記憶する、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書と同一の辞書を用いて前記受信手段で受信した文章データを第1の表音データに変換し、サーバ単語辞書記憶手段に記憶するサーバ単語辞書を用いて前記受信手段で受信した文章データを第2の表音データに変換する言語処理手段と、
    前記言語処理手段が変換した第1の表音データと第2の表音データとを比較して、前記音声合成端末の端末単語辞書記憶手段に記憶された端末単語辞書の更新を指示する更新単語データを作成する更新単語データ作成手段と、
    前記更新単語データ作成手段で作成した更新単語データを前記音声合成端末に送信する更新単語データ送信手段と、
    を備えたことを特徴とする音声合成管理サーバ。
  4. 前記更新単語データ送信手段は、同一の文章データの読み誤りを一定数以上の音声合成端末から受信した場合に、該文章データの読み誤りを受信していない音声合成端末へも該文章データの読み誤りを解消する更新単語データを送信する
    ことを特徴とする請求項3に記載の音声合成管理サーバ。
  5. 端末単語辞書記憶手段に記憶する端末単語辞書に基づいて文章データを表音データに変換し、波形辞書記憶手段に記憶する波形辞書に基づいて該表音データから音声データを合成して出力する音声合成端末が、
    前記表音データに前記文章データの読み誤りがある場合に、当該読み誤りが生じた文章データを音声合成管理サーバに送信する送信工程と、
    前記音声合成管理サーバから前記文章データの読み誤りを解消する更新単語データを受信し、該更新単語データに基づいて前記端末単語辞書記憶手段に記憶された端末単語辞書の更新を行う単語辞書更新工程と、
    を実行することを特徴とする音声合成方法。
JP2003149183A 2003-05-27 2003-05-27 音声合成端末、音声合成管理サーバおよび音声合成方法 Withdrawn JP2004354472A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003149183A JP2004354472A (ja) 2003-05-27 2003-05-27 音声合成端末、音声合成管理サーバおよび音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003149183A JP2004354472A (ja) 2003-05-27 2003-05-27 音声合成端末、音声合成管理サーバおよび音声合成方法

Publications (1)

Publication Number Publication Date
JP2004354472A true JP2004354472A (ja) 2004-12-16

Family

ID=34045366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003149183A Withdrawn JP2004354472A (ja) 2003-05-27 2003-05-27 音声合成端末、音声合成管理サーバおよび音声合成方法

Country Status (1)

Country Link
JP (1) JP2004354472A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086662A (ja) * 2007-09-25 2009-04-23 Honda Motor Co Ltd テキスト読み上げのためのテキスト前処理
JP2015165624A (ja) * 2014-03-03 2015-09-17 日本電気株式会社 単語遠隔登録システム、単語情報提供装置、単語遠隔登録装置および単語遠隔登録方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086662A (ja) * 2007-09-25 2009-04-23 Honda Motor Co Ltd テキスト読み上げのためのテキスト前処理
JP2015165624A (ja) * 2014-03-03 2015-09-17 日本電気株式会社 単語遠隔登録システム、単語情報提供装置、単語遠隔登録装置および単語遠隔登録方法

Similar Documents

Publication Publication Date Title
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
CN109313896B (zh) 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
KR101120710B1 (ko) 텍스트 처리 시스템 및 방법과, 컴퓨터 판독 가능 저장 매체
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
KR101626887B1 (ko) 음성번역시스템, 사전서버장치, 및 프로그램
JPH10274997A (ja) 文書読み上げ装置
KR20080015935A (ko) 합성 생성된 음성 객체의 발음 정정
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
US20060247921A1 (en) Speech dialog method and system
JP3059398B2 (ja) 自動通訳装置
JP2004354472A (ja) 音声合成端末、音声合成管理サーバおよび音声合成方法
JP5300576B2 (ja) 検索装置、検索方法、および検索プログラム
JP2758851B2 (ja) 自動翻訳装置及び自動通訳装置
Šoić et al. Spoken notifications in smart environments using Croatian language
JP3655808B2 (ja) 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
Sakti et al. Distributed speech translation technologies for multiparty multilingual communication
KR20160062588A (ko) 네트워크를 이용한 사용자 적응 음성 명령 인식 방법 및 그 장치
JP3857188B2 (ja) テキスト読み上げシステム及び方法
Seneff The use of subword linguistic modeling for multiple tasks in speech recognition
US8635071B2 (en) Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
JPH11259094A (ja) 規則音声合成装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060801