JP2007264466A

JP2007264466A - 音声合成装置

Info

Publication number: JP2007264466A
Application number: JP2006091932A
Authority: JP
Inventors: Muneki Nakao; 宗樹中尾
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-03-29
Filing date: 2006-03-29
Publication date: 2007-10-11
Also published as: US20070233493A1; US8234117B2

Abstract

【課題】音声合成機能が具備するユーザ辞書において、特定の語句について、特定の読み上げをするように設定した場合でも、ユーザ辞書を使用する場合と、使用しない場合との切り分けが可能であり、音声合成装置が搭載する各機能に対して、最適な音声読み上げを行うことができる音声合成装置を提供することを目的とするものである。
【解決手段】特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書と、音声読み上げを行う機能を複数、具備する複数の音声合成機能と、上記複数の音声合成機能のうちで、１つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手段とを有する音声合成装置である。
【選択図】図５

Description

本発明は、通信回線に接続され音声データや画像データ、メール等マルチメディア通信に対応した情報通信装置における音声合成処理に関する。

従来では、自販機や自動改札等、公共の機器での音声合成機器の搭載が主であったが、音声合成機能を有する機器が増加の一途を辿り、近年では、電話機やカーナビ等の比較的安価な民生製品にまで、音声合成機能搭載の裾野が広がっている。このような音声合成機能の搭載で、個人レベルで使用する機器において、ユーザインタフェース性をより向上するような努力が払われている。

一方、上記機器においては、機能の複合化が進んでいる。たとえば、カーナビでは経路案内の機能に加えて、オーディオ機能の搭載や、さらには、ネット接続機能を搭載したインターネットのブラウジング機能を有する商品も出現し、機能の複合化が進んでいる。

この傾向は、電話機等においても同様であり、従来の電話機能に加えて、ネット接続機能や、スケジューラ機能の搭載等、電話機以外の機能を、複合的に搭載している。

そして、これら電話機等に複合的に搭載されている各機能に、音声合成を活用した機能が、搭載され、機器が具備している音声合成機能を、多目的で使用している。

たとえば、電話機の複合機能と音声合成機能との関係を挙げると、電話機能として言えば、着信時音声読み上げや、電話帳音声読み上げ等である。

また、スケジューラ機能としては、スケジュール通知機能がある。さらに、ネット接続機能としては、ホームページ読み上げ機能やメール読み上げ機能等を、音声合成機能として装備している。

次に、従来技術をより具体的に説明する。

まず、音声合成処理に際して、文書データベースに格納されている文書の分野情報を推定し、推定された分野情報に従って、文字認識処理において使用する認識辞書を切り替える方法が知られ（たとえば、特許文献１参照）、この従来例では、読み上げ対象文書の内容を事前に吟味する必要性が生じる。

また、音声合成処理に際して、読み上げテキストの解析段階で、入力された話者情報から話者別単語辞書を切り替える構成が知られている（たとえば、特許文献２参照）。

さらに、音声合成処理に際して、ゲームプログラムという装置の中のある特定の機能におけるタスク単位で、辞書を切り替え、読み上げる語句を、プログラム自身が予め保持している内容の読み上げが知られている（たとえば、特許文献３参照）。
特開平８−６３４７８号公報特開２０００−１８７４９５号公報特開２００１−３４２８２号公報

機器が搭載している音声合成機能に、ユーザ辞書機能を有する場合がある。

日本語等のヨミガナを有する言語においても、たとえば「三部」という語句は、人名のヨミガナとしては、「みつべ」であり、それ以外の意味で考えれば、「さんぶ」である。

電話機能として考えれば、「みつべさんから電話です」と、着信時に読み上げを行い、また、「みつべさんへダイヤルします」と、ダイヤル時に読み上げるのが望ましい。

しかし、音声合成機能のユーザ辞書に、「三部」＝「みつべ」と読むように登録すると、電話機能としては、最適な読み上げを行うが、もし、機器が音声合成機能と連動したホームページ読み上げ機能を有している場合、たとえば「申請書は三部必要です」というホームページ内容を、「申請書はみつべ必要です」という読み上げになり、内容を正しく伝えることができないという問題がある。

一方、英語等のようにヨミガナを有さない言語においても、たとえば「Ｅｌｉｚａｂｅｔｈ」という語句は、人名として考えればニックネームで「Ｂｅｔｈ」または「Ｌｉｚ」と呼ぶ場合があるが、地名や公園や建物の名称として考えればニックネームは使わず「Ｅｌｉｚａｂｅｔｈ」のままである。

上記説明と同様に、ユーザ辞書機能において「Ｅｌｉｚａｂｅｔｈ」＝「Ｌｉｚ」と読むように登録すると、たとえば電話機能において、着信時の読み上げ時に「ｃａｌｌｉｎｇｆｒｏｍＬｉｚ」と読み上げるが、機器のホームページ読み上げでは、たとえば地名としての「ＴｈｅＣｉｔｙｏｆＥｌｉｚａｂｅｔｈ」という語句を、「ＴｈｅＣｉｔｙｏｆＬｉｚ」と読み上げ、正しい読み上げ内容とはならない。

この例は、ある１つの語句に関して、その語句の発音や単語を、略や短縮して読み上げることが分り易い機能と、省略や短縮すると意味が分からなくなる他の機能とが、１つの機器の中で複数存在している例である。

他の例を挙げると、英語で「ＴＨＸ」という略語は、１つには、映画館の劇場システムの名称である。この場合、「Ｔ」「Ｈ」「Ｘ」と３つのアルファベットで発音する。

一方、「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮ」という企業は、株式市場等で「ＴＨＸ」の略語にて使われ、ニュース等では「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮ」と発音されている。

そして、日常の手紙やメールで使う「ＴＨＸ」は、「Ｔｈａｎｋｓ」の発音を省略して表記するための略語であり、これを発音する場合は、「Ｔｈａｎｋｓ」と発音する。

このように、「ＴＨＸ」という語句について、それを使用する場面に依存して、その意味も読み上げ方も異なる３つの使い方がある。この例は、ある特定の１単語に対して、複数の読み方と意味とが存在している例であり、ＴＨＸという語句について、全ての場面、機能において、ユーザ辞書機能の定義通りに読み上げると、意味と読み上げ方とが、ともに本来の意味とは明確に異なる。

以上のように、同じ表記語句に関して、状況に応じて「発音」や「読み上げ方」が変わる場合があることは、洋の東西を問わず共通し、具体的には様々なケースが存在する。

つまり、複合的な機能を有する機器、特に予め機器内部で読み上げる対象の語句を持たずに、ネット閲覧した内容を読み上げる機能、また、電話帳機能のように、予め機器に保有できない膨大な対象範囲の読み上げ語句を、電話帳データとしてユーザ入力して読み上げる機能等を有する装置において、正しく読み上げることができないという問題がある。

上記のように、語句の読み上げに関して、膨大な対象範囲の読み上げ語句を読む機能や、プライベート性のある内容を読み上げる機能、また、プライベート性のない一般的な内容を読み上げる機能等、互いに性質が異なる複数の機能を、装置内に複数有する機器において、装置の中で共通に使用されるユーザ辞書の内容が、各機能に対して、共通に反映され、ユーザ辞書に登録された語句によっては、都合の悪い機能が発生するという問題がある。

本発明は、音声合成機能が具備するユーザ辞書において、特定の語句について、特定の読み上げをするように設定した場合でも、ユーザ辞書を使用する場合と、使用しない場合との切り分けが可能であり、音声合成装置が搭載する各機能に対して、最適な音声読み上げを行うことができる音声合成装置を提供することを目的とするものである。

本発明は、特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書と、音声読み上げを行う機能を複数、具備する複数の音声合成機能と、上記複数の音声合成機能のうちで、１つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手段とを有する音声合成装置である。

本発明によれば、音声合成機能が具備するユーザ辞書において、特定の語句について、特定の読み上げをするように設定した場合でも、ユーザ辞書を使用する場合と、使用しない場合との切り分けが可能であり、音声合成装置が搭載する各機能に対して、最適な音声読み上げを行うことができ、音声合成装置の利便性を向上することができるという効果を奏する。

発明を実施するための最良の形態は、次の実施例である。

図１は、本発明の実施例１であるコードレス電話付きファクシミリ装置ＦＳ１を示すブロック図である。

コードレス電話付きファクシミリ装置ＦＳ１は、ファクシミリ装置の親機１と、子機１５とを有する。

親機１は、読取部２と、記録部３と、表示部４と、メモリ５と、音声合成処理部６と、通信部７と、制御部８と、操作部９と、音声メモリ１０と、Ｄ／Ａ変換部１１と、ハンドセット１２と、無線Ｉ／F部２３と、スピーカ１３と、音声経路制御部１４とを有する。

読取部２は、原稿の読み取りを行うもので、ライン単位に走査を行う着脱式のスキャナ等によって構成されている。記録部３は、画信号や装置定数等各種レポートの印字出力を行う。

表示部４は、登録等の操作の際のガイダンスや、各種警告、時刻等、装置の状態を表示し、また、着信時に回線から到来する発信者情報に基づいて、相手の電話番号や名前を表示するものである。

メモリ５は、各種データを保持する領域であり、ユーザが登録した電話帳や各種装置設定、ＦＡＸ受信データや留守録の音声データ等を格納する。電話帳は、相手先の「名前」（自由入力）、「ヨミガナ」、「電話番号」、「メールアドレス」や「ＵＲＬ」が対応付けて記憶されている。

音声合成処理部６は、入力された文章を言語解析し、音響情報に変換した後にデジタル信号に変換して出力する。通信部７は、モデム、ＮＣＵ（網制御装置）等からなり、通信網に接続されて通信データを授受する。

制御部８は、マイクロプロセッサ素子等からなり、図示しないＲＯＭに格納されているプログラムに従って、ファクシミリ装置ＦＳ１の全体を制御する。操作部９を介して、オペレータは、電話帳の登録や装置の設定を行い、その内容がメモリ５に記憶される。

Ｄ／Ａ変換部１１は、音声合成処理から出力されたデジタル信号を、一定の周期でアナログ信号に変換し、音声として出力する。ハンドセット１２は、通話に使用される。無線Ｉ／Ｆ部２３は、子機１５との間で無線通信を行う際のインタフェース部で、音声とともに、親機１と子機１５との間でコマンド、データを授受する。

スピーカ１３は、外線や内線のモニタ音や、着信メロディ、音声合成による読み上げ音声等を出力する。音声経路制御部１４は、親機ハンドセット１２からの音声入出力端子と回線入出力端子とを接続したり、同様に親機ハンドセット１２からの音声入出力端子を子機１５の音声入出力端子と接続したり、図示しないが親機１のメロディ音源の出力端子をスピーカ１３と接続したり、Ｄ／Ａ変換部１１とスピーカ１３とを接続したり、Ｄ／Ａ変換部１１と回線とを接続する等、各種音声デバイスを相互に接続する。

子機１５は、無線Ｉ／Ｆ部１６と、メモリ１７と、マイク１８と、制御部１９と、スピーカ２０と、操作部２１と、表示部２２とを有する。無線Ｉ／Ｆ部１６は、親機１との間で無線通信を行う際のインタフェース部であり、音声とともに、親機１と子機１５との間におけるコマンド、データの授受を行う。

メモリ１７は、無線Ｉ／Ｆ部１６を介して、親機１から受信したデータを格納し、また、子機１５の着信メロディをユーザが選択できるような各種設定値等が格納されている。

マイク１８は、通話を行う際に使用され、音声入力、音声認識する際にも使用される。

制御部１９は、マイクロプロセッサ素子等からなり、図示しないＲＯＭに格納されているプログラムに従って、子機１５の全体を制御する。スピーカ２０は、通話を行う際に使用される。

操作部２１は、オペレータが、子機１５の受話音量や着信音等詳細な設定、または子機１５専用の電話帳登録を行うときに使用する。表示部２２は、子機１５でのダイヤル表示やナンバーディスプレイ機能による相手の電話番号を表示し、また、親機１から受信した音声認識結果等をオペレータに表示する。

図２は、音声合成処理において文章を入力した場合における基本的な処理を示すフローチャートである。

音声合成処理部６の中の機能のうちで、言語解析部２０２と、読み上げ辞書データ２０３と、音響処理部２０５とを使うことによって実現する処理の流れを簡略化して、図２に記載してある。

そして、音声合成処理部６に、読み上げ対象となる入力文章２０１が与えられると、言語解析部２０２は、読み上げ辞書データ２０３を参照し、入力文章をアクセント句単位に分割し、この分割されたアクセント句に、アクセントやポーズ等の情報を付与した音響情報を、テキストやフレームによって表した表音データ２０４に変換する。

この表音データを、音響処理部２０５に入力すると、解像度８ｂｉｔで表現された音素片データに変換し、デジタル信号２０６を得ることができる。

表音データを予め用意することができれば、言語解析部２０２で上記処理を実行する必要はない。

図３は、図２に示す例において、言語解析部２０２における処理を除いた動作を示すフローチャートである。

たとえば、ファクシミリ装置ＦＳ１で、ユーザがファクシミリ送信を行おうとするときに、「送信を開始します」というガイダンスを流すときに、｛送信を開始します｝のような漢字かな交じり文を、音声処理部に与える必要はなく、アクセントやポーズ等の情報を付与した表音データ３０１の形式で｛ソーシンオ／カイシシ／マ’ス．｝という文章を、音響処理部３０２に与え、これによって、所望のデジタル信号３０３を得ることができる。ここで、音響処理部３０２は、音響処理部２０５と同じものである。

なお、実施例１では、｛｝で囲まれたテキストで、読み上げる内容を表現する。つまり、ガイダンスのように、読み上げる内容が決まっている文章を、音声合成処理する場合、ファクシミリ装置ＦＳ１の内部のＲＯＭに、複数パターンの表音データを記憶しておけば、言語解析処理を、スキップすることができ、読み間違えもなく、正しい読み方で読み上げることができる。

図４は、音声合成処理において、入力を文章とした場合に、ユーザ辞書の内容も反映して処理を行う基本的な処理を示すフローチャートである。

まず、音声合成処理部６には、言語解析部４０２と、読み上げ辞書データ４０３と、ユーザ辞書データ４０４と、ソフトスイッチ４０５と、音響処理部４０７とが設けられており、ユーザ辞書の内容も反映して処理を行うための構成を簡略化して、図４に記載してある。

そして、音声合成処理部６に、読み上げ対象である入力文章４０１が与えられると、言語解析部４０２は、読み上げ辞書データ４０３を参照し、入力文章４０１を、アクセント句単位に分割し、ユーザ辞書データ４０４を使用するかどうかを選択するソフトスイッチ４０５が、ＯＮであれば、読み上げ辞書データ４０３よりも、ユーザ辞書データ４０４の内容を優先して、入力文章４０１を解析する。

逆に、ソフトスイッチ４０５が、ＯＦＦであれば、ユーザ辞書データ４０４の内容を反映せずに、入力文章４０１を解析し、表音データを作成する。そして、アクセントやポーズ等の情報を付与した音響情報を、テキストやフレームによって表した表音データ４０６に変換する。この変換された表音データ４０６を、音響処理部４０７に入力すると、解像度８ｂｉｔで表現された音素片データに変換し、デジタル信号４０８を得る。

ソフトスイッチ４０５は、音声合成を使用する上位の機能（たとえば、図５に示すようなＷＥＢ、ＭＡＩＬアプリケーション）によって、音声合成処理を行う前に切り替える。

図５は、図４に示す音声合成処理において、ユーザ辞書データ４０４の内容を反映させて、音声合成処理を行うか、ユーザ辞書データ４０４の内容を反映させないで、音声合成処理を行うかを、ファクシミリ装置ＦＳ１に搭載された動作ごとに、切り替える動作の概要を示すフローチャートである。

まず、ユーザ辞書データ４０４を使用しない動作群５０１が、音声合成機能を使用する場合について説明する。

ユーザ辞書データ４０４を使用しない動作群５０１において、たとえば、ＷＥＢアプリケーションにおいて、一般的には、ファクシミリ装置ＦＳ１の使用ユーザに関してのプライベートな情報を閲覧するよりも、新聞やショッピング情報、天気予報、役所等の公共情報や、マスメディア情報的な内容を閲覧するのが、主目的である。

このために、特定の個人名等について、特殊な読み上げ方をするようにユーザ辞書データ４０４を、機器に設定し、この設定内容を反映して読み上げると、不具合を生じる。

たとえば、上記のような不具合、すなわち、音声合成機能のユーザ辞書データ４０４に、「ＴＨＸ」＝「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮ」と読むように、ユーザが登録すると、電話機能としては、宛先や着信相手の名称として最適な読み上げを行う。しかし、一方で、この機器のＷＥＢ機能を用い、映画関連のサイトを閲覧した場合、たとえば、「ＴｈｅＴＨＸｓｙｓｔｅｍｉｓｎｏｔａｒｅｃｏｒｄｉｎｇｔｅｃｈｎｏｌｏｇｙ」というサイトの文章は、「ＴｈｅＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮｓｙｓｔｅｍｉｓｎｏｔａｒｅｃｏｒｄｉｎｇｔｅｃｈｎｏｌｏｇｙ」という読み上げになり、音声合成機能による音声では、内容を正しく伝えることができない。

このために、ＷＥＢアプリケーションを動作させる場合、ユーザ辞書データ４０４を使用するかどうかを選択するスイッチ４０５をＯＦＦし、ユーザ辞書使用フラグ５０３を、ＯＦＦにする。

次に、音声合成処理において、このユーザ辞書使用フラグ５０３を参照し、処理する。

図５において、図４に示す処理の言語解析部４０２部分の処理５０６において、ユーザ辞書使用フラグ５０３のＯＮまたはＯＦＦを参照し、ユーザ辞書使用フラグ５０３がＯＮである場合、言語解析部４０２における処理において、読み上げ辞書データ４０３の参照に加えて、ユーザ辞書データ４０４をも参照する。この際、ユーザ辞書データ４０４の内容の優先度を高くすることによって、ユーザの登録内容を反映した音声を出力することができる。

すなわち、ユーザ辞書データ４０４において、「ＴＨＸ」＝「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮ」という登録が行われていれば、「ＴＨＸ」を、「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮ」と読まずに、「Ｔ」「Ｈ」「Ｘ」と読むような音声合成処理を行う。また、ユーザ辞書使用フラグ５０３がＯＦＦである場合、言語解析部４０２の処理において、読み上げ辞書データ４０３のみを参照し、音声合成処理を行う。

つまり、たとえばユーザ辞書データ４０４において、「ＴＨＸ」＝「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮ」という登録が行なわれていても、「ＴＨＸ」は「Ｔ」「Ｈ」「Ｘ」と読む音声合成処理を行う。

また、上記ＷＥＢアプリケーションの動作と同様に、ユーザ辞書データ４０４を使用しない動作群として、たとえば、コピーアプリケーションやメールアプリケーションがあるが、これらも処理としては、上記と同様であり、それぞれの動作を行う場合、ユーザ辞書データ４０４を使用するかどうかを選択するスイッチ４０５をＯＦＦし、各アプリケーションの動作に伴う音声合成処理を、ユーザ辞書データ４０４を使わずに処理する。

ユーザ辞書データ４０４を使用する動作群５０２としては、たとえば、電話帳アプリケーションがある。

この場合、ユーザ辞書データ４０４において、「ＴＨＸ」＝「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮ」という登録が行なわれていると、「ＴＨＸ」を、「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮ」と読み上げるので、「ＴＨＸへダイヤルします」という音声合成処理を行う場合、「ＴＨＥＨＯＵＳＴＯＮＥＸＰＬＯＲＡＴＩＯＮへダイヤルします」と読み上げる処理を行う。

ユーザ辞書データ４０４を使用する動作群５０２において、一般的には、ファクシミリ装置ＦＳ１の使用ユーザに関するプライベートな内容がユーザ辞書データ４０４に登録される場合が多く、電話帳や着信等の電話関連の機能やメール関連の機能が相当する。

これらの機能を動作させる場合、ユーザ辞書データ４０４を使用するかどうかを選択するスイッチ４０５をＯＮし、ユーザ辞書使用フラグ５０３をＯＮとし、次に、音声合成処理において、このユーザ辞書使用フラグ５０３を参照し、言語解析部４０２は、ユーザ辞書データ４０４を参照し、ユーザ辞書データ４０４に登録されている内容を読み上げ、読み上げ辞書に登録されている内容よりも優先度を高めて処理する。

実施例１は、音声合成処理において、ユーザ辞書データ４０４を参照する処理、または参照しない処理を、ユーザ辞書使用フラグ５０３によって切り替える例であるが、これ以外の手段によって、両処理を切り替えるようにしてもよい。

たとえば、音声合成のモジュール自体を、ユーザ辞書データ４０４を参照するモジュールと、ユーザ辞書データ４０４を参照しないモジュールとの２つのモジュールに分け、アプリケーションでフラグをセットするのではなく、どちらのモジュールを呼び出すかを判断させるようにしてもよい。

ここで、メールアプリケーションは、図示しない装置に予め登録されているメールアドレスに含まれていない宛先から配信されたメールは、上記ユーザ辞書データ４０４を使用しない動作群として割り当て、メールアドレスが上記装置に予め登録されている宛先から配信されたメールは、上記ユーザ辞書データ４０４を使用する動作群として割り当てる（ユーザ辞書データ４０４を使用する動作群５０２を実行する）アプリケーションである。

さらに、メールアプリケーション以外のアプリケーション、たとえば電話の着信アプリケーションにおいても、装置に予め登録されていない相手からの着信について、上記ユーザ辞書データ４０４を使用しない動作群として割り当て、相手が装置に予め登録されている宛先から受けた着信について、上記ユーザ辞書データ４０４を使用する動作群として割り当てるようにしてもよい。また、電話帳機能を呼び出した場合においても同様に、装置に予め登録されていない相手を選択した場合、上記ユーザ辞書データ４０４を使用しない動作群として割り当て、相手が装置に予め登録されている宛先を選択した場合は、上記ユーザ辞書データ４０４を使用する動作群として割り当てるようにしてもよい。

図６は、本発明の実施例２の説明図である。

実施例２は、図５で説明した例とは異なり、ユーザ辞書データ４０４を使用する場合は、図２に示す処理に従って音声合成処理し、ユーザ辞書データ４０４を使用しない場合は、図３に示す音声合成処理を行う方法に従って音声合成処理する。

つまり、ユーザ辞書データ４０４を使用しない機能については、音声合成する対象として、文書を入力するのではなく、表音データ４０６を入力する。これによって、ユーザ辞書データ４０４の内容を反映することなく、音声読み上げの処理を行うことができる。

まず、ユーザ辞書データ４０４を使用しない動作群６０１において、ユーザ辞書データ４０４を使用するかどうかを選択するスイッチ４０５をＯＦＦし、ユーザ辞書使用フラグ６０３をＯＦＦにする。ユーザ辞書データ４０４を使用する動作群６０２において、ユーザ辞書データ４０４を使用するかどうかを選択するスイッチ４０５をＯＮし、ユーザ辞書使用フラグ６０３をＯＮにする。

次に、音声合成処理を開始し、ユーザ辞書使用フラグ６０３の状態を判断し、ユーザ辞書使用フラグ６０３がＯＦＦであれば（Ｓ１）、表音テキストの読み上げ処理に進む（Ｓ２）。ユーザ辞書使用フラグ６０３がＯＮであれば（Ｓ１）、文書テキストの読み上げ処理に進む（Ｓ３）。

表音テキストの読み上げ処理（Ｓ２）を実行する場合、図３に示す処理を実行する。ここでは、たとえば、装置に搭載されている機能は、コピー機能やＦＡＸ送信機能であり、原稿のセットやエラー解除を促すための音声ガイダンスを送出し、ダイヤル入力や原稿送信モードを促すための音声ガイダンスを、音声合成機能で送出する処理を実行する。

これらの音声ガイダンスについては、もしユーザ辞書データ４０４の内容が反映されると、意味の異なる音声ガイダンスになるので、装置に予め用意されている表音テキストの読み上げ処理（Ｓ２）を実行する。

また、文書テキストの読み上げ処理（Ｓ３）を実行する場合、図４に示す処理を実行し、ユーザ辞書データ４０４の内容を反映させる制御スイッチ４０５をＯＮとし、音声読み上げ処理を行う。

ここでは、たとえば、装置に搭載されている機能は、ＷＥＢアプリケーション、メール機能、電話機能等の読み上げを行う等、語句の内容に制限がなく、装置に予め含まれていない文字列を、読み上げる性質の機能である。

すなわち、上記実施例は、特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書と、音声合成処理を用いて音声読み上げを行う音声合成機能を複数具備し、上記複数の音声合成機能のうちで、１つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手段とを有する音声合成装置の例である。

なお、上記実施例は、特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書を使用する音声合成装置の制御方法において、音声読み上げを行う機能を複数、具備する工程と、上記複数の音声合成機能のうちで、１つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御工程とを有することを特徴とする音声合成装置の制御方法の例である。

また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書を使用して音声合成するプログラムにおいて、音声読み上げを行う機能を複数、具備する手順と、上記複数の音声合成機能のうちで、１つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手順とをコンピュータに実行させるプログラムの例である。

本発明の実施例１であるコードレス電話付きファクシミリ装置ＦＳ１を示すブロック図である。音声合成処理において文章を入力した場合における基本的な処理を示すフローチャートである。図２に示す例において、言語解析部２０２における処理を除いた動作を示すフローチャートである。音声合成処理において、入力を文章とした場合に、ユーザ辞書の内容も反映して処理を行う基本的な処理を示すフローチャートである。図４に示す音声合成処理において、ユーザ辞書データ４０４の内容を反映させて、音声合成処理を行うか、ユーザ辞書データ４０４の内容を反映させないで、音声合成処理を行うかを、ファクシミリ装置ＦＳ１に搭載された動作ごとに、切り替える動作の概要を示すフローチャートである。本発明の実施例２の説明図である。

符号の説明

ＦＳ１…コードレス電話付きファクシミリ装置、
１…親機、
６…音声合成処理部、
８…制御部、
１５…子機、
１９…制御部、
２０２、４０２…言語解析部、
２０３、４０３…読み上げ辞書データ、
２０５、３０２、４０７…音響処理部、
４０４…ユーザ辞書データ、
４０５…ソフトスイッチ、
５０３、６０３…ユーザ辞書使用フラグ。

Claims

特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書と；
音声合成処理を用いて音声読み上げを行なう音声合成機能を複数具備し、
上記複数の音声合成機能のうちで、１つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手段と；
を有することを特徴とする音声合成装置。
請求項１において、
上記音声合成処理は、複数の辞書機能を組み合わせて動作する複数のモードを持ち、
上記モードは、音声合成処理を呼び出す音声合成機能から選択可能であることを特徴とする音声合成装置。
請求項１において、
上記音声合成処理は、ユーザ辞書機能を使って音声処理を行うモードと、ユーザ辞書機能を使わずに音声合成処理を行うモードとの２つのモードを持ち、上記モードは、音声合成処理を呼び出す音声合成機能から選択可能であることを特徴とする音声合成装置。
請求項１において、
複数の音声合成機能のうちで、メール機能を呼び出したときに、
装置に予め登録されているメールアドレスから配信されたメールは上記ユーザ辞書を反映させて音声読み上げを行い、
装置に予め登録されていないメールアドレスから配信されたメールは上記ユーザ辞書を反映させないで音声読み上げを行うことを特徴とする音声合成装置。
請求項１において、
複数の音声合成機能のうちで、電話着信機能および電話帳機能を呼び出したときに、
装置に予め登録されている電話番号が対象となる読み上げを行う場合には上記ユーザ辞書を反映させて音声読み上げを行い、
装置に予め登録されていない電話番号が対象となる読み上げを行う場合には上記ユーザ辞書を反映させないで音声読み上げを行うことを特徴とする音声合成装置。
請求項１において、
複数の音声合成機能のうち選択された音声合成機能に応じて、上記音声合成処理方法を変更することを特徴とする音声合成装置。
特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書を使用する音声合成装置の制御方法において、
音声読み上げを行う機能を複数、具備する工程と；
上記複数の音声合成機能のうちで、１つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御工程と；
を有することを特徴とする音声合成装置の制御方法。
特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書を使用して音声合成するプログラムにおいて、
音声読み上げを行う機能を複数、具備する手順と；
上記複数の音声合成機能のうちで、１つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手順と；
をコンピュータに実行させるプログラム。