JP2007264466A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2007264466A
JP2007264466A JP2006091932A JP2006091932A JP2007264466A JP 2007264466 A JP2007264466 A JP 2007264466A JP 2006091932 A JP2006091932 A JP 2006091932A JP 2006091932 A JP2006091932 A JP 2006091932A JP 2007264466 A JP2007264466 A JP 2007264466A
Authority
JP
Japan
Prior art keywords
speech
user dictionary
reading
function
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006091932A
Other languages
English (en)
Other versions
JP2007264466A5 (ja
Inventor
Muneki Nakao
宗樹 中尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006091932A priority Critical patent/JP2007264466A/ja
Priority to US11/689,974 priority patent/US8234117B2/en
Publication of JP2007264466A publication Critical patent/JP2007264466A/ja
Publication of JP2007264466A5 publication Critical patent/JP2007264466A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声合成機能が具備するユーザ辞書において、特定の語句について、特定の読み上げをするように設定した場合でも、ユーザ辞書を使用する場合と、使用しない場合との切り分けが可能であり、音声合成装置が搭載する各機能に対して、最適な音声読み上げを行うことができる音声合成装置を提供することを目的とするものである。
【解決手段】特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書と、音声読み上げを行う機能を複数、具備する複数の音声合成機能と、上記複数の音声合成機能のうちで、1つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手段とを有する音声合成装置である。
【選択図】図5

Description

本発明は、通信回線に接続され音声データや画像データ、メール等マルチメディア通信に対応した情報通信装置における音声合成処理に関する。
従来では、自販機や自動改札等、公共の機器での音声合成機器の搭載が主であったが、音声合成機能を有する機器が増加の一途を辿り、近年では、電話機やカーナビ等の比較的安価な民生製品にまで、音声合成機能搭載の裾野が広がっている。このような音声合成機能の搭載で、個人レベルで使用する機器において、ユーザインタフェース性をより向上するような努力が払われている。
一方、上記機器においては、機能の複合化が進んでいる。たとえば、カーナビでは経路案内の機能に加えて、オーディオ機能の搭載や、さらには、ネット接続機能を搭載したインターネットのブラウジング機能を有する商品も出現し、機能の複合化が進んでいる。
この傾向は、電話機等においても同様であり、従来の電話機能に加えて、ネット接続機能や、スケジューラ機能の搭載等、電話機以外の機能を、複合的に搭載している。
そして、これら電話機等に複合的に搭載されている各機能に、音声合成を活用した機能が、搭載され、機器が具備している音声合成機能を、多目的で使用している。
たとえば、電話機の複合機能と音声合成機能との関係を挙げると、電話機能として言えば、着信時音声読み上げや、電話帳音声読み上げ等である。
また、スケジューラ機能としては、スケジュール通知機能がある。さらに、ネット接続機能としては、ホームページ読み上げ機能やメール読み上げ機能等を、音声合成機能として装備している。
次に、従来技術をより具体的に説明する。
まず、音声合成処理に際して、文書データベースに格納されている文書の分野情報を推定し、推定された分野情報に従って、文字認識処理において使用する認識辞書を切り替える方法が知られ(たとえば、特許文献1参照)、この従来例では、読み上げ対象文書の内容を事前に吟味する必要性が生じる。
また、音声合成処理に際して、読み上げテキストの解析段階で、入力された話者情報から話者別単語辞書を切り替える構成が知られている(たとえば、特許文献2参照)。
さらに、音声合成処理に際して、ゲームプログラムという装置の中のある特定の機能におけるタスク単位で、辞書を切り替え、読み上げる語句を、プログラム自身が予め保持している内容の読み上げが知られている(たとえば、特許文献3参照)。
特開平8−63478号公報 特開2000−187495号公報 特開2001−34282号公報
機器が搭載している音声合成機能に、ユーザ辞書機能を有する場合がある。
日本語等のヨミガナを有する言語においても、たとえば「三部」という語句は、人名のヨミガナとしては、「みつべ」であり、それ以外の意味で考えれば、「さんぶ」である。
電話機能として考えれば、「みつべさんから電話です」と、着信時に読み上げを行い、また、「みつべさんへダイヤルします」と、ダイヤル時に読み上げるのが望ましい。
しかし、音声合成機能のユーザ辞書に、「三部」=「みつべ」と読むように登録すると、電話機能としては、最適な読み上げを行うが、もし、機器が音声合成機能と連動したホームページ読み上げ機能を有している場合、たとえば「申請書は三部必要です」というホームページ内容を、「申請書はみつべ必要です」という読み上げになり、内容を正しく伝えることができないという問題がある。
一方、英語等のようにヨミガナを有さない言語においても、たとえば「Elizabeth」という語句は、人名として考えればニックネームで「Beth」または「Liz」と呼ぶ場合があるが、地名や公園や建物の名称として考えればニックネームは使わず「Elizabeth」のままである。
上記説明と同様に、ユーザ辞書機能において「Elizabeth」=「Liz」と読むように登録すると、たとえば電話機能において、着信時の読み上げ時に「calling from Liz」と読み上げるが、機器のホームページ読み上げでは、たとえば地名としての「The City of Elizabeth」という語句を、「The City of Liz」と読み上げ、正しい読み上げ内容とはならない。
この例は、ある1つの語句に関して、その語句の発音や単語を、略や短縮して読み上げることが分り易い機能と、省略や短縮すると意味が分からなくなる他の機能とが、1つの機器の中で複数存在している例である。
他の例を挙げると、英語で「THX」という略語は、1つには、映画館の劇場システムの名称である。この場合、「T」「H」「X」と3つのアルファベットで発音する。
一方、「THE HOUSTON EXPLORATION」という企業は、株式市場等で「THX」の略語にて使われ、ニュース等では「THE HOUSTON EXPLORATION」と発音されている。
そして、日常の手紙やメールで使う「THX」は、「Thanks」の発音を省略して表記するための略語であり、これを発音する場合は、「Thanks」と発音する。
このように、「THX」という語句について、それを使用する場面に依存して、その意味も読み上げ方も異なる3つの使い方がある。この例は、ある特定の1単語に対して、複数の読み方と意味とが存在している例であり、THXという語句について、全ての場面、機能において、ユーザ辞書機能の定義通りに読み上げると、意味と読み上げ方とが、ともに本来の意味とは明確に異なる。
以上のように、同じ表記語句に関して、状況に応じて「発音」や「読み上げ方」が変わる場合があることは、洋の東西を問わず共通し、具体的には様々なケースが存在する。
つまり、複合的な機能を有する機器、特に予め機器内部で読み上げる対象の語句を持たずに、ネット閲覧した内容を読み上げる機能、また、電話帳機能のように、予め機器に保有できない膨大な対象範囲の読み上げ語句を、電話帳データとしてユーザ入力して読み上げる機能等を有する装置において、正しく読み上げることができないという問題がある。
上記のように、語句の読み上げに関して、膨大な対象範囲の読み上げ語句を読む機能や、プライベート性のある内容を読み上げる機能、また、プライベート性のない一般的な内容を読み上げる機能等、互いに性質が異なる複数の機能を、装置内に複数有する機器において、装置の中で共通に使用されるユーザ辞書の内容が、各機能に対して、共通に反映され、ユーザ辞書に登録された語句によっては、都合の悪い機能が発生するという問題がある。
本発明は、音声合成機能が具備するユーザ辞書において、特定の語句について、特定の読み上げをするように設定した場合でも、ユーザ辞書を使用する場合と、使用しない場合との切り分けが可能であり、音声合成装置が搭載する各機能に対して、最適な音声読み上げを行うことができる音声合成装置を提供することを目的とするものである。
本発明は、特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書と、音声読み上げを行う機能を複数、具備する複数の音声合成機能と、上記複数の音声合成機能のうちで、1つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手段とを有する音声合成装置である。
本発明によれば、音声合成機能が具備するユーザ辞書において、特定の語句について、特定の読み上げをするように設定した場合でも、ユーザ辞書を使用する場合と、使用しない場合との切り分けが可能であり、音声合成装置が搭載する各機能に対して、最適な音声読み上げを行うことができ、音声合成装置の利便性を向上することができるという効果を奏する。
発明を実施するための最良の形態は、次の実施例である。
図1は、本発明の実施例1であるコードレス電話付きファクシミリ装置FS1を示すブロック図である。
コードレス電話付きファクシミリ装置FS1は、ファクシミリ装置の親機1と、子機15とを有する。
親機1は、読取部2と、記録部3と、表示部4と、メモリ5と、音声合成処理部6と、通信部7と、制御部8と、操作部9と、音声メモリ10と、D/A変換部11と、ハンドセット12と、無線I/F部23と、スピーカ13と、音声経路制御部14とを有する。
読取部2は、原稿の読み取りを行うもので、ライン単位に走査を行う着脱式のスキャナ等によって構成されている。記録部3は、画信号や装置定数等各種レポートの印字出力を行う。
表示部4は、登録等の操作の際のガイダンスや、各種警告、時刻等、装置の状態を表示し、また、着信時に回線から到来する発信者情報に基づいて、相手の電話番号や名前を表示するものである。
メモリ5は、各種データを保持する領域であり、ユーザが登録した電話帳や各種装置設定、FAX受信データや留守録の音声データ等を格納する。電話帳は、相手先の「名前」(自由入力)、「ヨミガナ」、「電話番号」、「メールアドレス」や「URL」が対応付けて記憶されている。
音声合成処理部6は、入力された文章を言語解析し、音響情報に変換した後にデジタル信号に変換して出力する。通信部7は、モデム、NCU(網制御装置)等からなり、通信網に接続されて通信データを授受する。
制御部8は、マイクロプロセッサ素子等からなり、図示しないROMに格納されているプログラムに従って、ファクシミリ装置FS1の全体を制御する。操作部9を介して、オペレータは、電話帳の登録や装置の設定を行い、その内容がメモリ5に記憶される。
D/A変換部11は、音声合成処理から出力されたデジタル信号を、一定の周期でアナログ信号に変換し、音声として出力する。ハンドセット12は、通話に使用される。無線I/F部23は、子機15との間で無線通信を行う際のインタフェース部で、音声とともに、親機1と子機15との間でコマンド、データを授受する。
スピーカ13は、外線や内線のモニタ音や、着信メロディ、音声合成による読み上げ音声等を出力する。音声経路制御部14は、親機ハンドセット12からの音声入出力端子と回線入出力端子とを接続したり、同様に親機ハンドセット12からの音声入出力端子を子機15の音声入出力端子と接続したり、図示しないが親機1のメロディ音源の出力端子をスピーカ13と接続したり、D/A変換部11とスピーカ13とを接続したり、D/A変換部11と回線とを接続する等、各種音声デバイスを相互に接続する。
子機15は、無線I/F部16と、メモリ17と、マイク18と、制御部19と、スピーカ20と、操作部21と、表示部22とを有する。無線I/F部16は、親機1との間で無線通信を行う際のインタフェース部であり、音声とともに、親機1と子機15との間におけるコマンド、データの授受を行う。
メモリ17は、無線I/F部16を介して、親機1から受信したデータを格納し、また、子機15の着信メロディをユーザが選択できるような各種設定値等が格納されている。
マイク18は、通話を行う際に使用され、音声入力、音声認識する際にも使用される。
制御部19は、マイクロプロセッサ素子等からなり、図示しないROMに格納されているプログラムに従って、子機15の全体を制御する。スピーカ20は、通話を行う際に使用される。
操作部21は、オペレータが、子機15の受話音量や着信音等詳細な設定、または子機15専用の電話帳登録を行うときに使用する。表示部22は、子機15でのダイヤル表示やナンバーディスプレイ機能による相手の電話番号を表示し、また、親機1から受信した音声認識結果等をオペレータに表示する。
図2は、音声合成処理において文章を入力した場合における基本的な処理を示すフローチャートである。
音声合成処理部6の中の機能のうちで、言語解析部202と、読み上げ辞書データ203と、音響処理部205とを使うことによって実現する処理の流れを簡略化して、図2に記載してある。
そして、音声合成処理部6に、読み上げ対象となる入力文章201が与えられると、言語解析部202は、読み上げ辞書データ203を参照し、入力文章をアクセント句単位に分割し、この分割されたアクセント句に、アクセントやポーズ等の情報を付与した音響情報を、テキストやフレームによって表した表音データ204に変換する。
この表音データを、音響処理部205に入力すると、解像度8bitで表現された音素片データに変換し、デジタル信号206を得ることができる。
表音データを予め用意することができれば、言語解析部202で上記処理を実行する必要はない。
図3は、図2に示す例において、言語解析部202における処理を除いた動作を示すフローチャートである。
たとえば、ファクシミリ装置FS1で、ユーザがファクシミリ送信を行おうとするときに、「送信を開始します」というガイダンスを流すときに、{送信を開始します}のような漢字かな交じり文を、音声処理部に与える必要はなく、アクセントやポーズ等の情報を付与した表音データ301の形式で{ソーシンオ/カイシシ/マ’ス.}という文章を、音響処理部302に与え、これによって、所望のデジタル信号303を得ることができる。ここで、音響処理部302は、音響処理部205と同じものである。
なお、実施例1では、{ }で囲まれたテキストで、読み上げる内容を表現する。つまり、ガイダンスのように、読み上げる内容が決まっている文章を、音声合成処理する場合、ファクシミリ装置FS1の内部のROMに、複数パターンの表音データを記憶しておけば、言語解析処理を、スキップすることができ、読み間違えもなく、正しい読み方で読み上げることができる。
図4は、音声合成処理において、入力を文章とした場合に、ユーザ辞書の内容も反映して処理を行う基本的な処理を示すフローチャートである。
まず、音声合成処理部6には、言語解析部402と、読み上げ辞書データ403と、ユーザ辞書データ404と、ソフトスイッチ405と、音響処理部407とが設けられており、ユーザ辞書の内容も反映して処理を行うための構成を簡略化して、図4に記載してある。
そして、音声合成処理部6に、読み上げ対象である入力文章401が与えられると、言語解析部402は、読み上げ辞書データ403を参照し、入力文章401を、アクセント句単位に分割し、ユーザ辞書データ404を使用するかどうかを選択するソフトスイッチ405が、ONであれば、読み上げ辞書データ403よりも、ユーザ辞書データ404の内容を優先して、入力文章401を解析する。
逆に、ソフトスイッチ405が、OFFであれば、ユーザ辞書データ404の内容を反映せずに、入力文章401を解析し、表音データを作成する。そして、アクセントやポーズ等の情報を付与した音響情報を、テキストやフレームによって表した表音データ406に変換する。この変換された表音データ406を、音響処理部407に入力すると、解像度8bitで表現された音素片データに変換し、デジタル信号408を得る。
ソフトスイッチ405は、音声合成を使用する上位の機能(たとえば、図5に示すようなWEB、MAILアプリケーション)によって、音声合成処理を行う前に切り替える。
図5は、図4に示す音声合成処理において、ユーザ辞書データ404の内容を反映させて、音声合成処理を行うか、ユーザ辞書データ404の内容を反映させないで、音声合成処理を行うかを、ファクシミリ装置FS1に搭載された動作ごとに、切り替える動作の概要を示すフローチャートである。
まず、ユーザ辞書データ404を使用しない動作群501が、音声合成機能を使用する場合について説明する。
ユーザ辞書データ404を使用しない動作群501において、たとえば、WEBアプリケーションにおいて、一般的には、ファクシミリ装置FS1の使用ユーザに関してのプライベートな情報を閲覧するよりも、新聞やショッピング情報、天気予報、役所等の公共情報や、マスメディア情報的な内容を閲覧するのが、主目的である。
このために、特定の個人名等について、特殊な読み上げ方をするようにユーザ辞書データ404を、機器に設定し、この設定内容を反映して読み上げると、不具合を生じる。
たとえば、上記のような不具合、すなわち、音声合成機能のユーザ辞書データ404に、「THX」=「THE HOUSTON EXPLORATION」と読むように、ユーザが登録すると、電話機能としては、宛先や着信相手の名称として最適な読み上げを行う。しかし、一方で、この機器のWEB機能を用い、映画関連のサイトを閲覧した場合、たとえば、「The THX system is not a recording technology」というサイトの文章は、「The THE HOUSTON EXPLORATION system is not a recording technology」という読み上げになり、音声合成機能による音声では、内容を正しく伝えることができない。
このために、WEBアプリケーションを動作させる場合、ユーザ辞書データ404を使用するかどうかを選択するスイッチ405をOFFし、ユーザ辞書使用フラグ503を、OFFにする。
次に、音声合成処理において、このユーザ辞書使用フラグ503を参照し、処理する。
図5において、図4に示す処理の言語解析部402部分の処理506において、ユーザ辞書使用フラグ503のONまたはOFFを参照し、ユーザ辞書使用フラグ503がONである場合、言語解析部402における処理において、読み上げ辞書データ403の参照に加えて、ユーザ辞書データ404をも参照する。この際、ユーザ辞書データ404の内容の優先度を高くすることによって、ユーザの登録内容を反映した音声を出力することができる。
すなわち、ユーザ辞書データ404において、「THX」=「THE HOUSTON EXPLORATION」という登録が行われていれば、「THX」を、「THE HOUSTON EXPLORATION」と読まずに、「T」「H」「X」と読むような音声合成処理を行う。また、ユーザ辞書使用フラグ503がOFFである場合、言語解析部402の処理において、読み上げ辞書データ403のみを参照し、音声合成処理を行う。
つまり、たとえばユーザ辞書データ404において、「THX」=「THE HOUSTON EXPLORATION」という登録が行なわれていても、「THX」は「T」「H」「X」と読む音声合成処理を行う。
また、上記WEBアプリケーションの動作と同様に、ユーザ辞書データ404を使用しない動作群として、たとえば、コピーアプリケーションやメールアプリケーションがあるが、これらも処理としては、上記と同様であり、それぞれの動作を行う場合、ユーザ辞書データ404を使用するかどうかを選択するスイッチ405をOFFし、各アプリケーションの動作に伴う音声合成処理を、ユーザ辞書データ404を使わずに処理する。
ユーザ辞書データ404を使用する動作群502としては、たとえば、電話帳アプリケーションがある。
この場合、ユーザ辞書データ404において、「THX」=「THE HOUSTON EXPLORATION」という登録が行なわれていると、「THX」を、「THE HOUSTON EXPLORATION」と読み上げるので、「THXへダイヤルします」という音声合成処理を行う場合、「THE HOUSTON EXPLORATIONへダイヤルします」と読み上げる処理を行う。
ユーザ辞書データ404を使用する動作群502において、一般的には、ファクシミリ装置FS1の使用ユーザに関するプライベートな内容がユーザ辞書データ404に登録される場合が多く、電話帳や着信等の電話関連の機能やメール関連の機能が相当する。
これらの機能を動作させる場合、ユーザ辞書データ404を使用するかどうかを選択するスイッチ405をONし、ユーザ辞書使用フラグ503をONとし、次に、音声合成処理において、このユーザ辞書使用フラグ503を参照し、言語解析部402は、ユーザ辞書データ404を参照し、ユーザ辞書データ404に登録されている内容を読み上げ、読み上げ辞書に登録されている内容よりも優先度を高めて処理する。
実施例1は、音声合成処理において、ユーザ辞書データ404を参照する処理、または参照しない処理を、ユーザ辞書使用フラグ503によって切り替える例であるが、これ以外の手段によって、両処理を切り替えるようにしてもよい。
たとえば、音声合成のモジュール自体を、ユーザ辞書データ404を参照するモジュールと、ユーザ辞書データ404を参照しないモジュールとの2つのモジュールに分け、アプリケーションでフラグをセットするのではなく、どちらのモジュールを呼び出すかを判断させるようにしてもよい。
ここで、メールアプリケーションは、図示しない装置に予め登録されているメールアドレスに含まれていない宛先から配信されたメールは、上記ユーザ辞書データ404を使用しない動作群として割り当て、メールアドレスが上記装置に予め登録されている宛先から配信されたメールは、上記ユーザ辞書データ404を使用する動作群として割り当てる(ユーザ辞書データ404を使用する動作群502を実行する)アプリケーションである。
さらに、メールアプリケーション以外のアプリケーション、たとえば電話の着信アプリケーションにおいても、装置に予め登録されていない相手からの着信について、上記ユーザ辞書データ404を使用しない動作群として割り当て、相手が装置に予め登録されている宛先から受けた着信について、上記ユーザ辞書データ404を使用する動作群として割り当てるようにしてもよい。また、電話帳機能を呼び出した場合においても同様に、装置に予め登録されていない相手を選択した場合、上記ユーザ辞書データ404を使用しない動作群として割り当て、相手が装置に予め登録されている宛先を選択した場合は、上記ユーザ辞書データ404を使用する動作群として割り当てるようにしてもよい。
図6は、本発明の実施例2の説明図である。
実施例2は、図5で説明した例とは異なり、ユーザ辞書データ404を使用する場合は、図2に示す処理に従って音声合成処理し、ユーザ辞書データ404を使用しない場合は、図3に示す音声合成処理を行う方法に従って音声合成処理する。
つまり、ユーザ辞書データ404を使用しない機能については、音声合成する対象として、文書を入力するのではなく、表音データ406を入力する。これによって、ユーザ辞書データ404の内容を反映することなく、音声読み上げの処理を行うことができる。
まず、ユーザ辞書データ404を使用しない動作群601において、ユーザ辞書データ404を使用するかどうかを選択するスイッチ405をOFFし、ユーザ辞書使用フラグ603をOFFにする。ユーザ辞書データ404を使用する動作群602において、ユーザ辞書データ404を使用するかどうかを選択するスイッチ405をONし、ユーザ辞書使用フラグ603をONにする。
次に、音声合成処理を開始し、ユーザ辞書使用フラグ603の状態を判断し、ユーザ辞書使用フラグ603がOFFであれば(S1)、表音テキストの読み上げ処理に進む(S2)。ユーザ辞書使用フラグ603がONであれば(S1)、文書テキストの読み上げ処理に進む(S3)。
表音テキストの読み上げ処理(S2)を実行する場合、図3に示す処理を実行する。ここでは、たとえば、装置に搭載されている機能は、コピー機能やFAX送信機能であり、原稿のセットやエラー解除を促すための音声ガイダンスを送出し、ダイヤル入力や原稿送信モードを促すための音声ガイダンスを、音声合成機能で送出する処理を実行する。
これらの音声ガイダンスについては、もしユーザ辞書データ404の内容が反映されると、意味の異なる音声ガイダンスになるので、装置に予め用意されている表音テキストの読み上げ処理(S2)を実行する。
また、文書テキストの読み上げ処理(S3)を実行する場合、図4に示す処理を実行し、ユーザ辞書データ404の内容を反映させる制御スイッチ405をONとし、音声読み上げ処理を行う。
ここでは、たとえば、装置に搭載されている機能は、WEBアプリケーション、メール機能、電話機能等の読み上げを行う等、語句の内容に制限がなく、装置に予め含まれていない文字列を、読み上げる性質の機能である。
すなわち、上記実施例は、特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書と、音声合成処理を用いて音声読み上げを行う音声合成機能を複数具備し、上記複数の音声合成機能のうちで、1つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手段とを有する音声合成装置の例である。
なお、上記実施例は、特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書を使用する音声合成装置の制御方法において、音声読み上げを行う機能を複数、具備する工程と、上記複数の音声合成機能のうちで、1つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御工程とを有することを特徴とする音声合成装置の制御方法の例である。
また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書を使用して音声合成するプログラムにおいて、音声読み上げを行う機能を複数、具備する手順と、上記複数の音声合成機能のうちで、1つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手順とをコンピュータに実行させるプログラムの例である。
本発明の実施例1であるコードレス電話付きファクシミリ装置FS1を示すブロック図である。 音声合成処理において文章を入力した場合における基本的な処理を示すフローチャートである。 図2に示す例において、言語解析部202における処理を除いた動作を示すフローチャートである。 音声合成処理において、入力を文章とした場合に、ユーザ辞書の内容も反映して処理を行う基本的な処理を示すフローチャートである。 図4に示す音声合成処理において、ユーザ辞書データ404の内容を反映させて、音声合成処理を行うか、ユーザ辞書データ404の内容を反映させないで、音声合成処理を行うかを、ファクシミリ装置FS1に搭載された動作ごとに、切り替える動作の概要を示すフローチャートである。 本発明の実施例2の説明図である。
符号の説明
FS1…コードレス電話付きファクシミリ装置、
1…親機、
6…音声合成処理部、
8…制御部、
15…子機、
19…制御部、
202、402…言語解析部、
203、403…読み上げ辞書データ、
205、302、407…音響処理部、
404…ユーザ辞書データ、
405…ソフトスイッチ、
503、603…ユーザ辞書使用フラグ。

Claims (8)

  1. 特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書と;
    音声合成処理を用いて音声読み上げを行なう音声合成機能を複数具備し、
    上記複数の音声合成機能のうちで、1つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手段と;
    を有することを特徴とする音声合成装置。
  2. 請求項1において、
    上記音声合成処理は、複数の辞書機能を組み合わせて動作する複数のモードを持ち、
    上記モードは、音声合成処理を呼び出す音声合成機能から選択可能であることを特徴とする音声合成装置。
  3. 請求項1において、
    上記音声合成処理は、ユーザ辞書機能を使って音声処理を行うモードと、ユーザ辞書機能を使わずに音声合成処理を行うモードとの2つのモードを持ち、上記モードは、音声合成処理を呼び出す音声合成機能から選択可能であることを特徴とする音声合成装置。
  4. 請求項1において、
    複数の音声合成機能のうちで、メール機能を呼び出したときに、
    装置に予め登録されているメールアドレスから配信されたメールは上記ユーザ辞書を反映させて音声読み上げを行い、
    装置に予め登録されていないメールアドレスから配信されたメールは上記ユーザ辞書を反映させないで音声読み上げを行うことを特徴とする音声合成装置。
  5. 請求項1において、
    複数の音声合成機能のうちで、電話着信機能および電話帳機能を呼び出したときに、
    装置に予め登録されている電話番号が対象となる読み上げを行う場合には上記ユーザ辞書を反映させて音声読み上げを行い、
    装置に予め登録されていない電話番号が対象となる読み上げを行う場合には上記ユーザ辞書を反映させないで音声読み上げを行うことを特徴とする音声合成装置。
  6. 請求項1において、
    複数の音声合成機能のうち選択された音声合成機能に応じて、上記音声合成処理方法を変更することを特徴とする音声合成装置。
  7. 特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書を使用する音声合成装置の制御方法において、
    音声読み上げを行う機能を複数、具備する工程と;
    上記複数の音声合成機能のうちで、1つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御工程と;
    を有することを特徴とする音声合成装置の制御方法。
  8. 特定の語句に特定の読み上げを関連付けて読み上げするためのユーザ辞書を使用して音声合成するプログラムにおいて、
    音声読み上げを行う機能を複数、具備する手順と;
    上記複数の音声合成機能のうちで、1つの音声合成機能を呼び出したときに、上記ユーザ辞書を反映させるかどうかを選択し、音声読み上げを行う制御手順と;
    をコンピュータに実行させるプログラム。
JP2006091932A 2006-03-29 2006-03-29 音声合成装置 Pending JP2007264466A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006091932A JP2007264466A (ja) 2006-03-29 2006-03-29 音声合成装置
US11/689,974 US8234117B2 (en) 2006-03-29 2007-03-22 Speech-synthesis device having user dictionary control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006091932A JP2007264466A (ja) 2006-03-29 2006-03-29 音声合成装置

Publications (2)

Publication Number Publication Date
JP2007264466A true JP2007264466A (ja) 2007-10-11
JP2007264466A5 JP2007264466A5 (ja) 2009-05-14

Family

ID=38560477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006091932A Pending JP2007264466A (ja) 2006-03-29 2006-03-29 音声合成装置

Country Status (2)

Country Link
US (1) US8234117B2 (ja)
JP (1) JP2007264466A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US10102852B2 (en) * 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
JP6828741B2 (ja) * 2016-05-16 2021-02-10 ソニー株式会社 情報処理装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227396A (ja) * 1988-07-15 1990-01-30 Ricoh Co Ltd アクセント型指定方式
JPH08272392A (ja) * 1995-03-30 1996-10-18 Sanyo Electric Co Ltd 音声出力装置
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
JPH09258785A (ja) * 1996-03-22 1997-10-03 Sony Corp 情報処理方法および情報処理装置
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
JP2001350489A (ja) * 2000-06-07 2001-12-21 Oki Electric Ind Co Ltd 音声合成装置
JP2004013850A (ja) * 2002-06-11 2004-01-15 Fujitsu Ltd ユーザ固有の表意文字に対応したテキスト表示/読上げ装置及び方法
JP2006098934A (ja) * 2004-09-30 2006-04-13 Canon Inc 音声合成装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
JP3466689B2 (ja) * 1994-01-26 2003-11-17 キヤノン株式会社 手書き文字認識方法及びその装置
JP3453422B2 (ja) * 1994-02-10 2003-10-06 キヤノン株式会社 文字パターンのユーザ辞書への登録方法及び該ユーザ辞書を有する文字認識装置
JPH0863478A (ja) 1994-08-26 1996-03-08 Toshiba Corp 言語処理方法及び言語処理装置
US5787231A (en) * 1995-02-02 1998-07-28 International Business Machines Corporation Method and system for improving pronunciation in a voice control system
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6016471A (en) * 1998-04-29 2000-01-18 Matsushita Electric Industrial Co., Ltd. Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
JP3576848B2 (ja) 1998-12-21 2004-10-13 日本電気株式会社 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP2001034282A (ja) 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US7032174B2 (en) * 2001-03-27 2006-04-18 Microsoft Corporation Automatically adding proper names to a database
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
EP1552502A1 (en) * 2002-10-04 2005-07-13 Koninklijke Philips Electronics N.V. Speech synthesis apparatus with personalized speech segments
US8666746B2 (en) * 2004-05-13 2014-03-04 At&T Intellectual Property Ii, L.P. System and method for generating customized text-to-speech voices
US20050267757A1 (en) * 2004-05-27 2005-12-01 Nokia Corporation Handling of acronyms and digits in a speech recognition and text-to-speech engine
US7630898B1 (en) * 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227396A (ja) * 1988-07-15 1990-01-30 Ricoh Co Ltd アクセント型指定方式
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
JPH08272392A (ja) * 1995-03-30 1996-10-18 Sanyo Electric Co Ltd 音声出力装置
JPH09258785A (ja) * 1996-03-22 1997-10-03 Sony Corp 情報処理方法および情報処理装置
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
JP2001350489A (ja) * 2000-06-07 2001-12-21 Oki Electric Ind Co Ltd 音声合成装置
JP2004013850A (ja) * 2002-06-11 2004-01-15 Fujitsu Ltd ユーザ固有の表意文字に対応したテキスト表示/読上げ装置及び方法
JP2006098934A (ja) * 2004-09-30 2006-04-13 Canon Inc 音声合成装置

Also Published As

Publication number Publication date
US20070233493A1 (en) 2007-10-04
US8234117B2 (en) 2012-07-31

Similar Documents

Publication Publication Date Title
JP4296598B2 (ja) 通信端末装置および通信端末処理プログラム
US8705705B2 (en) Voice rendering of E-mail with tags for improved user experience
JP2000305583A (ja) 音声合成装置
JP3806030B2 (ja) 情報処理装置及び方法
JP2007264466A (ja) 音声合成装置
KR20070031117A (ko) 데이터 검색기능이 구비된 이동통신 단말기 및 그 동작방법
JP4721399B2 (ja) 音声出力装置、音声出力方法、およびプログラム
US20060217982A1 (en) Semiconductor chip having a text-to-speech system and a communication enabled device
JPH04175049A (ja) 音声応答装置
WO2008071939A1 (en) Improved text handling for mobile devices
JP4042580B2 (ja) 発音記述言語による音声合成をする端末装置
JP2006094126A (ja) 音声合成装置
JP5248051B2 (ja) 電子機器
JP2008228055A (ja) 携帯電話機および留守番録音方法
JP3873747B2 (ja) 通信装置
JP2005091888A (ja) 通信装置、情報処理方法ならびにプログラム、記憶媒体
JPH04175046A (ja) 音声応答装置
JPH02149059A (ja) データ送受信装置およびこれを用いたファクシミリ装置
JP2006128783A (ja) 携帯端末装置とその着信処理方法
JP2002140086A (ja) 携帯電話機用のショートメッセージから音声出力への変換装置
JP2006220917A (ja) 伝送装置及び携帯電話システム
KR20010035529A (ko) 음성 캐릭터 메시지 전송방법, 음성캐릭터 메시징 서비스시스템
JP2006060431A (ja) 携帯電話端末および携帯電話端末におけるメール受信通報方法
JP2002344572A (ja) 携帯電話端末、プログラム、プログラムを記録した記録媒体
KR20050025458A (ko) 휴대단말기의 착신 경보 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110401