JP2009003395A - 音声読み上げのための装置、プログラム及び方法 - Google Patents

音声読み上げのための装置、プログラム及び方法 Download PDF

Info

Publication number
JP2009003395A
JP2009003395A JP2007167019A JP2007167019A JP2009003395A JP 2009003395 A JP2009003395 A JP 2009003395A JP 2007167019 A JP2007167019 A JP 2007167019A JP 2007167019 A JP2007167019 A JP 2007167019A JP 2009003395 A JP2009003395 A JP 2009003395A
Authority
JP
Japan
Prior art keywords
phoneme
speech
length
reading
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007167019A
Other languages
English (en)
Other versions
JP5029168B2 (ja
Inventor
Rika Nishiike
理香 西池
Hitoshi Sasaki
均 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007167019A priority Critical patent/JP5029168B2/ja
Priority to EP08157665A priority patent/EP2009620B1/en
Priority to US12/213,115 priority patent/US20080319754A1/en
Priority to KR1020080059820A priority patent/KR101019851B1/ko
Priority to CN2008101248954A priority patent/CN101334995B/zh
Publication of JP2009003395A publication Critical patent/JP2009003395A/ja
Application granted granted Critical
Publication of JP5029168B2 publication Critical patent/JP5029168B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】文字データの音声読み上げに関し、摩擦音又はその他の音素の音素長の調整により高速読み上げの認識性を高めることにある。
【解決手段】摩擦音又はその他の音素を含む文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、摩擦音又はその他の音素を含む文字データから前記摩擦音の存在を認識し、摩擦音又はその他の音素が持つ音素長を制御する。摩擦音は、「f」、「v」、「s」、「z」等の子音である。この摩擦音又はその他の音素の音素長の制御は例えば、読み上げ速度に応じて実行し、読み上げ速度が高速の場合には摩擦音の音素長を伸長させる。斯かる構成により、聴感上、読み上げられる音声の聞き取り易さが向上し、音声読み上げの認識性を高めている。
【選択図】図1

Description

本発明は、文書等の表音文字を含む文字データを音声に変換して出力する音声読み上げのための装置、プログラム及び方法に関し、音素長を読み上げ速度に応じて制御し、特に、高速読み上げにおいて、特定の音素等を選択して伸長又は短縮することを可能にする音声読み上げのための装置、プログラム及び方法に関する。
表音文字を含む文字データを解析し、その文字データから音声合成法により音声合成を行い、文字データを音声として出力する所謂音声読み上げの技術が知られている。携帯電話機等の携帯端末装置にあっては、メール等の自由文章を読み上げる音声合成機能が普及し始めている。また、パーソナルコンピュータ(PC)にあっては、スクリーンリーダと呼ばれるソフトウェアが普及し始めている。文章の内容を音声により理解する場合には、聴覚に作用する母音、摩擦音、ポーズ等を表す音素の長さが認識性を高める上で重要なファクターとなる。
このような音声読み上げに関し、特許文献1には、発話速度情報が予め定められた値未満のときは、発話速度をその情報に基づいて標準より速くするため、モーラ長を最小限に設定し、発話速度情報に応じた短いフレーム周期を設定し、発話速度情報が予め定められた値以上のときは、発話速度をその情報に基づいて標準より遅くするため、発話速度情報に応じた長いモーラ長を設定し、フレーム周期を最大値に設定する音声合成が開示されている。
特開平6−149283号公報(要約及び図1等)
ところで、読み上げ速度(話速)を設定可能にした場合、話速に反比例して各音素長が設定されるものとする。例えば、話速を2倍の速さとすれば、その音素長は1/2となり、話速を1/2に遅くすれば、音素長は2倍となる。このように話速と音素長との関係を単純な関係に設定し、即ち、話速と音素長とを単純に反比例とすれば、通常の話速では自然な場合(聴き取り易い場合)であっても、高速読みや低速読みの場合には、聞き取り難く、違和感があり、認識性を低下させる場合がある。
斯かる要求や課題について、特許文献1にはその開示や示唆はなく、それを解決する構成等についての開示や示唆はない。
そこで、本発明の目的は、文字データの音声読み上げに関し、摩擦音の音素長又はその他の音素の音素長の調整により高速読み上げの認識性を高めることにある。
斯かる目的は、ポーズを含む文字データの摩擦音又はその他の音素に対する認識性が読み上げ速度に応じて影響を受けるとの知見に基づくものである。
斯かる目的を具体的に述べれば、文字データの音声読み上げに関し、摩擦音の音素長又は、その他の音素長の伸長等により、高速読み上げ音声の聞き取り易さを向上させることにある。
上記目的を達成するため、本発明は、摩擦音又はその他の音素を含む文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、摩擦音を含む文字データから摩擦音又はその他の音素の存在を認識し、摩擦音又はその他のの音素が持つ音素長を制御する。摩擦音は、「f」、「v」、「s」、「z」等の子音である。この摩擦音の音素長の制御は例えば、読み上げ速度に応じて実行し、読み上げ速度が高速の場合には摩擦音又はその他の音素の音素長を伸長させる。斯かる構成により、聴感上、読み上げられる音声の聞き取り易さが向上し、音声読み上げの認識性を高めている。
そこで、上記目的を達成するため、本発明の第1の側面は、文字データを音声に変換して読み上げる音声読み上げ装置であって、前記文字データから音素の種類を判定する音素判定部と、音素に読み上げ速度に応じた音素長を設定し、音素が摩擦音である場合に前記音素判定部の判定結果に基づき、前記摩擦音の音素長を調整する音素長調整部とを備える構成である。
斯かる構成によれば、文字データ、表音文字列から音素の種類を判別し、読み上げ速度に応じた音素長を設定するとともに、摩擦音の音素長を調整するので、読み上げ速度が高速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、音素長の調整分を呼気段落を単位に他の音素長の調整で増減して補完するので、読み上げ時間の間延びを防止できる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、音素長の調整分を文章を単位に他の音素長の調整で増減して補完するので、読み上げ時間の間延びや再生時間の延びを防止できる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮する構成としてもよい。斯かる構成によれば、ポーズが存在するための間延び感を抑制でき、再生時間が延びることを防止できる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する構成としてもよい。斯かる構成によれば、ポーズの削除により、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する構成としてもよい。斯かる構成によれば、音素長の伸長に対応してポーズ長を含む他の音素長を短縮するので、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。
上記目的を達成するため、本発明の第2の側面は、文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、前記文字データから音素の種類を判定する手順と、音素に読み上げ速度に応じた音素長を設定する手順と、音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する手順とを前記コンピュータに実行させる構成である。斯かる構成によれば、第1の側面で述べた通り、上記目的を達成することができる。
上記目的を達成するため、本発明の第3の側面は、文字データを音声に変換して読み上げる音声読み上げ方法であって、前記文字データから音素の種類を判定する工程と、音素に読み上げ速度に応じた音素長を設定する工程と、音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する工程とを備える構成である。斯かる構成によれば、第1の側面で述べた通り、上記目的を達成することができる。
本発明によれば、次のような効果が得られる。
(1) 文字データを音声に変換して読み上げる音素について、摩擦音の音素長を伸長させるので、聞き取り易くでき、認識性を高めることができる。
(2) 摩擦音の音素長を伸長すれば、一定比率で音素長を削減する場合に比較して聞き取り易くできる。
(3) 特定の音素を伸長した場合、その音素長の伸長に対し、その伸長分に応じて他の音素の音素長を短縮すれば、読み上げ速度を高速化しても、聞き取り易さを損なうことなく、再生時間を短縮できる。
(4) 特定の音素を伸長した場合、その音素長の伸長に対し、その伸長分に応じて一部又は全部のポーズ長の短縮し、又は削除すれば、読み上げ速度を高速化しても、聞き取り易さを損なうことなく、再生時間を短縮できる。
そして、本発明の他の目的、特徴及び利点は、添付図面及び各実施の形態を参照することにより、一層明確になるであろう。
〔第1の実施の形態〕
本発明の第1の実施の形態について、図1及び図2を参照する。図1は、音声読み上げ装置の構成例を示すブロック図、図2は、音声読み上げ装置の音素長制御部の構成例を示すブロック図である。
この音声読み上げ装置2は、本発明の音声読み上げのための装置、プログラム及び方法の構成例であって、コンピュータで構成され、例えば、テキスト文章(日本語では漢字かな混じり文)等、摩擦音やポーズを含む文字データを音声に変換して読み上げる音声合成装置で構成され、文字データ中の摩擦音の音素長を話速(読み上げ速度)に応じて制御することにより、文字データから得た出力音声の聞き易さを高め、合成音声(読み上げ出力)の認識性を向上させたものである。ここで、文字データは音声読み上げの対象であって、摩擦音やポーズを含む表音文字、その文字列を含むデータであり、表音文字又はその表音文字列は、音声合成で使用する韻律記号付き発音記号からなる中間言語であって、韻律記号付きの発音記号(読み仮名)である。摩擦音は、口腔内の発音器官が狭めを作り、息がそこを通過する際に発せられる子音であり、この子音には「f」、「v」、「s」、「z」等がある。ポーズは、音声に変換されない区間等の無音区間である(但し、破裂音の直前の休止期間や促音は除かれる)。例えば、「卒業して、信用金庫に・・・」(ローマ字表記:so tsugyoushi te、 shinyou kin koni・・・)といった日本語文章では、「卒業して」と、「信用金庫」との間に、無音区間となる句点「、」が存在し、これがポーズの一例である。また、このポーズと呼気段落との関係について、呼気段落は人間が一息に発声する単位であり、この呼気段落の前後の息継ぎには既述のポーズが入ることになる。
斯かる機能を実現するため、この音声読み上げ装置2では、図1に示すように、言語処理部4と、単語辞書6と、パラメータ生成部8と、ピッチ切出し・重合せ部10と、波形辞書12とが備えられている。
言語処理部4は、漢字かな混じり文を入力して、単語辞書6を参照して単語を解析し、読み、アクセント、イントネーションを決定し、表音文字列(中間言語)を出力する言語処理手段である。また、単語辞書6には、単語の種類(品詞等)と読みや、アクセントの位置等が格納されている。
アクセントと、イントネーションとは、物理的にはピッチ周波数の時間的変化パターンと密接に関係している。具体的には、アクセント位置でピッチ周波数は高くなり、イントネーションが上がると、ピッチ周波数が高くなる。そこで、言語処理部4では、入力テキストでの句読点や、単語解析によって抽出された文節に基づいて、既述の呼気段落に分割する。
パラメータ生成部8は、音素継続時間、ポーズ継続時間やピッチ周波数パターンの設定を行うパラメータ生成手段である。このパラメータ生成部8では、話速に応じて音素長の制御を行っている。
このパラメータ生成部8には、音素長設定部14と、音素長テーブル16と、音素長制御部18と、ピッチパターン生成部20とが備えられている。
言語処理部4で生成された表音文字列の段階において、どの音素を音声合成するかが決定される。音素長設定部14では、各音素についての音素長設定手段であって、標準的な話速における音素長が設定される。音素長テーブル16は、当該音素と前後の音素に応じた標準的な話速における音素長を格納する手段である。そこで、音素長の設定例としては、当該音素と前後の音素に応じた標準的な話速における音素長(データベースから抽出した値)を音素長テーブル16に格納しておき、この値を参照して音素長が設定される。この音素長は、他のパラメータ要素を以て修正する構成としてもよい。
音素長制御部18は、音素長設定部14で設定された標準的な話速での音素長を話速に応じて制御する音素長制御手段である。話速は、図示しない読み上げ速度(ユーザ設定等)の調整手段等から制御情報として音素長制御部18に加えられる。
音素長制御部18には、図2に示すように、音素長調整部24と、話速判定部26と、音素判定部28とが含まれる。音素長調整部24は、話速判定部26及び音素判定部28の各判定出力を受け、音素の長さやポーズの長さを調整する。話速判定部26は、入力された話速を判定し、その話速が標準速度、高速又は低速の何れであるかを判定し、その判定出力を音素長調整部24に加える。この場合、話速判定部26の出力する判定出力には、標準速度、高速又は低速を表す出力、その話速レベルを表す出力が含まれる。また、音素判定部28は、音素長設定部14(図1)で設定された音素長を持つ音素やポーズ等を判定し、その判定出力を音素長調整部24に加える。
そこで、このような音素長制御部18によれば、例えば、標準的な話速に対する所定の話速に反比例した音素長とし、具体的な数値を例示すれば、標準的な話速を毎秒7モーラを目安とした場合、毎秒14モーラの話速が設定されていれば、各音素長を半分にし、毎秒6モーラの話速が設定されていれば、7/6の音素長とする。ここで、モーラとは、拍を表し、概ね仮名書きしたときの一文字相当の単位であって、拗音(小さい「ゃ」「ゅ」「ょ」)「きゃ」等は1モーラである。日本語の場合、一文字のモーラが類似の長さを持つ言語である。拗音は、日本語のア〔a〕、ウ〔u〕、オ〔o〕の母音の前に半母音〔j〕を伴った子音が添っている音節や、「か」、「が」、「け」、「げ」の子音と母音との間に〔w〕の音の挿入された音節である。
ピッチパターン生成部20は、表音文字列でのアクセント情報等を加味して、各音素でのピッチ周期を設定するパターン生成手段である。
ピッチ切出し・重合せ部10は例えば、PSOLA法(Pitch-Synchronous Overlap- add:波形の加算重畳によるピッチ変換方法)を使用するピッチ切出し・重合せ手段である。また、波形辞書12には、音声波形と、どの部分がどの音素かを示す音素ラベル、有声音についてピッチ周期を示すピッチマークが格納されている。そこで、ピッチ切出し・重合せ部10では、パラメータ生成部8で生成されたパラメータを元に波形辞書12から2周期分の音声波形を切り出し、窓関数(例えばハニング窓)を掛け、必要に応じて振幅調整のゲインを掛ける処理を実行し、波形辞書12でのピッチ周波数と所望のピッチ周波数が違えばピッチ変換し、切り出された波形をオーバーラップさせて加算することにより、合成音声信号が出力される。
この音声読み上げ装置のハードウェアについて、図3、図4及び図5を参照する。図3は、音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図、図4は、携帯端末装置の構成例を示す図、図5は、画面表示例を示す図である。
この携帯端末装置200は、既述の音声読み上げ装置2が適用された一例であって、斯かる構成に本発明の音声読み上げのための装置、方法又はプログラムが限定されるものではない。この携帯端末装置200では、通信機能や、メール文等のテキスト文章(日本語では漢字かな混じり文)等、摩擦音やポーズを含む文字データを音声に変換して出力する機能を有する。そこで、この携帯端末装置200には、図3に示すように、プロセッサ202と、記憶部204と、無線部206と、入力部208と、表示部210と、音声入力部212と、音声出力部214とが備えられている。
プロセッサ202は、電話通信や、音声合成等の音声読み上げの実行、その他の制御を行う制御手段であって、CPU(Central Processing Unit )又はMPU(Micro Processor Unit)で構成され、記憶部204にあるOS(Operating System)やアプリケーションプログラムを実行する。このアプリケーションプログラムには、音声読み上げの処理手順を実行するプログラム等が含まれる。
記憶部204は、プロセッサ202で実行されるプログラムや、その実行に用いる各種データを格納するとともに、処理エリアを形成する記録媒体であって、プログラム記憶部216、データ記憶部218、RAM(Random-Access Memory)220で構成されている。プログラム記憶部216にはOSやアプリケーションプログラムが格納され、データ記憶部218には単語辞書6、波形辞書12及び音素長テーブル16(図1)が形成され、既述のデータが格納されている。RAM220は、ワークエリアを構成する。
無線部206は基地局と無線によって音声信号電波やパケット信号電波等の送受信を行うための無線通信手段であって、プロセッサ202によって制御される。
入力部208はユーザの操作により制御データや表示部210に展開されるダイアログに対する応答を入力するための手段であって、キーボードやタッチパネル等で構成される。
表示部210はプロセッサ202によって制御され、文字や図形等を表示する表示手段であって、例えば、LCD(Liquid Crystal Display)素子で構成される。この表示部210には音声読み上げのテキスト文章等が表示される。
音声入力部212はプロセッサ202で制御される音声入力手段であって、マイクロフォン222を備える。入力音声はマイクロフォン222で音声信号に変換され、その音声信号がディジタル信号に変換されてプロセッサ202に取り込まれる。
音声出力部214はプロセッサ202で制御される音声出力手段であって、音声変換手段としてレシーバ224と、スピーカ226R、226Lとを備えている。音声読み上げの合成音声は、これらレシーバ224、スピーカ226R、226Lから再生される。
この携帯端末装置200において、既述の音声読み上げ装置2は例えば、プロセッサ202、記憶部204、表示部210、音声出力部214等で構成される。
そして、この携帯端末装置200は、図4に示すように、一例として筐体228に第1の筐体部230と、第2の筐体部232とが含まれ、これら筐体部230、232はヒンジ部234で連結して折畳み可能に構成され、筐体部230には入力部208、マイクロフォン222が配置され、筐体部232には表示部210、レシーバ224、スピーカ226R、226Lが設置されている。入力部208には文字等の入力に用いる複数の記号キー236、カーソルキー238、決定キー240等が配置されている。
そこで、この携帯端末装置200による音声読み上げでは、メール文や小説文等の各種のテキスト文が対象となり、表示部210の画面上に展開される文章等が音声合成されてレシーバ224やスピーカ226R、226Lから再生される。その場合、図5に示すように、表示部210に展開されたメール文表示画面242にはメール文が表示され、このメール文が音声として出力される。この例では、メール文表示画面242に「山梨県の 高校を 卒業して、信用金庫に 入って 4年目 です。」と表示されており、これが音声として再生される。
次に、音素長の制御について、図6を参照する。図6は、第1の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順には、音声読み上げのためのプログラム又は方法の一例であって、高速読み上げの際に摩擦音であればその音素を伸長させる手順、段階又は工程が含まれている。この処理手順は、音声読み上げ装置2(図1)の音素長制御部18(図2)で実行される。この実施の形態では、摩擦音は、話速に応じての修正後、音素長を他の音素長の例えば、1.5〔倍〕にすることで、聞き取り易さを高めている。
そこで、この処理手順は、図6に示すように、言語処理(ステップS101)、音素長設定処理(ステップS102)を実行する。言語処理(ステップS101)は、言語処理部4において実行され、入力データから表音文字列を生成し、この段階でどの音素を音声合成するかが決定される。次に、音素長設定処理(ステップS102)は、音素長設定部14において実行され、各音素について、標準的な話速における音素長が設定される。この場合、音素長は、当該音素と前後の音素に応じた標準的な話速における音素長が音素長テーブル16を参照して設定される。
このような音素長の設定処理の後、呼気段落内の音素についての処理として、音素番号nを初期化(n=1)し(ステップS103)、話速に応じた音素長の制御を行う(ステップS104〜S110)。この音素長の制御は呼気段落を単位として実行され、ステップS105〜S109が呼気段落の音素処理のループである。この音素長の制御には、制御対象である音素の判定処理、その判定結果に対応した音素長の調整処理が含まれる。
音素長制御部18では、入力された話速情報が認識され、その話速に応じて固定倍の音素長が設定され(ステップS104)、設定された話速が高速読み、かつ摩擦音であるか否かが判定される(ステップS105)。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ摩擦音であれば(ステップS105のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS106)、また、話速が高速読みかつ摩擦音でなければ(ステップS105のNo)、その音素長を調整しない。このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS107)、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号nが音素数nに到達したか否かが判定され(ステップS108)、呼気段落内の全ての音素についての処理が実行される。
呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS109)、終了判定が行われる(ステップS110)。この終了判定では、入力データの全データの処理が完了したか否かが判定され(ステップS110)、全てのデータの処理が完了するまで、ステップS103からステップS110の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS111)、音声が出力される。
このように、呼気段落単位での摩擦音が話速に応じて修正され、高速読み上げの際に摩擦音の音素の音素長を既述のように、その一例として1.5〔倍〕に調整することにより、高速読み上げによる不明瞭感が解消されて聞き取り易くなり、音声に変換された読み上げ文の認識性を向上させることができる。
〔第2の実施の形態〕
次に、第2の実施の形態について、図7を参照する。図7は、第2の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順には、音声読み上げのプログラム又は方法の一例であって、高速読み上げの際に摩擦音、先頭音素であればその音素を伸長させる手順、段階又は工程が含まれている。この処理手順においても、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第2の実施の形態では、第1の実施の形態の音素長の調整に加え、先頭音素即ち、ポーズ直後の音素であるか否かの判定を行い、高速読み上げの際に、判定された摩擦音の音素長、ポーズ直後の音素長の伸長により、音声読み上げのトータル再生時間を極端に延長させることなく、聞き取り易さを高めている。
この第2の実施の形態では、音素長を伸張すべき音素を特定するため、音素判定部28(図2)において、摩擦音であるか否かを判定し、その判定に基づき、摩擦音の音素長の伸長処理を実行している。
そこで、この処理手順では、図7に示すように、言語処理(ステップS201)、音素長設定処理(ステップS202)を実行する。これら言語処理(ステップS201)及び音素長設定処理(ステップS202)の後、呼気段落内の音素の処理として、音素番号nを初期化(n=1)し(ステップS203)、話速に応じた音素長の制御を行う(ステップS204〜S211)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では、入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定され(ステップS204)、高速読みかつ音素が摩擦音であるか否かが判定される(ステップS205)。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ音素が摩擦音であれば(ステップS205のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS206)、また、話速が高速読みかつ音素が摩擦音でなければ(ステップS205のNo)、その音素長を調整しない。
このような処理の後、高速読みかつ先頭音素(n==1)であるか否かが判定され(ステップS207)、話速が高速読みかつ先頭音素(n==1)であれば(ステップS207のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS208)、また、先頭音素(n==1)でなければ(ステップS207のNo)、その音素長を調整しない。
そして、このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS209)、呼気段落内の音素は終了したか否かが判定され(ステップS210)、呼気段落内の全ての音素についての処理が実行される。
呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS211)、終了判定が行われる(ステップS212)。全てのデータの処理が完了するまで、ステップS203からステップS212の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS213)、音声が出力される。
このように、呼気段落単位での先頭音素及び摩擦音が話速に応じて修正され、摩擦音、ポーズ直後の音素の音素長を既述のように、その一例として1.5〔倍〕に調整することにより、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第3の実施の形態〕
次に、第3の実施の形態について、図8を参照する。図8は、第3の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、高速読み上げの際に摩擦音を伸長し、他の音素長を短縮させる手順、段階又は工程が含まれている。この処理手順においても、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第3の実施の形態では、第1の実施の形態の音素長の調整に、他の音素の音素長を短縮している。この実施の形態では、摩擦音の音素長の伸長に対し、その他の音素の音素長を短縮し、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。この実施の形態では、その他の音素として、母音の音素長を短縮している。
この第3の実施の形態では、音素長を調整すべき音素を特定するため、音素判定部28(図2)において、音素が母音であるか否かを判定し、その判定に基づき、母音の音素長に対する短縮処理を実行している。
そこで、この処理手順では、図8に示すように、言語処理(ステップS301)、音素長設定処理(ステップS302)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS303)、話速に応じた音素長の制御を行う(ステップS304〜S311)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では、入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定され(ステップS304)、高速読みかつ音素が摩擦音であるか否かが判定される(ステップS305)。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ音素が摩擦音であれば(ステップS305のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS306)、また、話速が高速読みかつ音素が摩擦音でなければ(ステップS305のNo)、その音素長を調整しない。
このような処理の後、高速読みかつ音素が母音であるか否かが判定され(ステップS307)、話速が高速読みかつ母音であれば(ステップS307のYes)、その音素長が所定倍として例えば、0.9〔倍〕に設定、即ち、調整され(ステップS308)、また、母音でなければ(ステップS307のNo)、その音素長を調整しない。
そして、このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS309)、呼気段落内の音素は終了したか否かが判定され(ステップS310)、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS311)、終了判定が行われる(ステップS312)。全てのデータの処理が完了するまで、ステップS303からステップS312の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS313)、音声が出力される。
このように、呼気段落単位での摩擦音又は母音の音素長が話速に応じて修正され、摩擦音の音素長を既述のように、その一例として1.5〔倍〕にするのに対し、母音の音素長を既述のように短縮、その一例として0.9〔倍〕に調整することにより、音素長の伸長時間が母音の音素長の短縮によって補完されるので、音声出力の全再生時間の伸長を来すことなく、概ね全体の長さを同一に保ちつつ、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第4の実施の形態〕
次に、第4の実施の形態について、図9及び図10を参照する。図9は、第4の実施の形態に係る音素長制御部を示すブロック図、図10は、第4の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図9において、図2と同一部分には同一符号を付してある。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第4の実施の形態では、第1の実施の形態の音素長の調整に加え、即ち、摩擦音の伸長に対し、摩擦音の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高める。
この第4の実施の形態では、音声読み上げ装置2(図1)の音素長制御部18(図2)に関し、図9に示すように、呼気段落長演算部30が設置され、この呼気段落長演算部30は、音素長調整部24の出力から呼気段落の全体の長さを演算する。その演算結果は制御情報として音素長調整部24に加えられ、音素長調整部24は、特定の音素の音素長、この場合、摩擦音の音素長の伸長分を呼気段落内の全音素に比例配分して全音素の各音素長を短縮し、呼気段落の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
そこで、この処理手順では、図10に示すように、言語処理(ステップS401)、音素長設定処理(ステップS402)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS403)、話速に応じた音素長の制御を行う(ステップS403〜S412)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では、入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定され(ステップS404)、高速読みかつ音素が摩擦音であるか否かが判定される(ステップS405)。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ音素が摩擦音であれば(ステップS405のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS406)、また、話速が高速読みかつ音素が摩擦音でなければ(ステップS405のNo)、その音素長を調整しない。
このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS407)、呼気段落内の音素は終了したか否かが判定され(ステップS408)、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とする(ステップS409)。
この設定の後、呼気段落全体の長さを計算し(ステップS410)、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し(ステップS411)、終了判定が行われる(ステップS412)。全てのデータの処理が完了するまで、ステップS403からステップS412の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS413)、音声が出力される。
このように、呼気段落単位での摩擦音の音素長が話速に応じて修正され、摩擦音の音素長を既述のように、その一例として1.5〔倍〕にするのに対し、摩擦音の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第5の実施の形態〕
次に、第5の実施の形態について、図11及び図12を参照する。図11は、第5の実施の形態に係る音素長制御部を示すブロック図、図12は、第5の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図11において、図2と同一部分には同一符号を付してある。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第5の実施の形態では、第1の実施の形態の音素長の調整に、他の音素の音素長を短縮している。この実施の形態では、摩擦音の音素長の伸長に対し、その摩擦音の音素長の伸長分を文章全体の音素に比例配分して短くすることで、文章全体の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。
この第5の実施の形態では、音声読み上げ装置2(図1)の音素長制御部18(図2)に関し、図11に示すように、文章全体長演算部32が設置され、この文章全体長演算部32は、音素長調整部24の出力から文章全体の長さを演算する。その演算結果は制御情報として音素長調整部24に加えられ、音素長調整部24は、特定の音素の音素長、この場合、摩擦音の音素長の伸長分を文章全体の全音素に比例配分して全音素の各音素長を短縮し、文章の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
そこで、この処理手順では、図12に示すように、言語処理(ステップS501)、音素長設定処理(ステップS502)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS503)、話速に応じた音素長の制御を行う(ステップS503〜S512)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では、入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定され(ステップS504)、高速読みかつ音素が摩擦音であるか否かが判定される(ステップS505)。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ音素が摩擦音であれば(ステップS505のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS506)、また、話速が高速読みかつ音素が摩擦音でなければ(ステップS505のNo)、その音素長を調整しない。
このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS507)、呼気段落内の音素は終了したか否かが判定され(ステップS508)、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS509)、終了判定が行われる(ステップS510)。全てのデータの処理が完了するまで、ステップS503からステップS510の処理が繰り返される。
全データの処理が終了した後、文章全体の長さを計算し(ステップS511)、文章全体の長さ、即ち、読み上げ時間が所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように文章全体の全音素の音素長を比例配分して調整し(ステップS512)、この処理の終了後、音声合成が実行され(ステップS513)、音声が出力される。
このように、呼気段落単位での摩擦音の音素長が話速に応じて修正され、摩擦音の音素長を既述のように、その一例として1.5〔倍〕にするのに対し、摩擦音の音素長の伸長分を文章全体の全音素に比例配分して短縮することにより、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第6の実施の形態〕
次に、第6の実施の形態について、図13を参照する。図13は、第6の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第6の実施の形態では、第2の実施の形態(図7)の音素長の調整と、第3の実施の形態(図8)の音素長の調整とを併用することにより、その話頭の音素、摩擦音の音素長の伸長に対し、その他の音素の音素長として例えば、母音の音素長を短縮することにより、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。
そこで、この処理手順では、図13に示すように、言語処理(ステップS601)、音素長設定処理(ステップS602)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS603)、話速に応じた音素長の制御を行う(ステップS603〜S613)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第6の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS604)、高速読みかつ音素が摩擦音であるか否かの判定(ステップS605)、話速が高速読みかつ音素が摩擦音であれば(ステップS605のYes)、その音素長を所定倍として例えば、1.5〔倍〕に設定(ステップS606)、高速読みかつ先頭音素(n==1)であるか否かの判定(ステップS607)、高速読みかつ先頭音素(n==1)であれば(ステップS607のYes)、その音素長を所定倍として例えば、1.5〔倍〕に設定(ステップS608)を実行する。
このような処理の後、高速読みかつ音素が母音であるか否かが判定される(ステップS609)、話速が高速読みかつ母音であれば(ステップS609のYes)、その音素長が所定倍として例えば、0.9〔倍〕に設定、即ち、調整され(ステップS609)、また、母音でなければ(ステップS609のNo)、その音素長を調整しない。
そして、既述の通り、音素番号nの更新(n=n+1)(ステップS611)、呼気段落内の音素の終了判定(ステップS612)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS613)、終了判定(ステップS614)、音声合成(ステップS615)が実行される。
このように、呼気段落単位での先頭音素、摩擦音の音素長が話速に応じて修正され、摩擦音及びポーズ直後の音素の音素長を既述のように、その一例として1.5〔倍〕にするのに対し、母音の音素長を既述のように短縮、その一例として0.9〔倍〕に調整することにより、ポーズ後の音素及び摩擦音の音素長の伸長による再生時間の伸長分が母音の音素長の短縮分だけ短縮されることとなるので、音声出力の全再生時間の伸長を来すことなく(場合によっては短く)、概ね全体の長さを同一に保ちつつ、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第7の実施の形態〕
次に、第7の実施の形態について、図14を参照する。図14は、第7の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行され、この実施の形態では、第2の実施の形態(図7)の音素長の調整に加え、即ち、その話頭の音素、摩擦音の音素長の伸長に対し、当該音素長を長めに確保した音素長分、ポーズ等、他の音素長を確保しない又は短縮する構成として、話頭及び摩擦音の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。
この第7の実施の形態では、第4の実施の形態と同様に(図9)、音素長制御部18の音素長調整部24に呼気段落長演算部30を設置して音素長調整部24の出力から呼気段落の全体の長さを演算し、その演算結果は制御情報として音素長調整部24に加える。音素長調整部24は、特定の音素の音素長、この場合、摩擦音及び先頭音素の音素長の伸長分を呼気段落内の全音素に比例配分して全音素の各音素長を短縮し、呼気段落の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
そこで、この処理手順では、図14に示すように、言語処理(ステップS701)、音素長設定処理(ステップS702)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS703)、話速に応じた音素長の制御を行う(ステップS703〜S713)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第7の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS704)、高速読みかつ音素が摩擦音であるか否かの判定(ステップS705)、話速が高速読みかつ音素が摩擦音であれば(ステップS705のYes)、その音素長を所定倍として例えば、1.5〔倍〕に設定(ステップS706)、高速読みかつ先頭音素(n==1)であるか否かの判定(ステップS707)、高速読みかつ先頭音素(n==1)であれば(ステップS707のYes)、その音素長を所定倍として例えば、1.5〔倍〕に設定(ステップS708)を実行する。
このような処理の後、音素番号nの更新(n=n+1)(ステップS709)、呼気段落内の音素の終了判定(ステップS710)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS711)の後、呼気段落全体の長さを計算し(ステップS712)、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し(ステップS713)、終了判定が行われる(ステップS714)。全てのデータの処理が完了するまで、ステップS703からステップS714の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS715)、音声が出力される。
このように、呼気段落単位での先頭音素、摩擦音の音素長が話速に応じて修正され、摩擦音及びポーズ直後の音素の音素長を既述のように、その一例として1.5〔倍〕にするのに対し、これら音素の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第8の実施の形態〕
次に、第8の実施の形態について、図15を参照する。図15は、第8の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行され、この実施の形態では、第2の実施の形態(図7)の音素長の調整に加え、即ち、その摩擦音の音素、話頭の音素の音素長の伸長に対し、その伸長分を文章全体の音素に比例配分して短くすることで、文章全体の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。
この第8の実施の形態では、第5の実施の形態と同様に(図11)、音声読み上げ装置2(図1)の音素長制御部18に文章全体長演算部32が併設され、この文章全体長演算部32は、音素長調整部24の出力から文章全体の長さを演算し、その演算結果が制御情報として音素長調整部24に加えられる。音素長調整部24は、特定の音素の音素長、この場合、先頭音素及び摩擦音の音素長の伸長分を文章全体の全音素に比例配分して全音素の各音素長を短縮し、文章の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
そこで、この処理手順では図15に示すように、言語処理(ステップS801)、音素長設定処理(ステップS802)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS803)、話速に応じた音素長の制御を行う(ステップS803〜S811)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第8の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS804)、高速読みかつ音素が摩擦音であるか否かの判定(ステップS805)、話速が高速読みかつ音素が摩擦音であれば(ステップS805のYes)、その音素長を所定倍として例えば、1.5〔倍〕に設定(ステップS806)、高速読みかつ先頭音素(n==1)であるか否かの判定(ステップS807)、高速読みかつ先頭音素(n==1)であれば(ステップS807のYes)、その音素長を所定倍として例えば、1.5〔倍〕に設定(ステップS808)を実行する。
このような処理の後、音素番号nの更新(n=n+1)(ステップS809)、呼気段落内の音素の終了判定(ステップS810)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS811)、終了判定(ステップS812)を行う。
全データの処理が終了した後、文章全体の長さを計算し(ステップS813)、文章全体の長さ、即ち、読み上げ時間が所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように文章全体の全音素の音素長を比例配分して調整し(ステップS814)、この処理の終了後、音声合成が実行され(ステップS815)、音声が出力される。
このように、呼気段落単位での先頭音素、摩擦音の音素長が話速に応じて修正され、ポーズ直後の音素の音素長をその一例として1.5〔倍〕、摩擦音の音素長をその一例として1.5〔倍〕にするのに対し、これら音素長の伸長分を文章全体の全音素に比例配分して短縮することにより、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔その他の実施の形態〕
(1) 音素長制御部18に入力する話速情報について、図16を参照する。図16は、話速調整部を備えるパラメータ生成部を示すブロック図である。上記実施の形態では、音素長制御部18に話速情報を入力しているが、図16に示すように、外部から話速を調整可能な話速調整部22をパラメータ生成部8に設置し、外部から任意の話速設定を可能な構成としてもよい。
(2) 上記実施の形態では、摩擦音等の音素長を伸長する場合について説明したが、本発明は、短縮する場合にも適用することができる。
(3) 第1の実施の形態に携帯端末装置200(図3、図4)を例示したが、本発明は、携帯情報端末機(PDA:Personal Digital Assistant)や、パーソナルコンピュータ等、コンピュータを搭載して音声を出力する電子機器や、電子機器ユニットを搭載する各種機器に適用できるものであり、本発明は、上記実施の形態に限定されるものではない。
(4) 上記実施の形態では、音素として摩擦音、母音、子音等について例示したが、本発明は、半母音、拗音、破擦音等の他の音素を対象としてもよい。この場合、半母音は、調音法が母音に近いが、単独では音節を作らない音であり、〔w〕、〔j〕等である。破擦音は、破裂音の直後に摩擦音が続き、全体で一つの単音と見なされる音であって、〔ts〕、〔dz〕、〔t∫〕等である。
(5) 上記実施の形態において、読み上げ速度が高速である場合、文字データ中の一部又は全部のポーズを削除する構成としてもよく、ポーズの削除により、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。
〔実施例1〕
実施例1について、図17及び図18を参照する。図17は、図6のフローチャートに対応する比較例であるフローチャート、図18は、言語処理結果を示す図である。
この音声読み上げ装置2(図1)では、話速に応じて各音素の音素長を同様に伸長する場合には、図17に示すフローチャートの処理となる。この場合、図6に示すフローチャートと同一ステップには同一符号を付し、摩擦音の音素長を調整しない場合の処理を示している。即ち、図17のフローチャートは、図6のフローチャートからステップS105、S106の処理がない場合であって、高速読み上げで摩擦音についての音素長を伸長しない場合の処理であり、高速読み上げに反比例して音素長を固定倍している。
このような処理において、入力テキストの文例が例えば、
「山梨県の高校を卒業して、信用金庫に入って4年目です。」(図5)
であるとすれば、その単語解析結果は図18に示すように、入力テキスト、品詞、表音文字列で表すことができる。
この文例の「山梨県の高校を卒業して、信用金庫に入って4年目です。」において、「山梨」は名詞であり、その表音文字列は「ヤマナシ’」となり、「県」は名詞であり、その表音文字列は「ケン」となり、「の」は助詞であり、その表音文字列は「ノ」となり、この「の」の後部分はアクセント句境界で空白となり、「高校」は名詞であり、その表音文字列は「コーコー」となり、「を」は助詞であり、その表音文字列は「オ」となり、その後の部分はアクセント句境界で空白となり、「卒業し」は動詞(連用形)であり、その表音文字列は「ソツギョーシ」となり、「て」は助詞であり、その表音文字列は「テ」となり、「、」は呼気段落境界(ポーズ長は中)であり、その表音文字列は「、」となり、「信用」は名詞であり、その表音文字列は「シンヨー」となり、「金庫」は名詞であり、その表音文字列は「キ’ンコ」となり、「に」は助詞であり、その表音文字列は「ニ」となり、その後の部分はアクセント句境界で空白となり、「入っ」は動詞(連用形、促音便)であり、その表音文字列は「ハ*イッ」となり、「て」は助詞であり、その表音文字列は「テ」となり、その後の部分は呼気段落境界(ポーズ長は小)となり、その表音文字列は「・」となり、「4」は数詞であり、その表音文字列は「ヨ」となり、「年」は助数詞であり、その表音文字列は「ネン」となり、「目」は助数詞の後置詞であり、その表音文字列は「メ’」となり、「です」は助動詞であり、その表音文字列は「デス」となり、「。」は呼気段落境界(ポーズ長は大)であり、その表音文字列は「。」となる。従って、上記文例の表音文字列は、
「ヤマナシ’ケンノ コーコーオ ソツギョーシテ、シンヨーキ’ンコニ ハ*イッテ・ヨネンメ’デス。」
となる。
この表音文字列中の「シンヨー」の部分の音素長作成と話速による音素長の修正について、図19を参照する。図19は、この場合の音素長の生成例を示す図である。
この例では、概ね毎秒7モーラを1倍速として、3倍速(目安として毎秒21モーラ)を生成する場合では、1倍速での音素長を音素長テーブル16(図1)から読み出し、話速に反比例して音素長を修正している。この修正の後、アクセント等の情報を基にピッチパターンが生成され、音声波形が合成される。
これに対し、第1の実施の形態(図6)の処理結果について、図20を参照する。図20は、第1の実施の形態(図6)の音素長生成例を示す図である。
この場合、3倍速での音素長を生成する場合には、摩擦音である「sh」の音素長が単純な反比例での長さの1.5〔倍〕に設定される。この結果、図20に示すように、1倍速での音素長が117〔ms〕であるのに対し、3倍速での音素長は59〔ms〕となっている。これらの音素長を他の音素「I」、「N」、「y」、「O」、「O」と比較すると、1倍速の音素「sh」の音素長117〔ms〕は、他の音素「I」=60〔ms〕、「N」=60〔ms〕、「y」=65〔ms〕、「O」=80〔ms〕、「O」=105〔ms〕であって、顕著な差異がないのに対し、3倍速の音素「sh」の音素長59〔ms〕は、他の音素「I」=20〔ms〕、「N」=20〔ms〕、「y」=22〔ms〕、「O」=27〔ms〕、「O」=35〔ms〕であり、顕著な差異が生じている。この結果、聴感上の聞き取り易さを向上させることができ、認識性が高められる。
これらの処理結果である音声合成波形について、図21を参照する。図21において、Aは、通常速度で「卒業して、信用金庫に」と読み上げた場合の音声合成波形であり、図17に示すフローチャートの処理を以て読み上げられた場合である。また、図21のBは、同じ読み上げ文章を、一律、高速読み上げした場合の波形であって、同様に、図17に示すフローチャートの処理を以て読み上げられた場合である。即ち、摩擦音の音素長を伸長しない場合である。また、図21のCは、高速読み上げにおいて、第1の実施の形態(図6に示すフローチャート)の処理を適用した場合であり、摩擦音が伸長された場合の音声合成波形である。図21のA、B、Cにおいて、図21のAの読み上げ時間をToとすれば、図21のB、Cの読み上げ時間は、3倍の話速を設定しているので、To/3に短縮されたものをほぼ同一の尺度で記載している。
図21のAの破線包囲部aは摩擦音であり、図21のBの破線包囲部bは同様の音素を示しているが、bの音素長が話速が3倍になっている分だけ縮んでいることが理解できよう。このような読み上げ音を聞いた場合、音切れのように感じられ、摩擦音が聞き取り難くなることが確認された。これに対し、図21のCの破線包囲部cは、3倍の話速に対し、摩擦音の音素長を伸長させているため、話速を高めて読み上げ音を聞いた場合にも、音切れが発生することがなく、聞き取り易さが高められる。
〔実施例2〕
実施例2の処理結果を示す波形について、図22及び図23を参照する。図22は比較例である音声合成波形を示す図、図23は、実施例2に係る音声合成波形を示す図である。図22において、Aは、標準速度の場合の波形であり、Bは、高速読み上げの場合の波形である。Aの標準速度の読み上げに対し、Bの高速読み上げの場合には、dの摩擦音の音素長が話速比例通り短縮し、この例では、15〔msec〕に短縮される。
これに対し、図23において、Aは、第1の実施の形態(図6のフローチャート)の処理の標準速度の場合の波形、Bは、高速読み上げに対応して摩擦音の音素長を伸長した場合の波形である。
図22のBのdと図23のBのeとを対比すれば、摩擦音が持つ音素長を話速比例よりも伸長(確保)する場合、即ち、この例(図23のBのe)では、35〔msec〕に伸長するので、音素長は2.3倍程度に伸長されるので、音切れが発生することがなく、聞き取り易さが高められる。
〔実施例3〕
実施例3の処理結果を示す波形について、図24及び図25を参照する。図24は比較例である音声合成波形を示す図、図25は、実施例3に係る音声合成波形を示す図である。実施例1、2が日本語であるのに対し、実施例3は英語文「ha ppy, sho ck, shoo t」を読み上げた場合である。
図24において、Aは、標準速度の場合の波形であり、Bは、高速読み上げの場合の波形である。Aの標準速度の読み上げに対し、Bの高速読み上げの場合には、f、gの摩擦音の音素長が話速比例通り短縮し、この例では、fの箇所で19〔msec〕、gの箇所で14〔msec〕に短縮される。
これに対し、図25において、Aは、第1の実施の形態(図6のフローチャート)の処理の標準速度の場合の波形、Bは、高速読み上げに対応して摩擦音の音素長を伸長した場合の波形である。
図24のBのf、gと図25のBのh、iとを対比すれば、摩擦音が持つ音素長を話速比例よりも伸長(確保)する場合、即ち、この例(図25のBのh、i)では、hが27〔msec〕、iが25〔msec〕に伸長するので、音素長は2倍程度に伸長されるので、音切れが発生することがなく、聞き取り易さが高められる。
次に、以上述べた本発明の実施の形態から抽出される技術的思想を請求項の記載形式に準じて付記として列挙する。本発明に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本発明が限定されるものではない。
(付記1) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が摩擦音である場合に前記音素判定部の判定結果に基づき、前記摩擦音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記2) 付記1の音声読み上げ装置において、
音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合には前記摩擦音の音素長を伸長させることを特徴とする音声読み上げ装置。
(付記3) 付記1の音声読み上げ装置において、
呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
(付記4) 付記1の音声読み上げ装置において、
読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
(付記5) 付記1の音声読み上げ装置において、
前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮することを特徴とする音声読み上げ装置。
(付記6) 付記1の音声読み上げ装置において、
前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除することを特徴とする音声読み上げ装置。
(付記7) 付記2の音声読み上げ装置において、
前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮することを特徴とする音声読み上げ装置。他の音素長は、母音、子音、促音等の音素長である。
(付記8) 文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素の種類を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
(付記9) 付記8の音声読み上げプログラムにおいて、
音素の読み上げ速度を判定する手順と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合には摩擦音の音素長を伸長させる手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記10) 付記8の音声読み上げプログラムにおいて、
前記音素が摩擦音であるか否かを判定する手順と、
前記判定の結果に基づき、前記摩擦音の音素長を伸長させる手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記11) 付記8の音声読み上げプログラムにおいて、
呼気段落の長さを演算する手順と、
前記音素長の調整分を前記演算の結果に基づき、前記呼気段落の各音素長を比例配分して増減させる手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記12) 付記8の音声読み上げプログラムにおいて、
読み上げ文章の長さを演算する手順と、
前記音素長の調整分を前記演算の結果に基づき、前記文章の各音素長を比例配分して増減させる手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記13) 付記8の音声読み上げプログラムにおいて、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮する手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記14) 付記8の音声読み上げプログラムにおいて、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記15) 付記9の音声読み上げプログラムにおいて、
前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記16) 文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素の種類を判定する工程と、
音素に読み上げ速度に応じた音素長を設定する工程と、
音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する工程と、
を備えることを特徴とする音声読み上げ方法。
(付記17) 付記16の音声読み上げ方法において、
音素の読み上げ速度を判定する工程と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合には摩擦音の音素長を伸長させる工程と、
を含むことを特徴とする音声読み上げ方法。
(付記18) 付記16の音声読み上げ方法において、
前記音素が摩擦音であるか否かを判定する工程と、
前記判定の結果に基づき、前記摩擦音の音素を伸長させる工程と、
を含むことを特徴とする音声読み上げ方法。
(付記19) 付記16の音声読み上げ方法において、
呼気段落の長さを演算する工程と、
前記音素長の調整分を前記演算の結果に基づき、前記呼気段落の各音素長を比例配分して増減させる工程と、
を含むことを特徴とする音声読み上げ方法。
(付記20) 付記16の音声読み上げ方法において、
読み上げ文章の長さを演算する工程と、
前記音素長の調整分を前記演算の結果に基づき、前記文章の各音素長を比例配分して増減させる工程と、
を含むことを特徴とする音声読み上げ方法。
(付記21) 付記16の音声読み上げ方法において、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズのポーズ長を前記読み上げ速度に応じた長さより短縮する工程と、
を含むことを特徴とする音声読み上げ方法。
(付記22) 付記16の音声読み上げ方法において、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する工程と、
を含むことを特徴とする音声読み上げ方法。
(付記23) 付記17の音声読み上げ方法において、
前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する工程と、
を含むことを特徴とする音声読み上げ方法。
(付記24) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が子音である場合に前記音素判定部の判定結果に基づき、前記子音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記25) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が半母音である場合に前記音素判定部の判定結果に基づき、前記半母音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記26) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が拗音である場合に前記音素判定部の判定結果に基づき、前記拗音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記27) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が破擦音である場合に前記音素判定部の判定結果に基づき、前記破擦音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記28) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が摩擦音、半母音、拗音又は破擦音の何れかである場合に前記音素判定部の判定結果に基づき、その音素の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
以上説明したように、本発明の最も好ましい実施の形態等について説明したが、本発明は、上記記載に限定されるものではなく、特許請求の範囲に記載され、又は明細書に開示された発明の要旨に基づき、当業者において様々な変形や変更が可能であることは勿論であり、斯かる変形や変更が、本発明の範囲に含まれることは言うまでもない。
本発明は、摩擦音を含む文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、文字データから摩擦音を認識し、摩擦音の音素長を制御し、読み上げ速度を高速化しても、合成音声の聞き取り易さを高めることができ、認識性の向上が図られるので、音声合成等の処理に有用である。
第1の実施の形態に係る音声読み上げ装置の構成例を示すブロック図である。 音声読み上げ装置の音素長制御部の構成例を示すブロック図である。 音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図である。 携帯端末装置の構成例を示す図である。 画面表示例を示す図である。 第1の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第2の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第3の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第4の実施の形態に係る音素長制御部を示すブロック図である。 第4の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第5の実施の形態に係る音素長制御部を示すブロック図である。 第5の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第6の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第7の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第8の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 話速調整部を備えるパラメータ生成部を示すブロック図である。 音素長制御の処理手順の一例を示すフローチャートである。 言語処理結果を示す図である。 音素長の生成例を示す図である。 音素長の生成例を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。
符号の説明
2 音声読み上げ装置
24 音素長調整部
26 話速判定部
28 音素判定部
30 呼気段落長演算部
32 文章全体長演算部
34 区切り変更部
200 携帯端末装置

Claims (9)

  1. 文字データを音声に変換して読み上げる音声読み上げ装置であって、
    前記文字データから音素の種類を判定する音素判定部と、
    音素に読み上げ速度に応じた音素長を設定し、音素が摩擦音である場合に前記音素判定部の判定結果に基づき、前記摩擦音の音素長を調整する音素長調整部と、
    を備えることを特徴とする音声読み上げ装置。
  2. 請求項1の音声読み上げ装置において、
    音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合には前記摩擦音の音素長を伸長させることを特徴とする音声読み上げ装置。
  3. 請求項1の音声読み上げ装置において、
    呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
  4. 請求項1の音声読み上げ装置において、
    読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
  5. 請求項1の音声読み上げ装置において、
    前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮することを特徴とする音声読み上げ装置。
  6. 請求項1の音声読み上げ装置において、
    前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除することを特徴とする音声読み上げ装置。
  7. 請求項2の音声読み上げ装置において、
    前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮することを特徴とする音声読み上げ装置。
  8. 文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
    前記文字データから音素の種類を判定する手順と、
    音素に読み上げ速度に応じた音素長を設定する手順と、
    音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する手順と、
    を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
  9. 文字データを音声に変換して読み上げる音声読み上げ方法であって、
    前記文字データから音素の種類を判定する工程と、
    音素に読み上げ速度に応じた音素長を設定する工程と、
    音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する工程と、
    を備えることを特徴とする音声読み上げ方法。
JP2007167019A 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法 Expired - Fee Related JP5029168B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2007167019A JP5029168B2 (ja) 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法
EP08157665A EP2009620B1 (en) 2007-06-25 2008-06-05 Phoneme length adjustment for speech synthesis
US12/213,115 US20080319754A1 (en) 2007-06-25 2008-06-13 Text-to-speech apparatus
KR1020080059820A KR101019851B1 (ko) 2007-06-25 2008-06-24 음성 읽어내기를 위한 장치, 기록 매체 및 방법
CN2008101248954A CN101334995B (zh) 2007-06-25 2008-06-25 文本到语音转换设备及其转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007167019A JP5029168B2 (ja) 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2009003395A true JP2009003395A (ja) 2009-01-08
JP5029168B2 JP5029168B2 (ja) 2012-09-19

Family

ID=39683831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007167019A Expired - Fee Related JP5029168B2 (ja) 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法

Country Status (5)

Country Link
US (1) US20080319754A1 (ja)
EP (1) EP2009620B1 (ja)
JP (1) JP5029168B2 (ja)
KR (1) KR101019851B1 (ja)
CN (1) CN101334995B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252303A (ja) * 2011-06-07 2012-12-20 Yamaha Corp 音声合成装置
JP2015099252A (ja) * 2013-11-19 2015-05-28 日本電信電話株式会社 ポーズ推定装置、方法、プログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930192B1 (en) * 2010-07-27 2015-01-06 Colvard Learning Systems, Llc Computer-based grapheme-to-speech conversion using a pointing device
JP6127371B2 (ja) * 2012-03-28 2017-05-17 ヤマハ株式会社 音声合成装置および音声合成方法
CN106952656A (zh) * 2017-03-13 2017-07-14 中南大学 语言感染力远程测评方法及系统
GB2565589A (en) * 2017-08-18 2019-02-20 Aylett Matthew Reactive speech synthesis
CN108682420B (zh) * 2018-05-14 2023-07-07 平安科技(深圳)有限公司 一种音视频通话方言识别方法及终端设备
WO2020132576A1 (en) * 2018-12-21 2020-06-25 Nura Holdings Pty Ltd Speech recognition using multiple sensors
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
CN111627422B (zh) * 2020-05-13 2022-07-12 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63253996A (ja) * 1987-04-10 1988-10-20 富士通株式会社 文−音声変換装置
JPH01118200A (ja) * 1987-10-30 1989-05-10 Fujitsu Ltd 音声合成方式
JPH0772896A (ja) * 1993-09-01 1995-03-17 Sanyo Electric Co Ltd 音声の圧縮伸長装置
JPH07140996A (ja) * 1993-11-16 1995-06-02 Fujitsu Ltd 音声規則合成装置
JPH086592A (ja) * 1994-06-16 1996-01-12 Canon Inc 音声合成方法及び装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2003005775A (ja) * 2001-06-26 2003-01-08 Oki Electric Ind Co Ltd テキスト音声変換装置における高速読上げ制御方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3113101B2 (ja) 1992-11-09 2000-11-27 株式会社東芝 音声合成装置
JP3284634B2 (ja) * 1992-12-29 2002-05-20 ソニー株式会社 規則音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
DE4341082A1 (de) * 1993-12-02 1995-06-08 Teves Gmbh Alfred Schaltungsanordnung für sicherheitskritische Regelungssysteme
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
WO2000058943A1 (fr) * 1999-03-25 2000-10-05 Matsushita Electric Industrial Co., Ltd. Systeme et procede de synthese de la parole
JP2005242231A (ja) * 2004-02-27 2005-09-08 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63253996A (ja) * 1987-04-10 1988-10-20 富士通株式会社 文−音声変換装置
JPH01118200A (ja) * 1987-10-30 1989-05-10 Fujitsu Ltd 音声合成方式
JPH0772896A (ja) * 1993-09-01 1995-03-17 Sanyo Electric Co Ltd 音声の圧縮伸長装置
JPH07140996A (ja) * 1993-11-16 1995-06-02 Fujitsu Ltd 音声規則合成装置
JPH086592A (ja) * 1994-06-16 1996-01-12 Canon Inc 音声合成方法及び装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2003005775A (ja) * 2001-06-26 2003-01-08 Oki Electric Ind Co Ltd テキスト音声変換装置における高速読上げ制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252303A (ja) * 2011-06-07 2012-12-20 Yamaha Corp 音声合成装置
JP2015099252A (ja) * 2013-11-19 2015-05-28 日本電信電話株式会社 ポーズ推定装置、方法、プログラム

Also Published As

Publication number Publication date
EP2009620A1 (en) 2008-12-31
US20080319754A1 (en) 2008-12-25
JP5029168B2 (ja) 2012-09-19
EP2009620B1 (en) 2012-11-07
KR20080114565A (ko) 2008-12-31
KR101019851B1 (ko) 2011-03-04
CN101334995B (zh) 2011-08-03
CN101334995A (zh) 2008-12-31

Similar Documents

Publication Publication Date Title
JP5029167B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP4973337B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP5029168B2 (ja) 音声読み上げのための装置、プログラム及び方法
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US20110060590A1 (en) Synthetic speech text-input device and program
JP2000305582A (ja) 音声合成装置
EP2645363B1 (en) Sound synthesizing apparatus and method
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP4953767B2 (ja) 音声生成装置
JP2002304186A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2012037726A (ja) 音声合成装置およびコンピュータプログラム
JP2000310995A (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
JPH01216399A (ja) 音声合成装置
JP2001282274A (ja) 音声合成装置及びその制御方法及び記憶媒体
JPH08211896A (ja) 音声合成編集方式および装置
JPH10177396A (ja) 音声合成装置及び発音訓練装置
JPH08202381A (ja) 音声合成装置
JPH02285400A (ja) 音声合成装置
JPH0242526A (ja) 音声合成装置の音声発生方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120611

R150 Certificate of patent or registration of utility model

Ref document number: 5029168

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees