JP2009008910A - 音声読み上げのための装置、プログラム及び方法 - Google Patents

音声読み上げのための装置、プログラム及び方法 Download PDF

Info

Publication number
JP2009008910A
JP2009008910A JP2007170520A JP2007170520A JP2009008910A JP 2009008910 A JP2009008910 A JP 2009008910A JP 2007170520 A JP2007170520 A JP 2007170520A JP 2007170520 A JP2007170520 A JP 2007170520A JP 2009008910 A JP2009008910 A JP 2009008910A
Authority
JP
Japan
Prior art keywords
phoneme
speech
length
reading
phoneme length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007170520A
Other languages
English (en)
Other versions
JP4973337B2 (ja
Inventor
Rika Nishiike
理香 西池
Hitoshi Sasaki
均 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007170520A priority Critical patent/JP4973337B2/ja
Priority to DE602008000857T priority patent/DE602008000857D1/de
Priority to EP08157668A priority patent/EP2009621B1/en
Priority to CN2008101273034A priority patent/CN101334996B/zh
Priority to KR1020080061596A priority patent/KR101014462B1/ko
Priority to US12/215,403 priority patent/US20090006098A1/en
Publication of JP2009008910A publication Critical patent/JP2009008910A/ja
Application granted granted Critical
Publication of JP4973337B2 publication Critical patent/JP4973337B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】文字データの音声読み上げに関し、音素長の調整によって音声読み上げの認識性を高める。
【解決手段】ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる装置(音声読み上げ装置2)、プログラム及び方法に関し、ポーズ、長音、促音又は子音の何れか又は2以上を含む文字データからポーズ、長音、促音又は子音の存在を認識し、ポーズ、長音、促音又は子音の音素長を制御する。この音素長の制御は例えば、読み上げ速度に応じて実行し、読み上げ速度が低速の場合には、ポーズ、長音、促音又は子音の音素長を伸長させないか又はその音素長を短縮させる構成である。
【選択図】図1

Description

本発明は、文書等の表音文字を含む文字データを音声に変換して出力する音声読み上げのための装置、プログラム及び方法に関し、音素長を読み上げ速度に応じて制御し、特に、低速読み上げでは特定の音素長を伸長しないか又は短縮することを可能にする音声読み上げのための装置、プログラム及び方法に関する。
表音文字を含む文字データを解析し、その文字データから音声合成法により音声合成を行い、文字データを音声として出力する所謂音声読み上げの技術が知られている。携帯電話機等の携帯端末装置にあっては、メール等の自由文章を読み上げる音声合成機能が普及し始めている。また、パーソナルコンピュータ(PC)にあっては、スクリーンリーダと呼ばれるソフトウェアが普及し始めている。文章の内容を音声により理解する場合には、聴覚に作用する母音、子音、ポーズ等を表す音素の長さが認識性を高める上で重要なファクターとなる。
このような音声読み上げに関し、特許文献1には、発話速度情報が予め定められた値未満のときは、発話速度をその情報に基づいて標準より速くするため、モーラ長を最小限に設定し、発話速度情報に応じた短いフレーム周期を設定し、発話速度情報が予め定められた値以上のときは、発話速度をその情報に基づいて標準より遅くするため、発話速度情報に応じた長いモーラ長を設定し、フレーム周期を最大値に設定する音声合成が開示されている。
特開平6−149283号公報(要約及び図1等)
ところで、読み上げ速度(話速)を設定可能にした場合、話速に反比例して各音素長が設定されるものとする。例えば、話速を2倍の速さとすれば、その音素長は1/2となり、話速を1/2に遅くすれば、音素長は2倍となる。このように話速と音素長との関係を単純な関係に設定し、即ち、話速と音素長とを単純に反比例とすれば、通常の話速では自然な場合(聴き取り易い場合)であっても、高速読みや低速読みの場合には、聞き取り難く、違和感があり、認識性を低下させる場合がある。
斯かる要求や課題について、特許文献1にはその開示や示唆はなく、それを解決する構成等についての開示や示唆はない。
そこで、本発明の目的は、文字データの音声読み上げに関し、音素長の調整によって音声読み上げの認識性を高めることにある。
斯かる目的は、ポーズ、長音、促音又は子音を含む文字データの音素に対する認識性が読み上げ速度に応じて影響を受けるとの知見に基づくものである。
斯かる目的を具体的に述べれば、文字データの音声読み上げに関し、聴感上、読み上げられる音声の聞き取り易さを向上させることにある。
上記目的を達成するため、本発明は、ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、ポーズ、長音、促音又は子音の何れか又は2以上を含む文字データからポーズ、長音、促音又は子音の存在を認識し、ポーズ、長音、促音又は子音の音素長を制御する。この音素長の制御は例えば、読み上げ速度に応じて実行し、読み上げ速度が低速の場合には、ポーズ、長音、促音又は子音の音素長を伸長させないか又はその音素長を短縮させる構成である。斯かる構成により、聴感上、読み上げられる音声の聞き取り易さが向上し、音声読み上げの認識性を高めている。
そこで、上記目的を達成するため、本発明の第1の側面は、文字データを音声に変換して読み上げる音声読み上げ装置であって、前記文字データからポーズ又は音素の種類を判定する音素判定部と、音素に読み上げ速度に応じて音素長を設定し、ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記音素判定部の判定結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する音素長調整部とを備える構成である。
斯かる構成によれば、文字データ、表音文字列から音素の種類を判別し、読み上げ速度に応じた音素長を設定するとともに、ポーズ、長音、促音又は子音の音素長を調整するので、読み上げ速度が低速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。
上記目的を達成するため、本発明の第2の側面は、文字データを音声に変換して読み上げる音声読み上げ装置であって、前記文字データから音素を判定する音素判定部と、音素に読み上げ速度に応じて音素長を設定し、前記音素が話頭である場合に、前記音素判定部の判定結果に基づき、前記話頭の音素の音素長を調整する音素長調整部とを備える構成である。
斯かる構成によれば、話頭の音素長即ち、ポーズ直後の音素長を調整するので、既述したように、読み上げ速度が低速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させる構成としてもよい。斯かる構成によれば、読み上げ速度が低速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、呼気段落を単位として音素長を調整することができ、再生時間を伸ばすことなく、聞き取り易さを高めることができる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、読み上げ文章の長さを単位として音素長を調整することができ、再生時間を伸ばすことなく、聞き取り易さを高めることができる。
上記目的を達成するため、本発明の第3の側面は、文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、前記文字データから音素の種類を判定する手順と、音素に読み上げ速度に応じた音素長を設定する手順と、ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する手順とを前記コンピュータに実行させる構成である。斯かる構成によれば、第1の側面で述べた通り、上記目的を達成することができる。
上記目的を達成するため、本発明の第4の側面は、文字データを音声に変換して読み上げる音声読み上げ方法であって、前記文字データから音素の種類を判定する段階と、音素に読み上げ速度に応じた音素長を設定する段階と、ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する段階とを含む構成である。斯かる構成によれば、第1の側面で述べた通り、上記目的を達成することができる。
本発明によれば、次のような効果が得られる。
(1) ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる音素について、読み上げ速度に応じて音素長を設定するとともに、文字データ中のポーズ、長音、促音又は子音を認識し、これらの音素長を調整するので、聞き取り易くでき、認識性を高めることができる。
(2) ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる音素について、読み上げ速度に応じてポーズ、長音、促音又は子音の音素長を伸長させないか又は音素長を短縮するので、聞き取り易くでき、認識性を高めることができる。
(3) 話頭の音素長を短縮する等、調整すれば、読み上げ速度に応じた一定の比率で音素長を削減する場合よりも聞き取り易くできる。
そして、本発明の他の目的、特徴及び利点は、添付図面及び各実施の形態を参照することにより、一層明確になるであろう。
〔第1の実施の形態〕
本発明の第1の実施の形態について、図1及び図2を参照する。図1は、音声読み上げ装置の構成例を示すブロック図、図2は、音声読み上げ装置の音素長制御部の構成例を示すブロック図である。
この音声読み上げ装置2は、本発明の音声読み上げのための装置、プログラム及び方法の構成例であって、コンピュータで構成され、例えば、テキスト文章(日本語では漢字かな混じり文)等、ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる音声合成装置で構成され、文字データ中のポーズ、長音、促音又は子音の音素が持つ音素長を話速(読み上げ速度)に応じて制御することにより、文字データから得た出力音声の聞き易さを高め、合成音声(読み上げ出力)の認識性を向上させたものである。ここで、文字データは音声読み上げの対象であって、ポーズ、長音、促音又は子音を含む表音文字、その文字列を含むデータであり、表音文字又はその表音文字列は、音声合成で使用する韻律記号付き発音記号からなる中間言語であって、韻律記号付きの発音記号(読み仮名)である。ポーズは、音声に変換されない区間等の無音区間である(但し、破裂音の直前の休止期間や促音は除かれる)。例えば、「卒業して、信用金庫に・・・」(ローマ字表記:so tsugyoushi te、 shinyou kin koni・・・)といった日本語文章では、「卒業して」と、「信用金庫」との間に、無音区間となる句点「、」が存在し、これがポーズの一例である。また、このポーズと呼気段落との関係について、呼気段落は人間が一息に発声する単位であり、この呼気段落の前後の息継ぎには既述のポーズが入ることになる。
長音は、長く引き延ばして発する音であり、短音でないものである。促音は、話中にあって次の音節の初めの子音と同じ調音の構えで中止的破裂又は摩擦をなし、1音節をなすものであって、例えば、「さっき」のように「っ」で表される。また、子音は、発音器官で作られる妨げ(閉鎖、狭め等)を息が通過することにより発せられる音であり、母音に対するものである。
上記機能を実現するため、この音声読み上げ装置2では、図1に示すように、言語処理部4と、単語辞書6と、パラメータ生成部8と、ピッチ切出し・重合せ部10と、波形辞書12とが備えられている。
言語処理部4は、漢字かな混じり文を入力して、単語辞書6を参照して単語を解析し、読み、アクセント、イントネーションを決定し、表音文字列(中間言語)を出力する言語処理手段である。また、単語辞書6には、単語の種類(品詞等)と読みや、アクセントの位置等が格納されている。
アクセントと、イントネーションとは、物理的にはピッチ周波数の時間的変化パターンと密接に関係している。具体的には、アクセント位置でピッチ周波数は高くなり、イントネーションが上がると、ピッチ周波数が高くなる。そこで、言語処理部4では、入力テキストでの句読点や、単語解析によって抽出された文節に基づいて、既述の呼気段落に分割する。
パラメータ生成部8は、音素継続時間、ポーズ継続時間やピッチ周波数パターンの設定を行うパラメータ生成手段である。このパラメータ生成部8では、話速に応じて音素長の制御を行っている。
このパラメータ生成部8には、図1に示すように、音素長設定部14と、音素長テーブル16と、音素長制御部18と、ピッチパターン生成部20とが備えられている。
言語処理部4で生成された表音文字列の段階において、どの音素を音声合成するかが決定される。そこで、音素長設定部14では、各音素についての音素長設定手段であって、標準的な話速における音素長が設定される。音素長テーブル16は、当該音素と前後の音素に応じた標準的な話速における音素長を格納する手段である。そこで、音素長の設定例としては、当該音素と前後の音素に応じた標準的な話速における音素長(データベースから抽出した値)を音素長テーブル16に格納しておき、この値を参照して音素長が設定される。この音素長は、他のパラメータ要素を以て修正する構成としてもよい。
音素長制御部18は、音素長設定部14で設定された標準的な話速での音素長を話速に応じて制御する音素長制御手段である。話速は、図示しない読み上げ速度(ユーザ設定等)の調整手段等から制御情報として音素長制御部18に加えられる。
音素長制御部18には、図2に示すように、音素長調整部24と、話速判定部26と、音素判定部28とが含まれる。音素長調整部24は、話速判定部26及び音素判定部28の各判定出力を受け、音素の長さやポーズの長さを調整する。話速判定部26は、入力された話速を判定し、その話速が標準速度、高速又は低速の何れであるかを判定し、その判定出力を音素長調整部24に加える。この場合、話速判定部26の出力する判定出力には、標準速度、高速又は低速を表す出力、その話速レベルを表す出力が含まれる。また、音素判定部28は、音素長設定部14(図1)で設定された音素長を持つ音素やポーズ等の他、音素やポーズ等の文章データ中の位置として例えば、話頭にあるか否か等を判定し、その判定出力を音素長調整部24に加える。
そこで、このような音素長制御部18によれば、例えば、標準的な話速に対する所定の話速に反比例した音素長とし、具体的な数値を例示すれば、標準的な話速を毎秒7モーラを目安とした場合、毎秒14モーラの話速が設定されていれば、各音素長を半分にし、毎秒6モーラの話速が設定されていれば、7/6の音素長とする。ここで、モーラとは、拍を表し、概ね仮名書きしたときの一文字相当の単位であって、拗音(小さい「ゃ」「ゅ」「ょ」)「きゃ」等は1モーラである。日本語の場合、一文字のモーラが類似の長さを持つ言語である。
ピッチパターン生成部20は、表音文字列でのアクセント情報等を加味して、各音素でのピッチ周期を設定するパターン生成手段である。
ピッチ切出し・重合せ部10は例えば、PSOLA法(Pitch-Synchronous Overlap- add:波形の加算重畳によるピッチ変換方法)を使用するピッチ切出し・重合せ手段である。また、波形辞書12には音声波形と、どの部分がどの音素かを示す音素ラベル、有声音についてピッチ周期を示すピッチマークが格納されている。そこで、ピッチ切出し・重合せ部10では、パラメータ生成部8で生成されたパラメータを元に波形辞書12から2周期分の音声波形を切り出し、窓関数(例えばハニング窓)を掛け、必要に応じて振幅調整のゲインを掛ける処理を実行し、波形辞書12でのピッチ周波数と所望のピッチ周波数が違えばピッチ変換し、切り出された波形をオーバーラップさせて加算することにより、合成音声信号が出力される。
この音声読み上げ装置のハードウェアについて、図3、図4及び図5を参照する。図3は、音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図、図4は、携帯端末装置の構成例を示す図、図5は、画面表示例を示す図である。
この携帯端末装置200は、既述の音声読み上げ装置2が適用された一例であって、斯かる構成に本発明の音声読み上げのための装置、方法又はプログラムが限定されるものではない。この携帯端末装置200では、通信機能や、メール文等のテキスト文章(日本語では漢字かな混じり文)等、文字データを音声に変換して出力する機能を有する。そこで、この携帯端末装置200には、図3に示すように、プロセッサ202と、記憶部204と、無線部206と、入力部208と、表示部210と、音声入力部212と、音声出力部214とが備えられている。
プロセッサ202は、電話通信や、音声合成等の音声読み上げの実行、その他の制御を行う制御手段であって、CPU(Central Processing Unit )又はMPU(Micro Processor Unit)で構成され、記憶部204にあるOS(Operating System)やアプリケーションプログラムを実行する。このアプリケーションプログラムには音声読み上げの処理手順を実行するプログラム等が含まれる。
記憶部204はプロセッサ202で実行されるプログラムや、その実行に用いる各種データを格納するとともに、処理エリアを形成する記録媒体であって、プログラム記憶部216、データ記憶部218、RAM(Random-Access Memory)220で構成されている。プログラム記憶部216にはOSやアプリケーションプログラムが格納され、データ記憶部218には単語辞書6、波形辞書12及び音素長テーブル16(図1)が形成され、既述のデータが格納されている。RAM220は、ワークエリアを構成する。
無線部206は基地局と無線によって音声信号電波やパケット信号電波等の送受信を行うための無線通信手段であって、プロセッサ202によって制御される。
入力部208はユーザの操作により制御データや表示部210に展開されるダイアログに対する応答を入力するための手段であって、キーボードやタッチパネル等で構成される。
表示部210はプロセッサ202によって制御され、文字や図形等を表示する表示手段であって、例えば、LCD(Liquid Crystal Display)素子で構成される。この表示部210には音声読み上げのテキスト文章等が表示される。
音声入力部212はプロセッサ202で制御される音声入力手段であって、マイクロフォン222を備える。入力音声はマイクロフォン222で音声信号に変換され、その音声信号がディジタル信号に変換されてプロセッサ202に取り込まれる。
音声出力部214はプロセッサ202で制御される音声出力手段であって、音声変換手段としてレシーバ224と、スピーカ226R、226Lとを備えている。音声読み上げの合成音声は、これらレシーバ224、スピーカ226R、226Lから再生される。
この携帯端末装置200において、既述の音声読み上げ装置2は例えば、プロセッサ202、記憶部204、表示部210、音声出力部214等で構成される。
そして、この携帯端末装置200は、図4に示すように、一例として筐体228に第1の筐体部230と、第2の筐体部232とが含まれ、これら筐体部230、232はヒンジ部234で連結して折畳み可能に構成され、筐体部230には入力部208、マイクロフォン222が配置され、筐体部232には表示部210、レシーバ224、スピーカ226R、226Lが設置されている。入力部208には文字等の入力に用いる複数の記号キー236、カーソルキー238、決定キー240等が配置されている。
そこで、この携帯端末装置200による音声読み上げでは、メール文や小説文等の各種のテキスト文が対象となり、表示部210の画面上に展開される文章等が音声合成されてレシーバ224やスピーカ226R、226Lから再生される。その場合、図5に示すように、表示部210に展開されたメール文表示画面242にはメール文が表示され、このメール文が音声として出力される。この例では、メール文表示画面242に「山梨県の 高校を 卒業して、信用金庫に 入って 4年目 です。」と表示されており、これが音声として再生される。
次に、音素長の制御について、図6を参照する。図6は、第1の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのためのプログラム又は方法の一例であって、第1の実施の形態では、低速読み上げの際に音素長を話速に応じて固定倍に設定するとともに、呼気段落の終端のポーズ長を伸長させない手順又は段階を含んでいる。この処理手順は、音声読み上げ装置2(図1)の音素長制御部18(図2)で実行される。
そこで、この処理手順は、図6に示すように、言語処理(ステップS101)、音素長設定処理(ステップS102)を実行する。言語処理(ステップS101)は、言語処理部4において実行され、入力データから表音文字列を生成し、この段階でどの音素を音声合成するかが決定される。次に、音素長設定処理(ステップS102)は、音素長設定部14において実行され、ポーズを含む各音素について、標準的な話速における音素長が設定される。この場合、音素長は、当該音素と前後の音素に応じた標準的な話速における音素長が音素長テーブル16を参照して設定される。
このような音素長の設定処理の後、呼気段落内の音素についての処理として、音素番号nを初期化(n=1)し(ステップS103)、話速に応じた音素長の制御を行う(ステップS104〜S108)。この音素長の制御は呼気段落を単位として実行され、ステップS103〜S108が呼気段落の音素処理のループである。この音素長の制御には、制御対象である音素の判定処理、その判定結果に対応した音素長の調整処理が含まれる。
音素長制御部18では入力された話速情報が認識され、その話速に応じて固定倍の音素長が設定される(ステップS104)。この場合、ポーズ長も話速に応じた固定倍の長さに調整される。このような音素調整の後、音素番号nの更新(n=n+1)を行い(ステップS105)、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号nが音素数nに到達したか否かが判定され(ステップS106)、呼気段落内の全ての音素についての処理が実行される。
呼気段落内の音素の処理が行われた後、話速についての判断として、低速読みか否かが判定され(ステップS107)、低速読みでなければ(ステップS107のNo)、呼気段落の終端のポーズ長を話速に応じて固定倍とし(ステップS108)、また、低速読みであれば(ステップS107のYes)、ステップS108を飛び越し、終了判定に移行する(ステップS109)。この終了判定では、入力データの全データの処理が完了したか否かが判定され(ステップS109)、全てのデータの処理が完了するまで、ステップS103からステップS109の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS110)、音声が出力される。
このように、呼気段落単位での話速に応じての音素長が設定されるとともに、話速が低速の場合には、終端のポーズ長を話速に応じて伸長させない処理とするので、ポーズ長が低速読みによる音素長の伸長に比較して短くなることから、間延び感を防止でき、しかも、読み上げ時間を短くすることができる。
〔第2の実施の形態〕
次に、第2の実施の形態について、図7を参照する。図7は、第2の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第2の実施の形態では、低速読みでかつ長音又は促音であるか否かの判定を行い、低速読み上げの際に、長音又は促音以外の音素の音素長を話速に応じて固定倍にして伸長させるのに対し、長音又は促音の音素の音素長を伸長させないことにより、長音と促音の音素長を標準の長さとして変更させないので、読み上げのトータル再生時間を極端に延長させることなく、聞き取り易さを高めている。
この第2の実施の形態では、音素長を伸張すべき音素を特定するため、音素判定部28(図2)において、長音又は促音であるか否かを判定し、その判定に基づき、長音又は促音の音素長を標準の長さにしている。
そこで、この処理手順では、図7に示すように、言語処理(ステップS201)、音素長設定処理(ステップS202)を実行する。これら言語処理(ステップS201)及び音素長設定処理(ステップS202)の後、呼気段落内の音素の処理として、音素番号nを初期化(n=1)する(ステップS203)。
この初期化の後、読み上げが低速読みであり、かつ、音素が長音又は促音であるか否かの判定を行い(ステップS204)、低速読みでかつ音素が長音又は促音でなければ(ステップS204のNo)、話速に応じた音素長を設定する(ステップS205)。即ち、音素長制御部18では入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定される(ステップS205)。低速読みでかつ音素が長音又は促音であれば(ステップS204のYes)、ステップS205を跨いで音素番号nの更新(n=n+1)を行い(ステップS206)、呼気段落内の音素は終了したか否かが判定され(ステップS207)、呼気段落内の全ての音素についての処理が実行される。
呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS208)、終了判定が行われる(ステップS209)。全てのデータの処理が完了するまで、ステップS203からステップS209の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS210)、音声が出力される。
このように、呼気段落単位での音素長が話速に応じて修正されるが、音素に長音又は促音が含まれる場合には、長音又は促音の音素長は標準に設定され、伸長されないので、聞き取り易さが高められ、音声に変換された読み上げ文の認識性が高められる。
〔第3の実施の形態〕
次に、第3の実施の形態について、図8を参照する。図8は、第3の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第3の実施の形態では、第2の実施の形態の音素長の調整に加え、ポーズ長を標準的な長さにして伸長させないことにより、聞き取り易さを高めている。
この第3の実施の形態では、音素長を調整すべき音素を特定するため、音素判定部28(図2)において、ポーズ又は長音又は促音であるか否かを判定し、その判定に基づき、ポーズ又は長音又は促音を標準の長さにし、伸長させない処理を実行している。
そこで、この処理手順では、図8に示すように、言語処理(ステップS301)、音素長設定処理(ステップS302)を実行する。これら言語処理(ステップS301)及び音素長設定処理(ステップS302)、音素長の設定処理の後、呼気段落内の音素の処理として、音素番号nを初期化(n=1)する(ステップS303)。
この初期化の後、読み上げが低速読みであり、かつ、ポーズ又は音素が長音又は促音であるか否かの判定を行い(ステップS304)、低速読みでかつポーズ又は長音又は促音でなければ(ステップS304のNo)、話速に応じて音素長を設定する(ステップS305)。即ち、音素長制御部18では入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定される(ステップS305)。低速読みでかつポーズ又は長音又は促音であれば(ステップS304のYes)、ステップS305を跨いで音素番号nの更新(n=n+1)を行い(ステップS306)、呼気段落内の音素は終了したか否かが判定され(ステップS307)、呼気段落内の全ての音素についての処理が実行される。
呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS308)、終了判定が行われる(ステップS309)。全てのデータの処理が完了するまで、ステップS303からステップS309の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS310)、音声が出力される。
このように、呼気段落単位での音素長が話速に応じて修正されるが、ポーズ又は長音又は促音が含まれる場合には、ポーズ又は長音又は促音の音素長は標準に設定され、伸長されないので、聞き取り易さが高められ、音声に変換された読み上げ文の認識性が高められる。
〔第4の実施の形態〕
次に、第4の実施の形態について、図9及び図10を参照する。図9は、第4の実施の形態に係る音素長制御部を示すブロック図、図10は、第4の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図9において、図2と同一部分には同一符号を付してある。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第4の実施の形態では、第1の実施の形態の音素長の調整に加え、低速読みでポーズ長を伸ばさない代わりに、即ち、ポーズ長の音素長の伸長に対し、ポーズ以外の音素を長めにすることで全体の長さを保ちつつ、間延び感を防止したものであり、具体的には、呼気段落の全体の長さを計算し、所定の長さになるように、ポーズ以外の全音素に比例配分することにより、間延び感を抑制しつつ、聞き取り易さを高めている。
そこで、この第4の実施の形態では、音声読み上げ装置2(図1)の音素長制御部18(図2)に関し、呼気段落長演算部30が設置され、この呼気段落長演算部30は、音素長調整部24の出力から呼気段落の全体の長さを演算する。その演算結果は制御情報として音素長調整部24に加えられ、音素長調整部24は、ポーズ長を話速に応じて固定倍にした後、呼気段落全体の長さを計算し、その伸長分を呼気段落内の全音素に比例配分し、呼気段落の読み上げ時間の長さが所定の長さになるように制御している。
この処理手順は、図10に示すように、言語処理(ステップS401)、音素長設定処理(ステップS402)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS403)、話速に応じた音素長の制御を行う(ステップS404〜S408)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定される(ステップS404)。この場合、ポーズ長も話速に応じた固定倍の長さに調整される。このような音素調整の後、音素番号nの更新(n=n+1)を行い(ステップS405)、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号nが音素数nに到達したか否かが判定され(ステップS406)、呼気段落内の全ての音素についての処理が実行される。
呼気段落内の音素の処理が行われた後、話速についての判断として、低速読みか否かが判定され(ステップS407)、低速読みでなければ(ステップS407のNo)、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS408)、また、低速読みであれば(ステップS407のYes)、呼気段落全体の長さを計算し(ステップS409)、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるようにポーズ以外の全音素の音素長を比例配分して調整し(ステップS410)、終了判定が行われる(ステップS411)。全てのデータの処理が完了するまで、ステップS403からステップS411の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS412)、音声が出力される。
このように、低速読みで呼気段落の終端のポーズの音素長を伸ばさない代わりに、ポーズ以外の音素が長めに設定され、読み上げ文の全体の長さを保ちつつ、間延び感がなく、聞き取り易さが改善される。
〔第5の実施の形態〕
次に、第5の実施の形態について、図11及び図12を参照する。図11は、第5の実施の形態に係る音素長制御部を示すブロック図、図12は、第5の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図11において、図2と同一部分には同一符号を付してある。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第5の実施の形態では、第1の実施の形態の音素長の調整に加え、低速読みで呼気段落の終端のポーズ長を伸ばさない代わりに、即ち、ポーズ長の音素長の伸長に対し、文章全体の長さを計算し、所定の長さになるように、全音素に比例配分することにより、間延び感を抑制しつつ、聞き取り易さを高めている。この場合、第4の実施の形態と同様に、ポーズ以外の音素を長めにすることで全体の長さを保ちつつ、間延び感を防止する構成としてもよい。
この第5の実施の形態では、音声読み上げ装置2(図1)の音素長制御部18(図2)に関し、図11に示すように、文章全体長演算部32が設置され、この文章全体長演算部32は、音素長調整部24の出力から文章全体の長さを演算する。その演算結果は制御情報として音素長調整部24に加えられ、音素長調整部24は、ポーズ長を話速に応じて固定倍にした後、その伸長しない分又は短縮分を文章全体の全音素に比例配分して全音素の各音素長を調整し、文章の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
この処理手順は、図12に示すように、言語処理(ステップS501)、音素長設定処理(ステップS502)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS503)、話速に応じた音素長の制御を行う(ステップS504〜S508)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定される(ステップS504)。この場合、ポーズ長も話速に応じた固定倍の長さに調整される。このような音素調整の後、音素番号nの更新(n=n+1)を行い(ステップS505)、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号nが音素数nに到達したか否かが判定され(ステップS506)、呼気段落内の全ての音素についての処理が実行される。
呼気段落の音素の処理が行われた後、話速についての判断として、低速読みか否かが判定され(ステップS507)、低速読みでなければ(ステップS507のNo)、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS508)、また、低速読みであれば(ステップS507のYes)、終了判定が行われる(ステップS509)。この終了判定では、全データの処理を終了したか否かを判定し、終了判定の後、文章全体の長さを計算し(ステップS510)、文章の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し(ステップS511)、音声合成が実行され(ステップS512)、音声が出力される。
このように、低速読みで呼気段落の終端のポーズの音素長を伸ばさない代わりに、この実施の形態では、文章全体を単位として音素が長めに設定され、読み上げ文の全体の長さを保ちつつ、間延び感がなく、聞き取り易さが改善される。
〔第6の実施の形態〕
次に、第6の実施の形態について、図13を参照する。図13は、第6の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第6の実施の形態では、長音又は促音の音素長を短縮する代わりに、母音の音素長を伸長させることで概ね全体の長さを保ちつつ、聞き難さを軽減している。この場合、低速読みの話速として例えば、標準速度の0.8〔倍〕かそれよりも遅い速度を想定するが、音素長は標準の音素長に対する一定比率として例えば、0.8〔倍〕を想定している。長音又は促音の音素長が短縮されても、母音の音素長が伸長されるので、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さが高められる。
そこで、この処理手順では、図13に示すように、言語処理(ステップS601)、音素長設定処理(ステップS602)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS603)、話速に応じた音素長の制御を行う(ステップS604〜S611)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第6の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS604)、低速読みかつ音素が長音又は促音であるか否かの判定(ステップS605)、話速が低速読みかつ長音又は促音であれば(ステップS605のYes)、その音素長を所定倍として例えば、0.8〔倍〕に設定し(ステップS606)、話速が低速読みかつ長音又は促音でなければ(ステップS605のNo)、低速読みかつ音素が母音であるか否かが判定される(ステップS607)。話速が低速読みかつ母音であれば(ステップS607のYes)、その音素長が所定倍として例えば、1.1〔倍〕に設定、即ち、調整され(ステップS608)、また、母音でなければ(ステップS607のNo)、ステップS604で話速に応じて固定倍に設定された音素長が維持される。
そして、既述の通り、音素番号nの更新(n=n+1)(ステップS609)、呼気段落内の音素の終了判定(ステップS610)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS611)、終了判定(ステップS612)、音声合成(ステップS613)が実行される。
このように、低速読みで長音又は促音の音素長が標準の音素長よりも短く設定され、母音ではその音素長が伸長されるので、音声出力の全再生時間の伸長を来すことなく、概ね全体の長さを同一に保ちつつ、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第7の実施の形態〕
次に、第7の実施の形態について、図14を参照する。図14は、第7の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図9)を用いて実行されるが、この実施の形態では、長音又は促音の音素長を短縮するのに対し、その短縮分の音素長を長音又は促音以外の全音素に比例配分して伸長させることにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。この場合、その一例として、話速は標準速度の0.8〔倍〕より遅くし、音素長の短縮比率は0.8〔倍〕に設定している。
そこで、この処理手順では、図14に示すように、言語処理(ステップS701)、音素長設定処理(ステップS702)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS703)、話速に応じた音素長の制御を行う(ステップS704〜S709)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第7の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS704)、低速読みかつ長音又は促音であるか否かの判定(ステップS705)、話速が低速読みかつ長音又は促音であれば(ステップS705のYes)、その音素長を所定倍として例えば、0.8〔倍〕に設定し(ステップS706)、低速読みかつ音素が長音又は促音でなければ(ステップS705のNo)、ステップS704で話速に応じて固定倍に設定された音素長が維持される。
このような処理の後、音素番号nの更新(n=n+1)(ステップS707)、呼気段落内の音素の終了判定(ステップS708)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS709)の後、呼気段落全体の長さを計算し(ステップS710)、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように、長音又は促音以外の全音素の音素長を比例配分して調整し(ステップS711)、終了判定が行われる(ステップS712)。全てのデータの処理が完了するまで、ステップS703からステップS712の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS713)、音声が出力される。
このように、音素長は話速に応じて固定倍に設定された後、低速読みかつ長音又は促音の場合にはその音素長が設定されている音素長より短縮され、呼気段落内の音素長の全体の長さを計算した後、長音又は促音の短縮分を長音又は促音以外の呼気段落内の全音素に比例配分して伸長させるので、呼気段落の長さが保たれるとともに、聞き取り難さが軽減され、音声に変換された読み上げ文の認識性が改善される。
〔第8の実施の形態〕
次に、第8の実施の形態について、図15を参照する。図15は、第8の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この実施の形態では、低速読みでかつ長音又は促音の場合には音素長を短縮し、その他の音素長を短縮しないので、概ね全体の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さが高められている。
そこで、この処理手順では、図15に示すように、言語処理(ステップS801)、音素長設定処理(ステップS802)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS803)、話速に応じた音素長の制御を行う(ステップS804〜S809)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第8の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS804)、低速読みかつ長音又は促音であるか否かの判定(ステップS805)、話速が低速読みかつ長音又は促音であれば(ステップS805のYes)、その音素長を所定倍として例えば、0.8〔倍〕に設定(ステップS806)、低速読みかつ長音又は促音でなければ(ステップS805のNo)、ステップS804で話速に応じて固定倍に設定された音素長が維持される。
このような処理の後、音素番号nの更新(n=n+1)(ステップS807)、呼気段落内の音素の終了判定(ステップS808)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS809)、終了判定が行われる(ステップS810)。全てのデータの処理が完了するまで、ステップS803からステップS810の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS811)、音声が出力される。
このように、低速読みで長音又は促音の音素長が短縮され、その他の音素が標準の長さとなり、他の音素の音素長に対して長音又は促音の音素長が短縮されるので、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第9の実施の形態〕
次に、第9の実施の形態について、図16を参照する。図16は、第9の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図9)を用いて実行されるが、この実施の形態では、低速読みでポーズ又は長音又は促音である場合に、その音素長を伸長しないので、ポーズ又は長音又は促音以外の音素は話速に応じて固定倍とされて伸長され、しかも、呼気段落を単位としてポーズ又は長音又は促音以外の全音素に対し、ポーズ又は長音又は促音の音素長を伸長しない分を比例配分して伸長させている。
そこで、この処理手順では、図16に示すように、言語処理(ステップS901)、音素長設定処理(ステップS902)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS903)、話速に応じた音素長の制御を行う(ステップS904〜S909)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第9の実施の形態においては、低速読みかつポーズ又は長音又は促音であるか否かが判定され(ステップS904)、話速が低速読みかつポーズ又は長音又は促音でなければ(ステップS904のNo)、その音素長を話速に応じて固定倍の設定をし(ステップS905)、話速が低速読みかつポーズ又は長音又は促音であれば(ステップS904のYes)、ステップS905を飛び越し、音素番号nを更新(n=n+1)する(ステップS906)。呼気段落内の音素の終了判定(ステップS907)の後、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じて固定倍の設定を行う(ステップS908)。
また、呼気段落全体の長さを計算し(ステップS909)、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるようにポーズ又は長音又は促音以外の音素長を比例配分して調整し(ステップS910)、終了判定が行われる(ステップS911)。全てのデータの処理が完了するまで、ステップS903からステップS911の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS912)、音声が出力される。
このように、低速読みでポーズ又は長音又は促音の音素長を伸長しない分だけ他の音素を呼気段落を単位としてポーズ又は長音又は促音以外の各音素に比例配分して伸長させるので、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第10の実施の形態〕
次に、第10の実施の形態について、図17を参照する。図17は、第10の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この実施の形態では、低速読みかつ音素が子音である場合、その音素長の伸長をしない処理として、標準話速のままとする処理を行う。
そこで、この処理手順では、図17に示すように、言語処理(ステップS1001)、音素長設定処理(ステップS1002)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)を行う(ステップS1003)。
この第10の実施の形態においては、低速読みかつ音素が子音であるか否かが判定され(ステップS1004)、話速が低速読みかつ音素が子音でなければ(ステップS1004のNo)、その音素長を話速に応じて固定倍の設定をし(ステップS1005)、話速が低速読みかつ音素が子音であれば(ステップS1004のYes)、ステップS1005を飛び越し、音素番号nを更新(n=n+1)する(ステップS1006)。呼気段落内の音素の終了判定(ステップS1007)の後、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じて固定倍の設定を行い(ステップS1008)、終了判定が行われる(ステップS1009)。全てのデータの処理が完了するまで、ステップS1003からステップS1009の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS1010)、音声が出力される。
このように、低速読みの場合に子音については音素長を伸長しない即ち、標準話速のままとすることにより、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第11の実施の形態〕
次に、第11の実施の形態について、図18を参照する。図18は、第11の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この実施の形態では、低速読みかつ先頭音素である場合、その音素長の伸長をしない処理として、標準話速のままとする処理を行う。
そこで、この処理手順では、図18に示すように、言語処理(ステップS1101)、音素長設定処理(ステップS1102)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)を行う(ステップS1103)。
この第11の実施の形態においては、低速読みかつ音素が先頭音素(n==1)かが判定され(ステップS1104)、低速読みかつ音素が先頭音素(n==1)でなければ(ステップS1104のNo)、その音素長を話速に応じて固定倍とし(ステップS1105)、低速読みかつ音素が先頭音素(n==1)であれば(ステップS1104のYes)、先頭音素を標準長のままとする。
このような処理の後、音素番号nを更新(n=n+1)し(ステップS1106)、呼気段落内の音素の終了判定(ステップS1107)の後、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じて固定倍の設定を行い(ステップS1108)、終了判定が行われる(ステップS1109)。全てのデータの処理が完了するまで、ステップS1103からステップS1109の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS1110)、音声が出力される。
このように、低速読みの場合に音素が先頭音素でない場合には、音素長を話速に応じて固定倍として伸長させ、先頭音素である場合には、音素長を伸長させないので、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第12の実施の形態〕
次に、第12の実施の形態について、図19を参照する。図19は、第12の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図11)を用いて実行されるが、この実施の形態では、長音又は促音の音素長を短縮等、調整するのに対し、その調整分を文章全体の全音素に比例配分して調整させることにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。この場合、その一例として、話速は標準速度の0.8〔倍〕より遅くし、音素長の短縮比率は0.8〔倍〕に設定している。この場合、第7の実施の形態と同様に、長音又は促音の音素長を短縮等、調整するのに対し、その調整分を長音又は促音以外の全音素の音素長に比例配分して調整する構成としてもよい。
そこで、この処理手順では、図19に示すように、言語処理(ステップS1201)、音素長設定処理(ステップS1202)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS1203)、話速に応じた音素長の制御を行う(ステップS1204〜S1209)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第12の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS1204)、低速読みかつ長音又は促音であるか否かの判定(ステップS1205)、話速が低速読みかつ長音又は促音であれば(ステップS1205のYes)、その音素長を所定倍として例えば、0.8〔倍〕に設定し(ステップS1206)、低速読みかつ音素が長音又は促音でなければ(ステップS1205のNo)、ステップS1204で話速に応じて固定倍に設定された音素長が維持される。
このような処理の後、音素番号nの更新(n=n+1)(ステップS1207)、呼気段落内の音素の終了判定(ステップS1208)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS1209)の後、終了判定が行われる(ステップS1210)。この終了判定では、全データの処理を終了したか否かを判定し、終了判定の後、文章全体の長さを計算し(ステップS1211)、文章の長さが所定の長さ例えば、音素長を短縮しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し(ステップS1212)、音声合成が実行され(ステップS1213)、音声が出力される。
このように、低速読みで長音又は促音の音素長の調整として、長音又は促音の音素長を短縮した代わりに、この実施の形態では、文章全体を単位として音素が長めに設定され、読み上げ文の全体の長さを保ちつつ、間延び感がなく、聞き取り易さが改善される。
〔第13の実施の形態〕
次に、第13の実施の形態について、図20を参照する。図20は、第13の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図11)を用いて実行されるが、この実施の形態では、低速読みでポーズ又は長音又は促音である場合に、その音素長の調整として例えば、その音素長を伸長しないので、ポーズ又は長音又は促音以外の音素は話速に応じて固定倍とされて伸長され、しかも、文章全体を単位として全音素に対し、ポーズ又は長音又は促音の音素長を調整しない分即ち、伸長しない分を比例配分して調整している。この場合、第9の実施の形態と同様に、ポーズ又は長音又は促音の音素長を短縮等、調整するのに対し、その調整分をポーズ又は長音又は促音以外の全音素の音素長に比例配分して調整する構成としてもよい。
そこで、この処理手順では図20に示すように、言語処理(ステップS1301)、音素長設定処理(ステップS1302)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS1303)、話速に応じた音素長の制御を行う(ステップS1304〜S1308)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第13の実施の形態においては、低速読みかつポーズ又は長音又は促音であるか否かが判定され(ステップS1304)、話速が低速読みかつポーズ又は長音又は促音でなければ(ステップS1304のNo)、その音素長を話速に応じて固定倍の設定をし(ステップS1305)、話速が低速読みかつポーズ又は長音又は促音であれば(ステップS1304のYes)、ステップS1305を飛び越し、音素番号nを更新(n=n+1)する(ステップS1306)。呼気段落内の音素の終了判定(ステップS1307)の後、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じて固定倍の設定を行い(ステップS1308)、終了判定が行われる(ステップS1309)。この終了判定では、全データの処理を終了したか否かを判定し、終了判定の後、文章全体の長さを計算し(ステップS1310)、文章の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し(ステップS1311)、音声合成が実行され(ステップS1312)、音声が出力される。
このように、低速読みでポーズ又は長音又は促音の音素長を伸長しない代わりに、この実施の形態では、文章全体を単位として音素が長めに設定され、読み上げ文の全体の長さを保ちつつ、間延び感がなく、聞き取り易さが改善される。
〔他の実施の形態〕
以上のように、各実施の形態について述べたが、本発明は、以下に示す他の実施の形態も包含するものである。
(1) 音素長制御部18に入力する話速情報について、図21を参照する。図21は、話速調整部を備えるパラメータ生成部を示すブロック図である。上記実施の形態では、音素長制御部18に話速情報を入力しているが、図21に示すように、外部から話速を調整可能な話速調整部22をパラメータ生成部8に設置し、外部から任意の話速設定を可能な構成としてもよい。
(2) 第1の実施の形態では、低速読みでない場合に呼気段落の終端のポーズ長を話速に応じて固定倍としたが、図22に示すように、低速読みか否かの判定(ステップS107)の後、低速読みであれば(ステップS107のYes)、終端のポーズ長を話速に応じて固定倍として伸長させ(ステップS108)、低速読みでなければ(ステップS107のNo)、そのポーズ長を変化させない構成としてもよい。即ち、高速読みの場合は、ポーズ長を短縮させないこととなり、聞き取り易さを高めることができる。
(3) 図23に示すフローチャートは、第2の実施の形態(図7)、第3の実施の形態(図8)、第9の実施の形態(図16)、第10の実施の形態(図17)、第11の実施の形態(図18)、第13の実施の形態(図20)のフローチャートの変形例である。図23において、ステップS2001は、ステップS204、S304、S904、S1004、S1104、S1304に対応する。上記実施の形態において、音素長を話速に応じて固定倍(ステップS2002)とする音素長の伸長に対し、ステップS2003を設定し、音素長を短縮する処理として標準音素長の例えば、0.8〔倍〕とする処理手順としてもよい。
(4) 呼気段落長を単位とする処理に関し、第4の実施の形態(図10)ではポーズ以外の全音素に音素長の調整分を比例配分し(ステップS410)、第7の実施の形態(図14)では低速読みでかつ長音又は促音の音素長の短縮分を長音又は促音以外の全音素に比例配分し(ステップS711)、第9の実施の形態(図16)では低速読みでかつポーズ又は長音又は促音の音素長の短縮分をポーズ又は長音又は促音以外の全音素に比例配分し(ステップS910)、呼気段落を単位として音素長の比例配分処理を行っているが、このような処理は、ポーズ、長音又は促音の調整分以外の音素、例えば、子音についての調整分を全音素に比例配分する構成としてもよい。
(5) 文章全体長を単位とする処理に関し、第5の実施の形態(図12)、第12の実施の形態(図19)、第13の実施の形態(図20)では所定の長さになるように全音素に比例配分し、文章全体を単位として音素長の比例配分処理を行っているが、このような処理は、ポーズ、長音又は促音の調整分以外の音素、例えば、子音についての調整分を全音素に比例配分する構成としてもよい。この場合、呼気段落を単位とする処理と同様に、文章全体長を単位とする処理に関し、ポーズ、長音、促音又は子音等の音素長を調整した場合、文章全体の音素長の調整からその調整分を除いて他の音素について比例配分する構成としてもよい。
(6) 第1の実施の形態に携帯端末装置200(図3、図4)を例示したが、本発明は、携帯情報端末機(PDA:Personal Digital Assistant)や、パーソナルコンピュータ等、コンピュータを搭載して音声を出力する電子機器や、電子機器ユニットを搭載する各種機器に適用できるものであり、本発明は、上記実施の形態に限定されるものではない。
〔実施例1〕
実施例1について、図24及び図25を参照する。図24は、図6のフローチャートに対応する比較例であるフローチャート、図25は、言語処理結果を示す図である。
この音声読み上げ装置2(図1)では、話速に応じて各音素の音素長を同様に伸長する場合には、図24に示すフローチャートの処理となり、ポーズ後の話頭の音素長を調整しない場合の処理を示している。即ち、図24のフローチャートは、図6のフローチャートからステップS107の処理手順がない場合と同一であって、言語処理(ステップS1401)、音素長設定処理(ステップS1402)、音素番号の初期化(ステップS1403)、音素長の固定倍処理(ステップS1404)、音素番号の更新(ステップS1405)、呼気段落内の音素終了判定(ステップS1406)、終端ポーズ長の固定倍処理(ステップS1407)、終了判定(ステップS1408)及び音声合成(ステップS1409)の処理から明らかなように、音素長の話速に応じた固定倍処理、終端のポーズ長の話速に応じた固定倍処理を実行している。
このような処理において、入力テキストの文例が例えば、
「山梨県の高校を卒業して、信用金庫に入って4年目です。」(図5)
であるとすれば、その単語解析結果は図25に示すように、入力テキスト、品詞、表音文字列で表すことができる。
この文例の「山梨県の高校を卒業して、信用金庫に入って4年目です。」において、「山梨」は名詞であり、その表音文字列は「ヤマナシ’」となり、「県」は名詞であり、その表音文字列は「ケン」となり、「の」は助詞であり、その表音文字列は「ノ」となり、この「の」の後部分はアクセント句境界で空白となり、「高校」は名詞であり、その表音文字列は「コーコー」となり、「を」は助詞であり、その表音文字列は「オ」となり、その後の部分はアクセント句境界で空白となり、「卒業し」は動詞(連用形)であり、その表音文字列は「ソツギョーシ」となり、「て」は助詞であり、その表音文字列は「テ」となり、「、」は呼気段落境界(ポーズ長は中)であり、その表音文字列は「、」となり、「信用」は名詞であり、その表音文字列は「シンヨー」となり、「金庫」は名詞であり、その表音文字列は「キ’ンコ」となり、「に」は助詞であり、その表音文字列は「ニ」となり、その後の部分はアクセント句境界で空白となり、「入っ」は動詞(連用形、促音便)であり、その表音文字列は「ハ*イッ」となり、「て」は助詞であり、その表音文字列は「テ」となり、その後の部分は呼気段落境界(ポーズ長は小)となり、その表音文字列は「・」となり、「4」は数詞であり、その表音文字列は「ヨ」となり、「年」は助数詞であり、その表音文字列は「ネン」となり、「目」は助数詞の後置詞であり、その表音文字列は「メ’」となり、「です」は助動詞であり、その表音文字列は「デス」となり、「。」は呼気段落境界(ポーズ長は大)であり、その表音文字列は「。」となる。従って、上記文例の表音文字列は、
「ヤマナシ’ケンノ コーコーオ ソツギョーシテ、シンヨーキ’ンコニ ハ*イッテ・ヨネンメ’デス。」
となる。
〔実施例2〕
実施例2はポーズ長を伸長しない(第1の実施の形態)の実施例である。この実施例2の処理結果を示す波形について、図26及び図27を参照する。図26は、比較例である音声合成波形を示す図、図27は、実施例2に係る音声合成波形を示す図である。図26において、Aは、標準速度の場合の波形であり、Bは、低速読み上げの場合の波形である。図26のAにおいてa、Bにおいてbは、ポーズ区間である。
これに対し、図27において、Aは、第1の実施の形態(図6のフローチャート)の処理の標準速度の場合の波形、Bは、低速読み上げに対応し、cのポーズ区間は、図27のAの標準速度と同様に、ポーズ長を伸長しない。
〔実施例3〕
実施例3は子音の音素長を伸長しない又は短縮する場合(第10の実施の形態)と、話頭の音素長を伸長しない又は短縮する場合(第11の実施の形態)との実施例である。この実施例3の処理結果を示す波形について、図28及び図29を参照する。図28は、比較例である音声合成波形を示す図、図29は、実施例3に係る音声合成波形を示す図である。図28において、Aは、標準速度の場合の波形であり、Bは、低速読み上げの場合の波形である。図28のBにおいて、dは、この場合、話頭で子音の音素長が125〔msec〕であり、話速比例通りである。
これに対し、図29において、Aは、第9、10の実施の形態(図16、図17のフローチャート)の処理の標準速度の場合の波形、Bは、低速読み上げに対応し、eの話頭で子音の音素長は、話速比例よりも短くなっている。
〔実施例4〕
実施例4は子音の音素長を伸長しない又は短縮する場合(第10の実施の形態)と、話頭の音素長を伸長しない又は短縮する場合(第11の実施の形態)との実施例である。この実施例4の処理結果を示す波形について、図30及び図31を参照する。図30は、比較例である音声合成波形を示す図、図31は、実施例4に係る音声合成波形を示す図である。実施例1、2、3が日本語であるのに対し、実施例4は英語文「ha─ppy, sho─ck, shoo─t」を読み上げた場合である。図30において、Aは、標準速度の場合の波形であり、Bは、低速読み上げの場合の波形である。図30のBにおいて、fは、この場合、話頭で子音の音素長が106〔msec〕、gは、同様に、話頭で子音の音素長が122〔msec〕であり、話速比例通りである。
これに対し、図31において、Aは、第9、10の実施の形態(図16、図17のフローチャート)の処理の標準速度の場合の波形、Bは、低速読み上げに対応し、hは、話頭で子音の音素長が86〔msec〕、iは、同様に、話頭で子音の音素長が97〔msec〕となっており、話速比例よりも伸長しない即ち、短縮している。
〔実施例5〕
実施例5はポーズ長を伸長しない場合(第1の実施の形態)であって、英語文「ha ppy sho ck shoo t」を読み上げた場合である。この実施例5の処理結果を示す波形について、図32を参照する。図32において、Aは、標準速度の場合の波形、Bは、低速読み上げに対応し、Bは、低速読みのため、Aと比べて伸長した波形になっているが、l、mのポーズ区間だけは、j、kのポーズ区間と同様に、同じ長さとし、伸長しない場合を示している。
次に、以上述べた本発明の実施の形態から抽出される技術的思想を請求項の記載形式に準じて付記として列挙する。本発明に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本発明が限定されるものではない。
(付記1) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データからポーズ又は音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じて音素長を設定し、ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記音素判定部の判定結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記2) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素を判定する音素判定部と、
音素に読み上げ速度に応じて音素長を設定し、前記音素が話頭である場合に、前記音素判定部の判定結果に基づき、前記話頭の音素の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記3) 付記1の音声読み上げ装置において、
音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させることを特徴とする音声読み上げ装置。
(付記4) 付記1又は2の音声読み上げ装置において、
呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
(付記5) 付記1又は2の音声読み上げ装置において、
読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
(付記6) 文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素の種類を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
(付記7) 文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
前記音素が話頭である場合に、その判定結果に基づき、前記話頭の音素の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
(付記8) 付記6の音声読み上げプログラムにおいて、
音素の読み上げ速度を判定する手順と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させる手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
(付記9) 付記6又は7の音声読み上げプログラムにおいて、
呼気段落の長さを演算する手順と、
前記音素長の調整分を前記呼気段落の長さの演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
(付記10) 付記6又は7の音声読み上げ装置において、
読み上げ文章の長さを演算する手順と、
前記音素長の調整分を前記読み上げ文章の長さの演算結果に基づき、前記文章の各音素長を比例配分して増減させる手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
(付記11) 文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素の種類を判定する段階と、
音素に読み上げ速度に応じた音素長を設定する段階と、
ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する段階と、
を含むことを特徴とする音声読み上げ方法。
(付記12) 文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素を判定する段階と、
音素に読み上げ速度に応じた音素長を設定する段階と、
前記音素が話頭である場合に、その判定結果に基づき、前記話頭の音素の音素長を調整する段階と、
を含むことを特徴とする音声読み上げ方法。
(付記13) 付記11の音声読み上げ方法において、
音素の読み上げ速度を判定する段階と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させる段階と、
を含むことを特徴とする音声読み上げ方法。
(付記14) 付記11又は12の音声読み上げ方法において、
呼気段落の長さを演算する段階と、
前記音素長の調整分を前記呼気段落の長さの演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる段階と、
を含むことを特徴とする音声読み上げ方法。
(付記15) 付記11又は12の音声読み上げ方法において、
読み上げ文章の長さを演算する段階と、
前記音素長の調整分を前記読み上げ文章の長さの演算結果に基づき、前記文章の各音素長を比例配分して増減させる段階と、
を含むことを特徴とする音声読み上げ方法。
以上説明したように、本発明の最も好ましい実施の形態等について説明したが、本発明は、上記記載に限定されるものではなく、特許請求の範囲に記載され、又は明細書に開示された発明の要旨に基づき、当業者において様々な変形や変更が可能であることは勿論であり、斯かる変形や変更が、本発明の範囲に含まれることは言うまでもない。
本発明は、文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、文字データからポーズ、長音、促音又は子音の存在を認識し、これらの音素長やポーズ長を制御し、読み上げ速度を低速化しても、合成音声の聞き取り易さを高め、認識性の向上が図られるので、音声合成等の処理に有用である。
第1の実施の形態に係る音声読み上げ装置の構成例を示すブロック図である。 音声読み上げ装置の音素長制御部の構成例を示すブロック図である。 音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図である。 携帯端末装置の構成例を示す図である。 画面表示例を示す図である。 第1の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第2の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第3の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第4の実施の形態に係る音素長制御部を示すブロック図である。 第4の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第5の実施の形態に係る音素長制御部を示すブロック図である。 第5の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第6の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第7の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第8の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第9の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第10の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第11の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第12の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第13の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 話速調整部を備えるパラメータ生成部を示すブロック図である。 他の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 他の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 音素長制御の処理手順の一例を示すフローチャートである。 言語処理結果を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。
符号の説明
2 音声読み上げ装置
24 音素長調整部
26 話速判定部
28 音素判定部
30 呼気段落長演算部
32 文章全体長演算部
34 区切り変更部
200 携帯端末装置

Claims (7)

  1. 文字データを音声に変換して読み上げる音声読み上げ装置であって、
    前記文字データからポーズ又は音素の種類を判定する音素判定部と、
    音素に読み上げ速度に応じて音素長を設定し、ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記音素判定部の判定結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する音素長調整部と、
    を備えることを特徴とする音声読み上げ装置。
  2. 文字データを音声に変換して読み上げる音声読み上げ装置であって、
    前記文字データから音素を判定する音素判定部と、
    音素に読み上げ速度に応じて音素長を設定し、前記音素が話頭である場合に、前記音素判定部の判定結果に基づき、前記話頭の音素の音素長を調整する音素長調整部と、
    を備えることを特徴とする音声読み上げ装置。
  3. 請求項1の音声読み上げ装置において、
    音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させることを特徴とする音声読み上げ装置。
  4. 請求項1又は2の音声読み上げ装置において、
    呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
  5. 請求項1又は2の音声読み上げ装置において、
    読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
  6. 文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
    前記文字データから音素の種類を判定する手順と、
    音素に読み上げ速度に応じた音素長を設定する手順と、
    ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する手順と、
    を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
  7. 文字データを音声に変換して読み上げる音声読み上げ方法であって、
    前記文字データから音素の種類を判定する段階と、
    音素に読み上げ速度に応じた音素長を設定する段階と、
    ポーズ、長音、促音又は子音の何れか又は2以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する段階と、
    を含むことを特徴とする音声読み上げ方法。
JP2007170520A 2007-06-28 2007-06-28 音声読み上げのための装置、プログラム及び方法 Expired - Fee Related JP4973337B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2007170520A JP4973337B2 (ja) 2007-06-28 2007-06-28 音声読み上げのための装置、プログラム及び方法
DE602008000857T DE602008000857D1 (de) 2007-06-28 2008-06-05 Anpassung der Pausenlänge für die Text-zu-Sprache Synthese
EP08157668A EP2009621B1 (en) 2007-06-28 2008-06-05 Adjustment of the pause length for text-to-speech synthesis
CN2008101273034A CN101334996B (zh) 2007-06-28 2008-06-27 文本到语音的设备
KR1020080061596A KR101014462B1 (ko) 2007-06-28 2008-06-27 음성 읽어내기를 위한 장치, 기록 매체 및 방법
US12/215,403 US20090006098A1 (en) 2007-06-28 2008-06-27 Text-to-speech apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007170520A JP4973337B2 (ja) 2007-06-28 2007-06-28 音声読み上げのための装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2009008910A true JP2009008910A (ja) 2009-01-15
JP4973337B2 JP4973337B2 (ja) 2012-07-11

Family

ID=39673189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007170520A Expired - Fee Related JP4973337B2 (ja) 2007-06-28 2007-06-28 音声読み上げのための装置、プログラム及び方法

Country Status (6)

Country Link
US (1) US20090006098A1 (ja)
EP (1) EP2009621B1 (ja)
JP (1) JP4973337B2 (ja)
KR (1) KR101014462B1 (ja)
CN (1) CN101334996B (ja)
DE (1) DE602008000857D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059412A (ja) * 2009-09-10 2011-03-24 Fujitsu Ltd 合成音声テキスト入力装置及びプログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool
CN102045661A (zh) * 2010-09-29 2011-05-04 深圳市五巨科技有限公司 一种移动终端在线聊天的方法、装置和系统
AT512197A1 (de) * 2011-11-17 2013-06-15 Joanneum Res Forschungsgesellschaft M B H Verfahren und system zur beschallung von räumen
CN103377651B (zh) * 2012-04-28 2015-12-16 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN103065619B (zh) * 2012-12-26 2015-02-04 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
US9508338B1 (en) * 2013-11-15 2016-11-29 Amazon Technologies, Inc. Inserting breath sounds into text-to-speech output
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
US11170757B2 (en) 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN108231048B (zh) * 2017-12-05 2021-09-28 北京小唱科技有限公司 修正音频节奏的方法及装置
EP3921770A4 (en) * 2019-02-05 2022-11-09 Igentify Ltd. SYSTEM AND METHOD FOR MODULATION OF DYNAMIC GAPS IN SPEECH
CN110277092A (zh) * 2019-06-21 2019-09-24 北京猎户星空科技有限公司 一种语音播报方法、装置、电子设备及可读存储介质
CN110337030B (zh) * 2019-08-08 2020-08-11 腾讯科技(深圳)有限公司 视频播放方法、装置、终端和计算机可读存储介质
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis
CN111627422B (zh) * 2020-05-13 2022-07-12 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质
EP4293660A4 (en) 2021-06-22 2024-07-17 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND ITS CONTROL METHOD

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03203800A (ja) * 1989-12-29 1991-09-05 Canon Inc 音声合成方式
JPH04270394A (ja) * 1991-02-26 1992-09-25 Nec Corp ポーズ長決定方式
JPH08171394A (ja) * 1994-12-19 1996-07-02 Fujitsu Ltd 音声合成装置
JPH0990986A (ja) * 1995-09-21 1997-04-04 Canon Inc 音声合成方法及びその装置
JPH1078795A (ja) * 1996-09-04 1998-03-24 Secom Co Ltd 音声合成装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000310996A (ja) * 1999-04-28 2000-11-07 Oki Electric Ind Co Ltd 音声合成装置および音韻継続時間長の制御方法
JP2007025039A (ja) * 2005-07-13 2007-02-01 Matsushita Electric Ind Co Ltd 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4338490A (en) * 1979-03-30 1982-07-06 Sharp Kabushiki Kaisha Speech synthesis method and device
JP3113101B2 (ja) 1992-11-09 2000-11-27 株式会社東芝 音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
CN1161673A (zh) * 1994-08-10 1997-10-08 伊夫斯·瓦特罗特 可变容积的瓶子
CN1113330C (zh) * 1997-08-15 2003-07-02 英业达股份有限公司 语音合成中的语音规整方法
WO2000058943A1 (fr) * 1999-03-25 2000-10-05 Matsushita Electric Industrial Co., Ltd. Systeme et procede de synthese de la parole
JP2003005774A (ja) * 2001-06-25 2003-01-08 Matsushita Electric Ind Co Ltd 音声合成装置
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03203800A (ja) * 1989-12-29 1991-09-05 Canon Inc 音声合成方式
JPH04270394A (ja) * 1991-02-26 1992-09-25 Nec Corp ポーズ長決定方式
JPH08171394A (ja) * 1994-12-19 1996-07-02 Fujitsu Ltd 音声合成装置
JPH0990986A (ja) * 1995-09-21 1997-04-04 Canon Inc 音声合成方法及びその装置
JPH1078795A (ja) * 1996-09-04 1998-03-24 Secom Co Ltd 音声合成装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000310996A (ja) * 1999-04-28 2000-11-07 Oki Electric Ind Co Ltd 音声合成装置および音韻継続時間長の制御方法
JP2007025039A (ja) * 2005-07-13 2007-02-01 Matsushita Electric Ind Co Ltd 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059412A (ja) * 2009-09-10 2011-03-24 Fujitsu Ltd 合成音声テキスト入力装置及びプログラム
US8504368B2 (en) 2009-09-10 2013-08-06 Fujitsu Limited Synthetic speech text-input device and program

Also Published As

Publication number Publication date
US20090006098A1 (en) 2009-01-01
JP4973337B2 (ja) 2012-07-11
CN101334996A (zh) 2008-12-31
EP2009621A1 (en) 2008-12-31
KR20090004586A (ko) 2009-01-12
KR101014462B1 (ko) 2011-02-14
DE602008000857D1 (de) 2010-05-06
EP2009621B1 (en) 2010-03-24
CN101334996B (zh) 2011-12-21

Similar Documents

Publication Publication Date Title
JP4973337B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP5029167B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP5029168B2 (ja) 音声読み上げのための装置、プログラム及び方法
US8504368B2 (en) Synthetic speech text-input device and program
EP1071074A2 (en) Speech synthesis employing prosody templates
JP6127371B2 (ja) 音声合成装置および音声合成方法
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2002304186A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2703253B2 (ja) 音声合成装置
Hande A review on speech synthesis an artificial voice production
JPH06149283A (ja) 音声合成装置
JP3297221B2 (ja) 音韻継続時間長制御方式
JP2001282274A (ja) 音声合成装置及びその制御方法及び記憶媒体
JPH08202381A (ja) 音声合成装置
JPH10177396A (ja) 音声合成装置及び発音訓練装置
JPH06131148A (ja) 音声合成装置
JP2016090966A (ja) 表示制御装置
JPH02285400A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120326

R150 Certificate of patent or registration of utility model

Ref document number: 4973337

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees