JP2009008910A

JP2009008910A - 音声読み上げのための装置、プログラム及び方法

Info

Publication number: JP2009008910A
Application number: JP2007170520A
Authority: JP
Inventors: Rika Nishiike; 理香西池; Hitoshi Sasaki; 均佐々木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2009-01-15
Anticipated expiration: 2027-06-28
Also published as: US20090006098A1; JP4973337B2; CN101334996A; EP2009621A1; KR20090004586A; KR101014462B1; DE602008000857D1; EP2009621B1; CN101334996B

Abstract

【課題】文字データの音声読み上げに関し、音素長の調整によって音声読み上げの認識性を高める。
【解決手段】ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる装置（音声読み上げ装置２）、プログラム及び方法に関し、ポーズ、長音、促音又は子音の何れか又は２以上を含む文字データからポーズ、長音、促音又は子音の存在を認識し、ポーズ、長音、促音又は子音の音素長を制御する。この音素長の制御は例えば、読み上げ速度に応じて実行し、読み上げ速度が低速の場合には、ポーズ、長音、促音又は子音の音素長を伸長させないか又はその音素長を短縮させる構成である。
【選択図】図１

Description

本発明は、文書等の表音文字を含む文字データを音声に変換して出力する音声読み上げのための装置、プログラム及び方法に関し、音素長を読み上げ速度に応じて制御し、特に、低速読み上げでは特定の音素長を伸長しないか又は短縮することを可能にする音声読み上げのための装置、プログラム及び方法に関する。

表音文字を含む文字データを解析し、その文字データから音声合成法により音声合成を行い、文字データを音声として出力する所謂音声読み上げの技術が知られている。携帯電話機等の携帯端末装置にあっては、メール等の自由文章を読み上げる音声合成機能が普及し始めている。また、パーソナルコンピュータ（ＰＣ）にあっては、スクリーンリーダと呼ばれるソフトウェアが普及し始めている。文章の内容を音声により理解する場合には、聴覚に作用する母音、子音、ポーズ等を表す音素の長さが認識性を高める上で重要なファクターとなる。

このような音声読み上げに関し、特許文献１には、発話速度情報が予め定められた値未満のときは、発話速度をその情報に基づいて標準より速くするため、モーラ長を最小限に設定し、発話速度情報に応じた短いフレーム周期を設定し、発話速度情報が予め定められた値以上のときは、発話速度をその情報に基づいて標準より遅くするため、発話速度情報に応じた長いモーラ長を設定し、フレーム周期を最大値に設定する音声合成が開示されている。
特開平６−１４９２８３号公報（要約及び図１等）

ところで、読み上げ速度（話速）を設定可能にした場合、話速に反比例して各音素長が設定されるものとする。例えば、話速を２倍の速さとすれば、その音素長は１／２となり、話速を１／２に遅くすれば、音素長は２倍となる。このように話速と音素長との関係を単純な関係に設定し、即ち、話速と音素長とを単純に反比例とすれば、通常の話速では自然な場合（聴き取り易い場合）であっても、高速読みや低速読みの場合には、聞き取り難く、違和感があり、認識性を低下させる場合がある。

斯かる要求や課題について、特許文献１にはその開示や示唆はなく、それを解決する構成等についての開示や示唆はない。

そこで、本発明の目的は、文字データの音声読み上げに関し、音素長の調整によって音声読み上げの認識性を高めることにある。

斯かる目的は、ポーズ、長音、促音又は子音を含む文字データの音素に対する認識性が読み上げ速度に応じて影響を受けるとの知見に基づくものである。

斯かる目的を具体的に述べれば、文字データの音声読み上げに関し、聴感上、読み上げられる音声の聞き取り易さを向上させることにある。

上記目的を達成するため、本発明は、ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、ポーズ、長音、促音又は子音の何れか又は２以上を含む文字データからポーズ、長音、促音又は子音の存在を認識し、ポーズ、長音、促音又は子音の音素長を制御する。この音素長の制御は例えば、読み上げ速度に応じて実行し、読み上げ速度が低速の場合には、ポーズ、長音、促音又は子音の音素長を伸長させないか又はその音素長を短縮させる構成である。斯かる構成により、聴感上、読み上げられる音声の聞き取り易さが向上し、音声読み上げの認識性を高めている。

そこで、上記目的を達成するため、本発明の第１の側面は、文字データを音声に変換して読み上げる音声読み上げ装置であって、前記文字データからポーズ又は音素の種類を判定する音素判定部と、音素に読み上げ速度に応じて音素長を設定し、ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記音素判定部の判定結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する音素長調整部とを備える構成である。

斯かる構成によれば、文字データ、表音文字列から音素の種類を判別し、読み上げ速度に応じた音素長を設定するとともに、ポーズ、長音、促音又は子音の音素長を調整するので、読み上げ速度が低速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。

上記目的を達成するため、本発明の第２の側面は、文字データを音声に変換して読み上げる音声読み上げ装置であって、前記文字データから音素を判定する音素判定部と、音素に読み上げ速度に応じて音素長を設定し、前記音素が話頭である場合に、前記音素判定部の判定結果に基づき、前記話頭の音素の音素長を調整する音素長調整部とを備える構成である。

斯かる構成によれば、話頭の音素長即ち、ポーズ直後の音素長を調整するので、既述したように、読み上げ速度が低速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。

上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させる構成としてもよい。斯かる構成によれば、読み上げ速度が低速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。

上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、呼気段落を単位として音素長を調整することができ、再生時間を伸ばすことなく、聞き取り易さを高めることができる。

上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、読み上げ文章の長さを単位として音素長を調整することができ、再生時間を伸ばすことなく、聞き取り易さを高めることができる。

上記目的を達成するため、本発明の第３の側面は、文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、前記文字データから音素の種類を判定する手順と、音素に読み上げ速度に応じた音素長を設定する手順と、ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する手順とを前記コンピュータに実行させる構成である。斯かる構成によれば、第１の側面で述べた通り、上記目的を達成することができる。

上記目的を達成するため、本発明の第４の側面は、文字データを音声に変換して読み上げる音声読み上げ方法であって、前記文字データから音素の種類を判定する段階と、音素に読み上げ速度に応じた音素長を設定する段階と、ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する段階とを含む構成である。斯かる構成によれば、第１の側面で述べた通り、上記目的を達成することができる。

本発明によれば、次のような効果が得られる。

(1) ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる音素について、読み上げ速度に応じて音素長を設定するとともに、文字データ中のポーズ、長音、促音又は子音を認識し、これらの音素長を調整するので、聞き取り易くでき、認識性を高めることができる。

(2) ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる音素について、読み上げ速度に応じてポーズ、長音、促音又は子音の音素長を伸長させないか又は音素長を短縮するので、聞き取り易くでき、認識性を高めることができる。

(3) 話頭の音素長を短縮する等、調整すれば、読み上げ速度に応じた一定の比率で音素長を削減する場合よりも聞き取り易くできる。

そして、本発明の他の目的、特徴及び利点は、添付図面及び各実施の形態を参照することにより、一層明確になるであろう。

〔第１の実施の形態〕

本発明の第１の実施の形態について、図１及び図２を参照する。図１は、音声読み上げ装置の構成例を示すブロック図、図２は、音声読み上げ装置の音素長制御部の構成例を示すブロック図である。

この音声読み上げ装置２は、本発明の音声読み上げのための装置、プログラム及び方法の構成例であって、コンピュータで構成され、例えば、テキスト文章（日本語では漢字かな混じり文）等、ポーズ、長音、促音又は子音を含む文字データを音声に変換して読み上げる音声合成装置で構成され、文字データ中のポーズ、長音、促音又は子音の音素が持つ音素長を話速（読み上げ速度）に応じて制御することにより、文字データから得た出力音声の聞き易さを高め、合成音声（読み上げ出力）の認識性を向上させたものである。ここで、文字データは音声読み上げの対象であって、ポーズ、長音、促音又は子音を含む表音文字、その文字列を含むデータであり、表音文字又はその表音文字列は、音声合成で使用する韻律記号付き発音記号からなる中間言語であって、韻律記号付きの発音記号（読み仮名）である。ポーズは、音声に変換されない区間等の無音区間である（但し、破裂音の直前の休止期間や促音は除かれる）。例えば、「卒業して、信用金庫に・・・」（ローマ字表記：ｓｏｔｓｕｇｙｏｕｓｈｉｔｅ、ｓｈｉｎｙｏｕｋｉｎｋｏｎｉ・・・）といった日本語文章では、「卒業して」と、「信用金庫」との間に、無音区間となる句点「、」が存在し、これがポーズの一例である。また、このポーズと呼気段落との関係について、呼気段落は人間が一息に発声する単位であり、この呼気段落の前後の息継ぎには既述のポーズが入ることになる。

長音は、長く引き延ばして発する音であり、短音でないものである。促音は、話中にあって次の音節の初めの子音と同じ調音の構えで中止的破裂又は摩擦をなし、１音節をなすものであって、例えば、「さっき」のように「っ」で表される。また、子音は、発音器官で作られる妨げ（閉鎖、狭め等）を息が通過することにより発せられる音であり、母音に対するものである。

上記機能を実現するため、この音声読み上げ装置２では、図１に示すように、言語処理部４と、単語辞書６と、パラメータ生成部８と、ピッチ切出し・重合せ部１０と、波形辞書１２とが備えられている。

言語処理部４は、漢字かな混じり文を入力して、単語辞書６を参照して単語を解析し、読み、アクセント、イントネーションを決定し、表音文字列（中間言語）を出力する言語処理手段である。また、単語辞書６には、単語の種類（品詞等）と読みや、アクセントの位置等が格納されている。

アクセントと、イントネーションとは、物理的にはピッチ周波数の時間的変化パターンと密接に関係している。具体的には、アクセント位置でピッチ周波数は高くなり、イントネーションが上がると、ピッチ周波数が高くなる。そこで、言語処理部４では、入力テキストでの句読点や、単語解析によって抽出された文節に基づいて、既述の呼気段落に分割する。

パラメータ生成部８は、音素継続時間、ポーズ継続時間やピッチ周波数パターンの設定を行うパラメータ生成手段である。このパラメータ生成部８では、話速に応じて音素長の制御を行っている。

このパラメータ生成部８には、図１に示すように、音素長設定部１４と、音素長テーブル１６と、音素長制御部１８と、ピッチパターン生成部２０とが備えられている。

言語処理部４で生成された表音文字列の段階において、どの音素を音声合成するかが決定される。そこで、音素長設定部１４では、各音素についての音素長設定手段であって、標準的な話速における音素長が設定される。音素長テーブル１６は、当該音素と前後の音素に応じた標準的な話速における音素長を格納する手段である。そこで、音素長の設定例としては、当該音素と前後の音素に応じた標準的な話速における音素長（データベースから抽出した値）を音素長テーブル１６に格納しておき、この値を参照して音素長が設定される。この音素長は、他のパラメータ要素を以て修正する構成としてもよい。

音素長制御部１８は、音素長設定部１４で設定された標準的な話速での音素長を話速に応じて制御する音素長制御手段である。話速は、図示しない読み上げ速度（ユーザ設定等）の調整手段等から制御情報として音素長制御部１８に加えられる。

音素長制御部１８には、図２に示すように、音素長調整部２４と、話速判定部２６と、音素判定部２８とが含まれる。音素長調整部２４は、話速判定部２６及び音素判定部２８の各判定出力を受け、音素の長さやポーズの長さを調整する。話速判定部２６は、入力された話速を判定し、その話速が標準速度、高速又は低速の何れであるかを判定し、その判定出力を音素長調整部２４に加える。この場合、話速判定部２６の出力する判定出力には、標準速度、高速又は低速を表す出力、その話速レベルを表す出力が含まれる。また、音素判定部２８は、音素長設定部１４（図１）で設定された音素長を持つ音素やポーズ等の他、音素やポーズ等の文章データ中の位置として例えば、話頭にあるか否か等を判定し、その判定出力を音素長調整部２４に加える。

そこで、このような音素長制御部１８によれば、例えば、標準的な話速に対する所定の話速に反比例した音素長とし、具体的な数値を例示すれば、標準的な話速を毎秒７モーラを目安とした場合、毎秒１４モーラの話速が設定されていれば、各音素長を半分にし、毎秒６モーラの話速が設定されていれば、７／６の音素長とする。ここで、モーラとは、拍を表し、概ね仮名書きしたときの一文字相当の単位であって、拗音（小さい「ゃ」「ゅ」「ょ」）「きゃ」等は１モーラである。日本語の場合、一文字のモーラが類似の長さを持つ言語である。

ピッチパターン生成部２０は、表音文字列でのアクセント情報等を加味して、各音素でのピッチ周期を設定するパターン生成手段である。

ピッチ切出し・重合せ部１０は例えば、ＰＳＯＬＡ法（Pitch-Synchronous Overlap- add：波形の加算重畳によるピッチ変換方法）を使用するピッチ切出し・重合せ手段である。また、波形辞書１２には音声波形と、どの部分がどの音素かを示す音素ラベル、有声音についてピッチ周期を示すピッチマークが格納されている。そこで、ピッチ切出し・重合せ部１０では、パラメータ生成部８で生成されたパラメータを元に波形辞書１２から２周期分の音声波形を切り出し、窓関数（例えばハニング窓）を掛け、必要に応じて振幅調整のゲインを掛ける処理を実行し、波形辞書１２でのピッチ周波数と所望のピッチ周波数が違えばピッチ変換し、切り出された波形をオーバーラップさせて加算することにより、合成音声信号が出力される。

この音声読み上げ装置のハードウェアについて、図３、図４及び図５を参照する。図３は、音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図、図４は、携帯端末装置の構成例を示す図、図５は、画面表示例を示す図である。

この携帯端末装置２００は、既述の音声読み上げ装置２が適用された一例であって、斯かる構成に本発明の音声読み上げのための装置、方法又はプログラムが限定されるものではない。この携帯端末装置２００では、通信機能や、メール文等のテキスト文章（日本語では漢字かな混じり文）等、文字データを音声に変換して出力する機能を有する。そこで、この携帯端末装置２００には、図３に示すように、プロセッサ２０２と、記憶部２０４と、無線部２０６と、入力部２０８と、表示部２１０と、音声入力部２１２と、音声出力部２１４とが備えられている。

プロセッサ２０２は、電話通信や、音声合成等の音声読み上げの実行、その他の制御を行う制御手段であって、ＣＰＵ（Central Processing Unit ）又はＭＰＵ（Micro Processor Unit）で構成され、記憶部２０４にあるＯＳ（Operating System）やアプリケーションプログラムを実行する。このアプリケーションプログラムには音声読み上げの処理手順を実行するプログラム等が含まれる。

記憶部２０４はプロセッサ２０２で実行されるプログラムや、その実行に用いる各種データを格納するとともに、処理エリアを形成する記録媒体であって、プログラム記憶部２１６、データ記憶部２１８、ＲＡＭ（Random-Access Memory）２２０で構成されている。プログラム記憶部２１６にはＯＳやアプリケーションプログラムが格納され、データ記憶部２１８には単語辞書６、波形辞書１２及び音素長テーブル１６（図１）が形成され、既述のデータが格納されている。ＲＡＭ２２０は、ワークエリアを構成する。

無線部２０６は基地局と無線によって音声信号電波やパケット信号電波等の送受信を行うための無線通信手段であって、プロセッサ２０２によって制御される。

入力部２０８はユーザの操作により制御データや表示部２１０に展開されるダイアログに対する応答を入力するための手段であって、キーボードやタッチパネル等で構成される。

表示部２１０はプロセッサ２０２によって制御され、文字や図形等を表示する表示手段であって、例えば、ＬＣＤ（Liquid Crystal Display）素子で構成される。この表示部２１０には音声読み上げのテキスト文章等が表示される。

音声入力部２１２はプロセッサ２０２で制御される音声入力手段であって、マイクロフォン２２２を備える。入力音声はマイクロフォン２２２で音声信号に変換され、その音声信号がディジタル信号に変換されてプロセッサ２０２に取り込まれる。

音声出力部２１４はプロセッサ２０２で制御される音声出力手段であって、音声変換手段としてレシーバ２２４と、スピーカ２２６Ｒ、２２６Ｌとを備えている。音声読み上げの合成音声は、これらレシーバ２２４、スピーカ２２６Ｒ、２２６Ｌから再生される。

この携帯端末装置２００において、既述の音声読み上げ装置２は例えば、プロセッサ２０２、記憶部２０４、表示部２１０、音声出力部２１４等で構成される。

そして、この携帯端末装置２００は、図４に示すように、一例として筐体２２８に第１の筐体部２３０と、第２の筐体部２３２とが含まれ、これら筐体部２３０、２３２はヒンジ部２３４で連結して折畳み可能に構成され、筐体部２３０には入力部２０８、マイクロフォン２２２が配置され、筐体部２３２には表示部２１０、レシーバ２２４、スピーカ２２６Ｒ、２２６Ｌが設置されている。入力部２０８には文字等の入力に用いる複数の記号キー２３６、カーソルキー２３８、決定キー２４０等が配置されている。

そこで、この携帯端末装置２００による音声読み上げでは、メール文や小説文等の各種のテキスト文が対象となり、表示部２１０の画面上に展開される文章等が音声合成されてレシーバ２２４やスピーカ２２６Ｒ、２２６Ｌから再生される。その場合、図５に示すように、表示部２１０に展開されたメール文表示画面２４２にはメール文が表示され、このメール文が音声として出力される。この例では、メール文表示画面２４２に「山梨県の高校を卒業して、信用金庫に入って４年目です。」と表示されており、これが音声として再生される。

次に、音素長の制御について、図６を参照する。図６は、第１の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのためのプログラム又は方法の一例であって、第１の実施の形態では、低速読み上げの際に音素長を話速に応じて固定倍に設定するとともに、呼気段落の終端のポーズ長を伸長させない手順又は段階を含んでいる。この処理手順は、音声読み上げ装置２（図１）の音素長制御部１８（図２）で実行される。

そこで、この処理手順は、図６に示すように、言語処理（ステップＳ１０１）、音素長設定処理（ステップＳ１０２）を実行する。言語処理（ステップＳ１０１）は、言語処理部４において実行され、入力データから表音文字列を生成し、この段階でどの音素を音声合成するかが決定される。次に、音素長設定処理（ステップＳ１０２）は、音素長設定部１４において実行され、ポーズを含む各音素について、標準的な話速における音素長が設定される。この場合、音素長は、当該音素と前後の音素に応じた標準的な話速における音素長が音素長テーブル１６を参照して設定される。

このような音素長の設定処理の後、呼気段落内の音素についての処理として、音素番号ｎを初期化（ｎ＝１）し（ステップＳ１０３）、話速に応じた音素長の制御を行う（ステップＳ１０４〜Ｓ１０８）。この音素長の制御は呼気段落を単位として実行され、ステップＳ１０３〜Ｓ１０８が呼気段落の音素処理のループである。この音素長の制御には、制御対象である音素の判定処理、その判定結果に対応した音素長の調整処理が含まれる。

音素長制御部１８では入力された話速情報が認識され、その話速に応じて固定倍の音素長が設定される（ステップＳ１０４）。この場合、ポーズ長も話速に応じた固定倍の長さに調整される。このような音素調整の後、音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ１０５）、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号ｎが音素数ｎに到達したか否かが判定され（ステップＳ１０６）、呼気段落内の全ての音素についての処理が実行される。

呼気段落内の音素の処理が行われた後、話速についての判断として、低速読みか否かが判定され（ステップＳ１０７）、低速読みでなければ（ステップＳ１０７のＮｏ）、呼気段落の終端のポーズ長を話速に応じて固定倍とし（ステップＳ１０８）、また、低速読みであれば（ステップＳ１０７のＹｅｓ）、ステップＳ１０８を飛び越し、終了判定に移行する（ステップＳ１０９）。この終了判定では、入力データの全データの処理が完了したか否かが判定され（ステップＳ１０９）、全てのデータの処理が完了するまで、ステップＳ１０３からステップＳ１０９の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ１１０）、音声が出力される。

このように、呼気段落単位での話速に応じての音素長が設定されるとともに、話速が低速の場合には、終端のポーズ長を話速に応じて伸長させない処理とするので、ポーズ長が低速読みによる音素長の伸長に比較して短くなることから、間延び感を防止でき、しかも、読み上げ時間を短くすることができる。

〔第２の実施の形態〕

次に、第２の実施の形態について、図７を参照する。図７は、第２の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第２の実施の形態では、低速読みでかつ長音又は促音であるか否かの判定を行い、低速読み上げの際に、長音又は促音以外の音素の音素長を話速に応じて固定倍にして伸長させるのに対し、長音又は促音の音素の音素長を伸長させないことにより、長音と促音の音素長を標準の長さとして変更させないので、読み上げのトータル再生時間を極端に延長させることなく、聞き取り易さを高めている。

この第２の実施の形態では、音素長を伸張すべき音素を特定するため、音素判定部２８（図２）において、長音又は促音であるか否かを判定し、その判定に基づき、長音又は促音の音素長を標準の長さにしている。

そこで、この処理手順では、図７に示すように、言語処理（ステップＳ２０１）、音素長設定処理（ステップＳ２０２）を実行する。これら言語処理（ステップＳ２０１）及び音素長設定処理（ステップＳ２０２）の後、呼気段落内の音素の処理として、音素番号ｎを初期化（ｎ＝１）する（ステップＳ２０３）。

この初期化の後、読み上げが低速読みであり、かつ、音素が長音又は促音であるか否かの判定を行い（ステップＳ２０４）、低速読みでかつ音素が長音又は促音でなければ（ステップＳ２０４のＮｏ）、話速に応じた音素長を設定する（ステップＳ２０５）。即ち、音素長制御部１８では入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定される（ステップＳ２０５）。低速読みでかつ音素が長音又は促音であれば（ステップＳ２０４のＹｅｓ）、ステップＳ２０５を跨いで音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ２０６）、呼気段落内の音素は終了したか否かが判定され（ステップＳ２０７）、呼気段落内の全ての音素についての処理が実行される。

呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし（ステップＳ２０８）、終了判定が行われる（ステップＳ２０９）。全てのデータの処理が完了するまで、ステップＳ２０３からステップＳ２０９の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ２１０）、音声が出力される。

このように、呼気段落単位での音素長が話速に応じて修正されるが、音素に長音又は促音が含まれる場合には、長音又は促音の音素長は標準に設定され、伸長されないので、聞き取り易さが高められ、音声に変換された読み上げ文の認識性が高められる。

〔第３の実施の形態〕

次に、第３の実施の形態について、図８を参照する。図８は、第３の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第３の実施の形態では、第２の実施の形態の音素長の調整に加え、ポーズ長を標準的な長さにして伸長させないことにより、聞き取り易さを高めている。

この第３の実施の形態では、音素長を調整すべき音素を特定するため、音素判定部２８（図２）において、ポーズ又は長音又は促音であるか否かを判定し、その判定に基づき、ポーズ又は長音又は促音を標準の長さにし、伸長させない処理を実行している。

そこで、この処理手順では、図８に示すように、言語処理（ステップＳ３０１）、音素長設定処理（ステップＳ３０２）を実行する。これら言語処理（ステップＳ３０１）及び音素長設定処理（ステップＳ３０２）、音素長の設定処理の後、呼気段落内の音素の処理として、音素番号ｎを初期化（ｎ＝１）する（ステップＳ３０３）。

この初期化の後、読み上げが低速読みであり、かつ、ポーズ又は音素が長音又は促音であるか否かの判定を行い（ステップＳ３０４）、低速読みでかつポーズ又は長音又は促音でなければ（ステップＳ３０４のＮｏ）、話速に応じて音素長を設定する（ステップＳ３０５）。即ち、音素長制御部１８では入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定される（ステップＳ３０５）。低速読みでかつポーズ又は長音又は促音であれば（ステップＳ３０４のＹｅｓ）、ステップＳ３０５を跨いで音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ３０６）、呼気段落内の音素は終了したか否かが判定され（ステップＳ３０７）、呼気段落内の全ての音素についての処理が実行される。

呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし（ステップＳ３０８）、終了判定が行われる（ステップＳ３０９）。全てのデータの処理が完了するまで、ステップＳ３０３からステップＳ３０９の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ３１０）、音声が出力される。

このように、呼気段落単位での音素長が話速に応じて修正されるが、ポーズ又は長音又は促音が含まれる場合には、ポーズ又は長音又は促音の音素長は標準に設定され、伸長されないので、聞き取り易さが高められ、音声に変換された読み上げ文の認識性が高められる。

〔第４の実施の形態〕

次に、第４の実施の形態について、図９及び図１０を参照する。図９は、第４の実施の形態に係る音素長制御部を示すブロック図、図１０は、第４の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図９において、図２と同一部分には同一符号を付してある。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第４の実施の形態では、第１の実施の形態の音素長の調整に加え、低速読みでポーズ長を伸ばさない代わりに、即ち、ポーズ長の音素長の伸長に対し、ポーズ以外の音素を長めにすることで全体の長さを保ちつつ、間延び感を防止したものであり、具体的には、呼気段落の全体の長さを計算し、所定の長さになるように、ポーズ以外の全音素に比例配分することにより、間延び感を抑制しつつ、聞き取り易さを高めている。

そこで、この第４の実施の形態では、音声読み上げ装置２（図１）の音素長制御部１８（図２）に関し、呼気段落長演算部３０が設置され、この呼気段落長演算部３０は、音素長調整部２４の出力から呼気段落の全体の長さを演算する。その演算結果は制御情報として音素長調整部２４に加えられ、音素長調整部２４は、ポーズ長を話速に応じて固定倍にした後、呼気段落全体の長さを計算し、その伸長分を呼気段落内の全音素に比例配分し、呼気段落の読み上げ時間の長さが所定の長さになるように制御している。

この処理手順は、図１０に示すように、言語処理（ステップＳ４０１）、音素長設定処理（ステップＳ４０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ４０３）、話速に応じた音素長の制御を行う（ステップＳ４０４〜Ｓ４０８）。この音素長の制御が呼気段落を単位とするのは第１の実施の形態と同様である。

音素長制御部１８では入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定される（ステップＳ４０４）。この場合、ポーズ長も話速に応じた固定倍の長さに調整される。このような音素調整の後、音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ４０５）、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号ｎが音素数ｎに到達したか否かが判定され（ステップＳ４０６）、呼気段落内の全ての音素についての処理が実行される。

呼気段落内の音素の処理が行われた後、話速についての判断として、低速読みか否かが判定され（ステップＳ４０７）、低速読みでなければ（ステップＳ４０７のＮｏ）、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし（ステップＳ４０８）、また、低速読みであれば（ステップＳ４０７のＹｅｓ）、呼気段落全体の長さを計算し（ステップＳ４０９）、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるようにポーズ以外の全音素の音素長を比例配分して調整し（ステップＳ４１０）、終了判定が行われる（ステップＳ４１１）。全てのデータの処理が完了するまで、ステップＳ４０３からステップＳ４１１の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ４１２）、音声が出力される。

このように、低速読みで呼気段落の終端のポーズの音素長を伸ばさない代わりに、ポーズ以外の音素が長めに設定され、読み上げ文の全体の長さを保ちつつ、間延び感がなく、聞き取り易さが改善される。

〔第５の実施の形態〕

次に、第５の実施の形態について、図１１及び図１２を参照する。図１１は、第５の実施の形態に係る音素長制御部を示すブロック図、図１２は、第５の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図１１において、図２と同一部分には同一符号を付してある。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第５の実施の形態では、第１の実施の形態の音素長の調整に加え、低速読みで呼気段落の終端のポーズ長を伸ばさない代わりに、即ち、ポーズ長の音素長の伸長に対し、文章全体の長さを計算し、所定の長さになるように、全音素に比例配分することにより、間延び感を抑制しつつ、聞き取り易さを高めている。この場合、第４の実施の形態と同様に、ポーズ以外の音素を長めにすることで全体の長さを保ちつつ、間延び感を防止する構成としてもよい。

この第５の実施の形態では、音声読み上げ装置２（図１）の音素長制御部１８（図２）に関し、図１１に示すように、文章全体長演算部３２が設置され、この文章全体長演算部３２は、音素長調整部２４の出力から文章全体の長さを演算する。その演算結果は制御情報として音素長調整部２４に加えられ、音素長調整部２４は、ポーズ長を話速に応じて固定倍にした後、その伸長しない分又は短縮分を文章全体の全音素に比例配分して全音素の各音素長を調整し、文章の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。

この処理手順は、図１２に示すように、言語処理（ステップＳ５０１）、音素長設定処理（ステップＳ５０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ５０３）、話速に応じた音素長の制御を行う（ステップＳ５０４〜Ｓ５０８）。この音素長の制御が呼気段落を単位とするのは第１の実施の形態と同様である。

音素長制御部１８では入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定される（ステップＳ５０４）。この場合、ポーズ長も話速に応じた固定倍の長さに調整される。このような音素調整の後、音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ５０５）、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号ｎが音素数ｎに到達したか否かが判定され（ステップＳ５０６）、呼気段落内の全ての音素についての処理が実行される。

呼気段落の音素の処理が行われた後、話速についての判断として、低速読みか否かが判定され（ステップＳ５０７）、低速読みでなければ（ステップＳ５０７のＮｏ）、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし（ステップＳ５０８）、また、低速読みであれば（ステップＳ５０７のＹｅｓ）、終了判定が行われる（ステップＳ５０９）。この終了判定では、全データの処理を終了したか否かを判定し、終了判定の後、文章全体の長さを計算し（ステップＳ５１０）、文章の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し（ステップＳ５１１）、音声合成が実行され（ステップＳ５１２）、音声が出力される。

このように、低速読みで呼気段落の終端のポーズの音素長を伸ばさない代わりに、この実施の形態では、文章全体を単位として音素が長めに設定され、読み上げ文の全体の長さを保ちつつ、間延び感がなく、聞き取り易さが改善される。

〔第６の実施の形態〕

次に、第６の実施の形態について、図１３を参照する。図１３は、第６の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第６の実施の形態では、長音又は促音の音素長を短縮する代わりに、母音の音素長を伸長させることで概ね全体の長さを保ちつつ、聞き難さを軽減している。この場合、低速読みの話速として例えば、標準速度の０．８〔倍〕かそれよりも遅い速度を想定するが、音素長は標準の音素長に対する一定比率として例えば、０．８〔倍〕を想定している。長音又は促音の音素長が短縮されても、母音の音素長が伸長されるので、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さが高められる。

そこで、この処理手順では、図１３に示すように、言語処理（ステップＳ６０１）、音素長設定処理（ステップＳ６０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ６０３）、話速に応じた音素長の制御を行う（ステップＳ６０４〜Ｓ６１１）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第６の実施の形態においても、話速に応じた固定倍の音素長の設定（ステップＳ６０４）、低速読みかつ音素が長音又は促音であるか否かの判定（ステップＳ６０５）、話速が低速読みかつ長音又は促音であれば（ステップＳ６０５のＹｅｓ）、その音素長を所定倍として例えば、０．８〔倍〕に設定し（ステップＳ６０６）、話速が低速読みかつ長音又は促音でなければ（ステップＳ６０５のＮｏ）、低速読みかつ音素が母音であるか否かが判定される（ステップＳ６０７）。話速が低速読みかつ母音であれば（ステップＳ６０７のＹｅｓ）、その音素長が所定倍として例えば、１．１〔倍〕に設定、即ち、調整され（ステップＳ６０８）、また、母音でなければ（ステップＳ６０７のＮｏ）、ステップＳ６０４で話速に応じて固定倍に設定された音素長が維持される。

そして、既述の通り、音素番号ｎの更新（ｎ＝ｎ＋１）（ステップＳ６０９）、呼気段落内の音素の終了判定（ステップＳ６１０）、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定（ステップＳ６１１）、終了判定（ステップＳ６１２）、音声合成（ステップＳ６１３）が実行される。

このように、低速読みで長音又は促音の音素長が標準の音素長よりも短く設定され、母音ではその音素長が伸長されるので、音声出力の全再生時間の伸長を来すことなく、概ね全体の長さを同一に保ちつつ、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第７の実施の形態〕

次に、第７の実施の形態について、図１４を参照する。図１４は、第７の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図９）を用いて実行されるが、この実施の形態では、長音又は促音の音素長を短縮するのに対し、その短縮分の音素長を長音又は促音以外の全音素に比例配分して伸長させることにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。この場合、その一例として、話速は標準速度の０．８〔倍〕より遅くし、音素長の短縮比率は０．８〔倍〕に設定している。

そこで、この処理手順では、図１４に示すように、言語処理（ステップＳ７０１）、音素長設定処理（ステップＳ７０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ７０３）、話速に応じた音素長の制御を行う（ステップＳ７０４〜Ｓ７０９）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第７の実施の形態においても、話速に応じた固定倍の音素長の設定（ステップＳ７０４）、低速読みかつ長音又は促音であるか否かの判定（ステップＳ７０５）、話速が低速読みかつ長音又は促音であれば（ステップＳ７０５のＹｅｓ）、その音素長を所定倍として例えば、０．８〔倍〕に設定し（ステップＳ７０６）、低速読みかつ音素が長音又は促音でなければ（ステップＳ７０５のＮｏ）、ステップＳ７０４で話速に応じて固定倍に設定された音素長が維持される。

このような処理の後、音素番号ｎの更新（ｎ＝ｎ＋１）（ステップＳ７０７）、呼気段落内の音素の終了判定（ステップＳ７０８）、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定（ステップＳ７０９）の後、呼気段落全体の長さを計算し（ステップＳ７１０）、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように、長音又は促音以外の全音素の音素長を比例配分して調整し（ステップＳ７１１）、終了判定が行われる（ステップＳ７１２）。全てのデータの処理が完了するまで、ステップＳ７０３からステップＳ７１２の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ７１３）、音声が出力される。

このように、音素長は話速に応じて固定倍に設定された後、低速読みかつ長音又は促音の場合にはその音素長が設定されている音素長より短縮され、呼気段落内の音素長の全体の長さを計算した後、長音又は促音の短縮分を長音又は促音以外の呼気段落内の全音素に比例配分して伸長させるので、呼気段落の長さが保たれるとともに、聞き取り難さが軽減され、音声に変換された読み上げ文の認識性が改善される。

〔第８の実施の形態〕

次に、第８の実施の形態について、図１５を参照する。図１５は、第８の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この実施の形態では、低速読みでかつ長音又は促音の場合には音素長を短縮し、その他の音素長を短縮しないので、概ね全体の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さが高められている。

そこで、この処理手順では、図１５に示すように、言語処理（ステップＳ８０１）、音素長設定処理（ステップＳ８０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ８０３）、話速に応じた音素長の制御を行う（ステップＳ８０４〜Ｓ８０９）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第８の実施の形態においても、話速に応じた固定倍の音素長の設定（ステップＳ８０４）、低速読みかつ長音又は促音であるか否かの判定（ステップＳ８０５）、話速が低速読みかつ長音又は促音であれば（ステップＳ８０５のＹｅｓ）、その音素長を所定倍として例えば、０．８〔倍〕に設定（ステップＳ８０６）、低速読みかつ長音又は促音でなければ（ステップＳ８０５のＮｏ）、ステップＳ８０４で話速に応じて固定倍に設定された音素長が維持される。

このような処理の後、音素番号ｎの更新（ｎ＝ｎ＋１）（ステップＳ８０７）、呼気段落内の音素の終了判定（ステップＳ８０８）、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定（ステップＳ８０９）、終了判定が行われる（ステップＳ８１０）。全てのデータの処理が完了するまで、ステップＳ８０３からステップＳ８１０の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ８１１）、音声が出力される。

このように、低速読みで長音又は促音の音素長が短縮され、その他の音素が標準の長さとなり、他の音素の音素長に対して長音又は促音の音素長が短縮されるので、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第９の実施の形態〕

次に、第９の実施の形態について、図１６を参照する。図１６は、第９の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図９）を用いて実行されるが、この実施の形態では、低速読みでポーズ又は長音又は促音である場合に、その音素長を伸長しないので、ポーズ又は長音又は促音以外の音素は話速に応じて固定倍とされて伸長され、しかも、呼気段落を単位としてポーズ又は長音又は促音以外の全音素に対し、ポーズ又は長音又は促音の音素長を伸長しない分を比例配分して伸長させている。

そこで、この処理手順では、図１６に示すように、言語処理（ステップＳ９０１）、音素長設定処理（ステップＳ９０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ９０３）、話速に応じた音素長の制御を行う（ステップＳ９０４〜Ｓ９０９）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第９の実施の形態においては、低速読みかつポーズ又は長音又は促音であるか否かが判定され（ステップＳ９０４）、話速が低速読みかつポーズ又は長音又は促音でなければ（ステップＳ９０４のＮｏ）、その音素長を話速に応じて固定倍の設定をし（ステップＳ９０５）、話速が低速読みかつポーズ又は長音又は促音であれば（ステップＳ９０４のＹｅｓ）、ステップＳ９０５を飛び越し、音素番号ｎを更新（ｎ＝ｎ＋１）する（ステップＳ９０６）。呼気段落内の音素の終了判定（ステップＳ９０７）の後、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じて固定倍の設定を行う（ステップＳ９０８）。

また、呼気段落全体の長さを計算し（ステップＳ９０９）、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるようにポーズ又は長音又は促音以外の音素長を比例配分して調整し（ステップＳ９１０）、終了判定が行われる（ステップＳ９１１）。全てのデータの処理が完了するまで、ステップＳ９０３からステップＳ９１１の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ９１２）、音声が出力される。

このように、低速読みでポーズ又は長音又は促音の音素長を伸長しない分だけ他の音素を呼気段落を単位としてポーズ又は長音又は促音以外の各音素に比例配分して伸長させるので、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第１０の実施の形態〕

次に、第１０の実施の形態について、図１７を参照する。図１７は、第１０の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この実施の形態では、低速読みかつ音素が子音である場合、その音素長の伸長をしない処理として、標準話速のままとする処理を行う。

そこで、この処理手順では、図１７に示すように、言語処理（ステップＳ１００１）、音素長設定処理（ステップＳ１００２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）を行う（ステップＳ１００３）。

この第１０の実施の形態においては、低速読みかつ音素が子音であるか否かが判定され（ステップＳ１００４）、話速が低速読みかつ音素が子音でなければ（ステップＳ１００４のＮｏ）、その音素長を話速に応じて固定倍の設定をし（ステップＳ１００５）、話速が低速読みかつ音素が子音であれば（ステップＳ１００４のＹｅｓ）、ステップＳ１００５を飛び越し、音素番号ｎを更新（ｎ＝ｎ＋１）する（ステップＳ１００６）。呼気段落内の音素の終了判定（ステップＳ１００７）の後、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じて固定倍の設定を行い（ステップＳ１００８）、終了判定が行われる（ステップＳ１００９）。全てのデータの処理が完了するまで、ステップＳ１００３からステップＳ１００９の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ１０１０）、音声が出力される。

このように、低速読みの場合に子音については音素長を伸長しない即ち、標準話速のままとすることにより、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第１１の実施の形態〕

次に、第１１の実施の形態について、図１８を参照する。図１８は、第１１の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この実施の形態では、低速読みかつ先頭音素である場合、その音素長の伸長をしない処理として、標準話速のままとする処理を行う。

そこで、この処理手順では、図１８に示すように、言語処理（ステップＳ１１０１）、音素長設定処理（ステップＳ１１０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）を行う（ステップＳ１１０３）。

この第１１の実施の形態においては、低速読みかつ音素が先頭音素（ｎ＝＝１）かが判定され（ステップＳ１１０４）、低速読みかつ音素が先頭音素（ｎ＝＝１）でなければ（ステップＳ１１０４のＮｏ）、その音素長を話速に応じて固定倍とし（ステップＳ１１０５）、低速読みかつ音素が先頭音素（ｎ＝＝１）であれば（ステップＳ１１０４のＹｅｓ）、先頭音素を標準長のままとする。

このような処理の後、音素番号ｎを更新（ｎ＝ｎ＋１）し（ステップＳ１１０６）、呼気段落内の音素の終了判定（ステップＳ１１０７）の後、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じて固定倍の設定を行い（ステップＳ１１０８）、終了判定が行われる（ステップＳ１１０９）。全てのデータの処理が完了するまで、ステップＳ１１０３からステップＳ１１０９の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ１１１０）、音声が出力される。

このように、低速読みの場合に音素が先頭音素でない場合には、音素長を話速に応じて固定倍として伸長させ、先頭音素である場合には、音素長を伸長させないので、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第１２の実施の形態〕

次に、第１２の実施の形態について、図１９を参照する。図１９は、第１２の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図１１）を用いて実行されるが、この実施の形態では、長音又は促音の音素長を短縮等、調整するのに対し、その調整分を文章全体の全音素に比例配分して調整させることにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。この場合、その一例として、話速は標準速度の０．８〔倍〕より遅くし、音素長の短縮比率は０．８〔倍〕に設定している。この場合、第７の実施の形態と同様に、長音又は促音の音素長を短縮等、調整するのに対し、その調整分を長音又は促音以外の全音素の音素長に比例配分して調整する構成としてもよい。

そこで、この処理手順では、図１９に示すように、言語処理（ステップＳ１２０１）、音素長設定処理（ステップＳ１２０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ１２０３）、話速に応じた音素長の制御を行う（ステップＳ１２０４〜Ｓ１２０９）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第１２の実施の形態においても、話速に応じた固定倍の音素長の設定（ステップＳ１２０４）、低速読みかつ長音又は促音であるか否かの判定（ステップＳ１２０５）、話速が低速読みかつ長音又は促音であれば（ステップＳ１２０５のＹｅｓ）、その音素長を所定倍として例えば、０．８〔倍〕に設定し（ステップＳ１２０６）、低速読みかつ音素が長音又は促音でなければ（ステップＳ１２０５のＮｏ）、ステップＳ１２０４で話速に応じて固定倍に設定された音素長が維持される。

このような処理の後、音素番号ｎの更新（ｎ＝ｎ＋１）（ステップＳ１２０７）、呼気段落内の音素の終了判定（ステップＳ１２０８）、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定（ステップＳ１２０９）の後、終了判定が行われる（ステップＳ１２１０）。この終了判定では、全データの処理を終了したか否かを判定し、終了判定の後、文章全体の長さを計算し（ステップＳ１２１１）、文章の長さが所定の長さ例えば、音素長を短縮しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し（ステップＳ１２１２）、音声合成が実行され（ステップＳ１２１３）、音声が出力される。

このように、低速読みで長音又は促音の音素長の調整として、長音又は促音の音素長を短縮した代わりに、この実施の形態では、文章全体を単位として音素が長めに設定され、読み上げ文の全体の長さを保ちつつ、間延び感がなく、聞き取り易さが改善される。

〔第１３の実施の形態〕

次に、第１３の実施の形態について、図２０を参照する。図２０は、第１３の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図１１）を用いて実行されるが、この実施の形態では、低速読みでポーズ又は長音又は促音である場合に、その音素長の調整として例えば、その音素長を伸長しないので、ポーズ又は長音又は促音以外の音素は話速に応じて固定倍とされて伸長され、しかも、文章全体を単位として全音素に対し、ポーズ又は長音又は促音の音素長を調整しない分即ち、伸長しない分を比例配分して調整している。この場合、第９の実施の形態と同様に、ポーズ又は長音又は促音の音素長を短縮等、調整するのに対し、その調整分をポーズ又は長音又は促音以外の全音素の音素長に比例配分して調整する構成としてもよい。

そこで、この処理手順では図２０に示すように、言語処理（ステップＳ１３０１）、音素長設定処理（ステップＳ１３０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ１３０３）、話速に応じた音素長の制御を行う（ステップＳ１３０４〜Ｓ１３０８）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第１３の実施の形態においては、低速読みかつポーズ又は長音又は促音であるか否かが判定され（ステップＳ１３０４）、話速が低速読みかつポーズ又は長音又は促音でなければ（ステップＳ１３０４のＮｏ）、その音素長を話速に応じて固定倍の設定をし（ステップＳ１３０５）、話速が低速読みかつポーズ又は長音又は促音であれば（ステップＳ１３０４のＹｅｓ）、ステップＳ１３０５を飛び越し、音素番号ｎを更新（ｎ＝ｎ＋１）する（ステップＳ１３０６）。呼気段落内の音素の終了判定（ステップＳ１３０７）の後、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じて固定倍の設定を行い（ステップＳ１３０８）、終了判定が行われる（ステップＳ１３０９）。この終了判定では、全データの処理を終了したか否かを判定し、終了判定の後、文章全体の長さを計算し（ステップＳ１３１０）、文章の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し（ステップＳ１３１１）、音声合成が実行され（ステップＳ１３１２）、音声が出力される。

このように、低速読みでポーズ又は長音又は促音の音素長を伸長しない代わりに、この実施の形態では、文章全体を単位として音素が長めに設定され、読み上げ文の全体の長さを保ちつつ、間延び感がなく、聞き取り易さが改善される。

〔他の実施の形態〕

以上のように、各実施の形態について述べたが、本発明は、以下に示す他の実施の形態も包含するものである。

(1) 音素長制御部１８に入力する話速情報について、図２１を参照する。図２１は、話速調整部を備えるパラメータ生成部を示すブロック図である。上記実施の形態では、音素長制御部１８に話速情報を入力しているが、図２１に示すように、外部から話速を調整可能な話速調整部２２をパラメータ生成部８に設置し、外部から任意の話速設定を可能な構成としてもよい。

(2) 第１の実施の形態では、低速読みでない場合に呼気段落の終端のポーズ長を話速に応じて固定倍としたが、図２２に示すように、低速読みか否かの判定（ステップＳ１０７）の後、低速読みであれば（ステップＳ１０７のＹｅｓ）、終端のポーズ長を話速に応じて固定倍として伸長させ（ステップＳ１０８）、低速読みでなければ（ステップＳ１０７のＮｏ）、そのポーズ長を変化させない構成としてもよい。即ち、高速読みの場合は、ポーズ長を短縮させないこととなり、聞き取り易さを高めることができる。

(3) 図２３に示すフローチャートは、第２の実施の形態（図７）、第３の実施の形態（図８）、第９の実施の形態（図１６）、第１０の実施の形態（図１７）、第１１の実施の形態（図１８）、第１３の実施の形態（図２０）のフローチャートの変形例である。図２３において、ステップＳ２００１は、ステップＳ２０４、Ｓ３０４、Ｓ９０４、Ｓ１００４、Ｓ１１０４、Ｓ１３０４に対応する。上記実施の形態において、音素長を話速に応じて固定倍（ステップＳ２００２）とする音素長の伸長に対し、ステップＳ２００３を設定し、音素長を短縮する処理として標準音素長の例えば、０．８〔倍〕とする処理手順としてもよい。

(4) 呼気段落長を単位とする処理に関し、第４の実施の形態（図１０）ではポーズ以外の全音素に音素長の調整分を比例配分し（ステップＳ４１０）、第７の実施の形態（図１４）では低速読みでかつ長音又は促音の音素長の短縮分を長音又は促音以外の全音素に比例配分し（ステップＳ７１１）、第９の実施の形態（図１６）では低速読みでかつポーズ又は長音又は促音の音素長の短縮分をポーズ又は長音又は促音以外の全音素に比例配分し（ステップＳ９１０）、呼気段落を単位として音素長の比例配分処理を行っているが、このような処理は、ポーズ、長音又は促音の調整分以外の音素、例えば、子音についての調整分を全音素に比例配分する構成としてもよい。

(5) 文章全体長を単位とする処理に関し、第５の実施の形態（図１２）、第１２の実施の形態（図１９）、第１３の実施の形態（図２０）では所定の長さになるように全音素に比例配分し、文章全体を単位として音素長の比例配分処理を行っているが、このような処理は、ポーズ、長音又は促音の調整分以外の音素、例えば、子音についての調整分を全音素に比例配分する構成としてもよい。この場合、呼気段落を単位とする処理と同様に、文章全体長を単位とする処理に関し、ポーズ、長音、促音又は子音等の音素長を調整した場合、文章全体の音素長の調整からその調整分を除いて他の音素について比例配分する構成としてもよい。

(6) 第１の実施の形態に携帯端末装置２００（図３、図４）を例示したが、本発明は、携帯情報端末機（ＰＤＡ：Personal Digital Assistant）や、パーソナルコンピュータ等、コンピュータを搭載して音声を出力する電子機器や、電子機器ユニットを搭載する各種機器に適用できるものであり、本発明は、上記実施の形態に限定されるものではない。

〔実施例１〕

実施例１について、図２４及び図２５を参照する。図２４は、図６のフローチャートに対応する比較例であるフローチャート、図２５は、言語処理結果を示す図である。

この音声読み上げ装置２（図１）では、話速に応じて各音素の音素長を同様に伸長する場合には、図２４に示すフローチャートの処理となり、ポーズ後の話頭の音素長を調整しない場合の処理を示している。即ち、図２４のフローチャートは、図６のフローチャートからステップＳ１０７の処理手順がない場合と同一であって、言語処理（ステップＳ１４０１）、音素長設定処理（ステップＳ１４０２）、音素番号の初期化（ステップＳ１４０３）、音素長の固定倍処理（ステップＳ１４０４）、音素番号の更新（ステップＳ１４０５）、呼気段落内の音素終了判定（ステップＳ１４０６）、終端ポーズ長の固定倍処理（ステップＳ１４０７）、終了判定（ステップＳ１４０８）及び音声合成（ステップＳ１４０９）の処理から明らかなように、音素長の話速に応じた固定倍処理、終端のポーズ長の話速に応じた固定倍処理を実行している。

このような処理において、入力テキストの文例が例えば、
「山梨県の高校を卒業して、信用金庫に入って４年目です。」（図５）
であるとすれば、その単語解析結果は図２５に示すように、入力テキスト、品詞、表音文字列で表すことができる。

この文例の「山梨県の高校を卒業して、信用金庫に入って４年目です。」において、「山梨」は名詞であり、その表音文字列は「ヤマナシ’」となり、「県」は名詞であり、その表音文字列は「ケン」となり、「の」は助詞であり、その表音文字列は「ノ」となり、この「の」の後部分はアクセント句境界で空白となり、「高校」は名詞であり、その表音文字列は「コーコー」となり、「を」は助詞であり、その表音文字列は「オ」となり、その後の部分はアクセント句境界で空白となり、「卒業し」は動詞（連用形）であり、その表音文字列は「ソツギョーシ」となり、「て」は助詞であり、その表音文字列は「テ」となり、「、」は呼気段落境界（ポーズ長は中）であり、その表音文字列は「、」となり、「信用」は名詞であり、その表音文字列は「シンヨー」となり、「金庫」は名詞であり、その表音文字列は「キ’ンコ」となり、「に」は助詞であり、その表音文字列は「ニ」となり、その後の部分はアクセント句境界で空白となり、「入っ」は動詞（連用形、促音便）であり、その表音文字列は「ハ＊イッ」となり、「て」は助詞であり、その表音文字列は「テ」となり、その後の部分は呼気段落境界（ポーズ長は小）となり、その表音文字列は「・」となり、「４」は数詞であり、その表音文字列は「ヨ」となり、「年」は助数詞であり、その表音文字列は「ネン」となり、「目」は助数詞の後置詞であり、その表音文字列は「メ’」となり、「です」は助動詞であり、その表音文字列は「デス」となり、「。」は呼気段落境界（ポーズ長は大）であり、その表音文字列は「。」となる。従って、上記文例の表音文字列は、
「ヤマナシ’ケンノコーコーオソツギョーシテ、シンヨーキ’ンコニハ＊イッテ・ヨネンメ’デス。」
となる。

〔実施例２〕

実施例２はポーズ長を伸長しない（第１の実施の形態）の実施例である。この実施例２の処理結果を示す波形について、図２６及び図２７を参照する。図２６は、比較例である音声合成波形を示す図、図２７は、実施例２に係る音声合成波形を示す図である。図２６において、Ａは、標準速度の場合の波形であり、Ｂは、低速読み上げの場合の波形である。図２６のＡにおいてａ、Ｂにおいてｂは、ポーズ区間である。

これに対し、図２７において、Ａは、第１の実施の形態（図６のフローチャート）の処理の標準速度の場合の波形、Ｂは、低速読み上げに対応し、ｃのポーズ区間は、図２７のＡの標準速度と同様に、ポーズ長を伸長しない。

〔実施例３〕

実施例３は子音の音素長を伸長しない又は短縮する場合（第１０の実施の形態）と、話頭の音素長を伸長しない又は短縮する場合（第１１の実施の形態）との実施例である。この実施例３の処理結果を示す波形について、図２８及び図２９を参照する。図２８は、比較例である音声合成波形を示す図、図２９は、実施例３に係る音声合成波形を示す図である。図２８において、Ａは、標準速度の場合の波形であり、Ｂは、低速読み上げの場合の波形である。図２８のＢにおいて、ｄは、この場合、話頭で子音の音素長が１２５〔ｍｓｅｃ〕であり、話速比例通りである。

これに対し、図２９において、Ａは、第９、１０の実施の形態（図１６、図１７のフローチャート）の処理の標準速度の場合の波形、Ｂは、低速読み上げに対応し、ｅの話頭で子音の音素長は、話速比例よりも短くなっている。

〔実施例４〕

実施例４は子音の音素長を伸長しない又は短縮する場合（第１０の実施の形態）と、話頭の音素長を伸長しない又は短縮する場合（第１１の実施の形態）との実施例である。この実施例４の処理結果を示す波形について、図３０及び図３１を参照する。図３０は、比較例である音声合成波形を示す図、図３１は、実施例４に係る音声合成波形を示す図である。実施例１、２、３が日本語であるのに対し、実施例４は英語文「ｈａ─ｐｐｙ，ｓｈｏ─ｃｋ，ｓｈｏｏ─ｔ」を読み上げた場合である。図３０において、Ａは、標準速度の場合の波形であり、Ｂは、低速読み上げの場合の波形である。図３０のＢにおいて、ｆは、この場合、話頭で子音の音素長が１０６〔ｍｓｅｃ〕、ｇは、同様に、話頭で子音の音素長が１２２〔ｍｓｅｃ〕であり、話速比例通りである。

これに対し、図３１において、Ａは、第９、１０の実施の形態（図１６、図１７のフローチャート）の処理の標準速度の場合の波形、Ｂは、低速読み上げに対応し、ｈは、話頭で子音の音素長が８６〔ｍｓｅｃ〕、ｉは、同様に、話頭で子音の音素長が９７〔ｍｓｅｃ〕となっており、話速比例よりも伸長しない即ち、短縮している。

〔実施例５〕

実施例５はポーズ長を伸長しない場合（第１の実施の形態）であって、英語文「ｈａｐｐｙｓｈｏｃｋｓｈｏｏｔ」を読み上げた場合である。この実施例５の処理結果を示す波形について、図３２を参照する。図３２において、Ａは、標準速度の場合の波形、Ｂは、低速読み上げに対応し、Ｂは、低速読みのため、Ａと比べて伸長した波形になっているが、ｌ、ｍのポーズ区間だけは、ｊ、ｋのポーズ区間と同様に、同じ長さとし、伸長しない場合を示している。

次に、以上述べた本発明の実施の形態から抽出される技術的思想を請求項の記載形式に準じて付記として列挙する。本発明に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本発明が限定されるものではない。

（付記１）文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データからポーズ又は音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じて音素長を設定し、ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記音素判定部の判定結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。

（付記２）文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素を判定する音素判定部と、
音素に読み上げ速度に応じて音素長を設定し、前記音素が話頭である場合に、前記音素判定部の判定結果に基づき、前記話頭の音素の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。

（付記３）付記１の音声読み上げ装置において、
音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させることを特徴とする音声読み上げ装置。

（付記４）付記１又は２の音声読み上げ装置において、
呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。

（付記５）付記１又は２の音声読み上げ装置において、
読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。

（付記６）文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素の種類を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。

（付記７）文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
前記音素が話頭である場合に、その判定結果に基づき、前記話頭の音素の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。

（付記８）付記６の音声読み上げプログラムにおいて、
音素の読み上げ速度を判定する手順と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させる手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。

（付記９）付記６又は７の音声読み上げプログラムにおいて、
呼気段落の長さを演算する手順と、
前記音素長の調整分を前記呼気段落の長さの演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。

（付記１０）付記６又は７の音声読み上げ装置において、
読み上げ文章の長さを演算する手順と、
前記音素長の調整分を前記読み上げ文章の長さの演算結果に基づき、前記文章の各音素長を比例配分して増減させる手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。

（付記１１）文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素の種類を判定する段階と、
音素に読み上げ速度に応じた音素長を設定する段階と、
ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する段階と、
を含むことを特徴とする音声読み上げ方法。

（付記１２）文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素を判定する段階と、
音素に読み上げ速度に応じた音素長を設定する段階と、
前記音素が話頭である場合に、その判定結果に基づき、前記話頭の音素の音素長を調整する段階と、
を含むことを特徴とする音声読み上げ方法。

（付記１３）付記１１の音声読み上げ方法において、
音素の読み上げ速度を判定する段階と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させる段階と、
を含むことを特徴とする音声読み上げ方法。

（付記１４）付記１１又は１２の音声読み上げ方法において、
呼気段落の長さを演算する段階と、
前記音素長の調整分を前記呼気段落の長さの演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる段階と、
を含むことを特徴とする音声読み上げ方法。

（付記１５）付記１１又は１２の音声読み上げ方法において、
読み上げ文章の長さを演算する段階と、
前記音素長の調整分を前記読み上げ文章の長さの演算結果に基づき、前記文章の各音素長を比例配分して増減させる段階と、
を含むことを特徴とする音声読み上げ方法。

以上説明したように、本発明の最も好ましい実施の形態等について説明したが、本発明は、上記記載に限定されるものではなく、特許請求の範囲に記載され、又は明細書に開示された発明の要旨に基づき、当業者において様々な変形や変更が可能であることは勿論であり、斯かる変形や変更が、本発明の範囲に含まれることは言うまでもない。

本発明は、文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、文字データからポーズ、長音、促音又は子音の存在を認識し、これらの音素長やポーズ長を制御し、読み上げ速度を低速化しても、合成音声の聞き取り易さを高め、認識性の向上が図られるので、音声合成等の処理に有用である。

第１の実施の形態に係る音声読み上げ装置の構成例を示すブロック図である。音声読み上げ装置の音素長制御部の構成例を示すブロック図である。音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図である。携帯端末装置の構成例を示す図である。画面表示例を示す図である。第１の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第２の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第３の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第４の実施の形態に係る音素長制御部を示すブロック図である。第４の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第５の実施の形態に係る音素長制御部を示すブロック図である。第５の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第６の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第７の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第８の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第９の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第１０の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第１１の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第１２の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第１３の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。話速調整部を備えるパラメータ生成部を示すブロック図である。他の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。他の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。音素長制御の処理手順の一例を示すフローチャートである。言語処理結果を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。

符号の説明

２音声読み上げ装置
２４音素長調整部
２６話速判定部
２８音素判定部
３０呼気段落長演算部
３２文章全体長演算部
３４区切り変更部
２００携帯端末装置

Claims

文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データからポーズ又は音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じて音素長を設定し、ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記音素判定部の判定結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素を判定する音素判定部と、
音素に読み上げ速度に応じて音素長を設定し、前記音素が話頭である場合に、前記音素判定部の判定結果に基づき、前記話頭の音素の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
請求項１の音声読み上げ装置において、
音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が低速の場合に、前記ポーズ、前記長音、前記促音又は前記子音の音素長を伸長させないか又はその音素長を短縮させることを特徴とする音声読み上げ装置。
請求項１又は２の音声読み上げ装置において、
呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
請求項１又は２の音声読み上げ装置において、
読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素の種類を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素の種類を判定する段階と、
音素に読み上げ速度に応じた音素長を設定する段階と、
ポーズ、長音、促音又は子音の何れか又は２以上を含む場合に、前記判定の結果に基づき、前記ポーズ、前記長音、前記促音又は前記子音の音素長を調整する段階と、
を含むことを特徴とする音声読み上げ方法。