JP2009003395A

JP2009003395A - 音声読み上げのための装置、プログラム及び方法

Info

Publication number: JP2009003395A
Application number: JP2007167019A
Authority: JP
Inventors: Rika Nishiike; 理香西池; Hitoshi Sasaki; 均佐々木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-06-25
Filing date: 2007-06-25
Publication date: 2009-01-08
Anticipated expiration: 2027-06-25
Also published as: EP2009620A1; US20080319754A1; JP5029168B2; EP2009620B1; KR20080114565A; KR101019851B1; CN101334995B; CN101334995A

Abstract

【課題】文字データの音声読み上げに関し、摩擦音又はその他の音素の音素長の調整により高速読み上げの認識性を高めることにある。
【解決手段】摩擦音又はその他の音素を含む文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、摩擦音又はその他の音素を含む文字データから前記摩擦音の存在を認識し、摩擦音又はその他の音素が持つ音素長を制御する。摩擦音は、「ｆ」、「ｖ」、「ｓ」、「ｚ」等の子音である。この摩擦音又はその他の音素の音素長の制御は例えば、読み上げ速度に応じて実行し、読み上げ速度が高速の場合には摩擦音の音素長を伸長させる。斯かる構成により、聴感上、読み上げられる音声の聞き取り易さが向上し、音声読み上げの認識性を高めている。
【選択図】図１

Description

本発明は、文書等の表音文字を含む文字データを音声に変換して出力する音声読み上げのための装置、プログラム及び方法に関し、音素長を読み上げ速度に応じて制御し、特に、高速読み上げにおいて、特定の音素等を選択して伸長又は短縮することを可能にする音声読み上げのための装置、プログラム及び方法に関する。

表音文字を含む文字データを解析し、その文字データから音声合成法により音声合成を行い、文字データを音声として出力する所謂音声読み上げの技術が知られている。携帯電話機等の携帯端末装置にあっては、メール等の自由文章を読み上げる音声合成機能が普及し始めている。また、パーソナルコンピュータ（ＰＣ）にあっては、スクリーンリーダと呼ばれるソフトウェアが普及し始めている。文章の内容を音声により理解する場合には、聴覚に作用する母音、摩擦音、ポーズ等を表す音素の長さが認識性を高める上で重要なファクターとなる。

このような音声読み上げに関し、特許文献１には、発話速度情報が予め定められた値未満のときは、発話速度をその情報に基づいて標準より速くするため、モーラ長を最小限に設定し、発話速度情報に応じた短いフレーム周期を設定し、発話速度情報が予め定められた値以上のときは、発話速度をその情報に基づいて標準より遅くするため、発話速度情報に応じた長いモーラ長を設定し、フレーム周期を最大値に設定する音声合成が開示されている。
特開平６−１４９２８３号公報（要約及び図１等）

ところで、読み上げ速度（話速）を設定可能にした場合、話速に反比例して各音素長が設定されるものとする。例えば、話速を２倍の速さとすれば、その音素長は１／２となり、話速を１／２に遅くすれば、音素長は２倍となる。このように話速と音素長との関係を単純な関係に設定し、即ち、話速と音素長とを単純に反比例とすれば、通常の話速では自然な場合（聴き取り易い場合）であっても、高速読みや低速読みの場合には、聞き取り難く、違和感があり、認識性を低下させる場合がある。

斯かる要求や課題について、特許文献１にはその開示や示唆はなく、それを解決する構成等についての開示や示唆はない。

そこで、本発明の目的は、文字データの音声読み上げに関し、摩擦音の音素長又はその他の音素の音素長の調整により高速読み上げの認識性を高めることにある。

斯かる目的は、ポーズを含む文字データの摩擦音又はその他の音素に対する認識性が読み上げ速度に応じて影響を受けるとの知見に基づくものである。

斯かる目的を具体的に述べれば、文字データの音声読み上げに関し、摩擦音の音素長又は、その他の音素長の伸長等により、高速読み上げ音声の聞き取り易さを向上させることにある。

上記目的を達成するため、本発明は、摩擦音又はその他の音素を含む文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、摩擦音を含む文字データから摩擦音又はその他の音素の存在を認識し、摩擦音又はその他のの音素が持つ音素長を制御する。摩擦音は、「ｆ」、「ｖ」、「ｓ」、「ｚ」等の子音である。この摩擦音の音素長の制御は例えば、読み上げ速度に応じて実行し、読み上げ速度が高速の場合には摩擦音又はその他の音素の音素長を伸長させる。斯かる構成により、聴感上、読み上げられる音声の聞き取り易さが向上し、音声読み上げの認識性を高めている。

そこで、上記目的を達成するため、本発明の第１の側面は、文字データを音声に変換して読み上げる音声読み上げ装置であって、前記文字データから音素の種類を判定する音素判定部と、音素に読み上げ速度に応じた音素長を設定し、音素が摩擦音である場合に前記音素判定部の判定結果に基づき、前記摩擦音の音素長を調整する音素長調整部とを備える構成である。

斯かる構成によれば、文字データ、表音文字列から音素の種類を判別し、読み上げ速度に応じた音素長を設定するとともに、摩擦音の音素長を調整するので、読み上げ速度が高速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。

上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、音素長の調整分を呼気段落を単位に他の音素長の調整で増減して補完するので、読み上げ時間の間延びを防止できる。

上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、音素長の調整分を文章を単位に他の音素長の調整で増減して補完するので、読み上げ時間の間延びや再生時間の延びを防止できる。

上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮する構成としてもよい。斯かる構成によれば、ポーズが存在するための間延び感を抑制でき、再生時間が延びることを防止できる。

上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する構成としてもよい。斯かる構成によれば、ポーズの削除により、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。

上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する構成としてもよい。斯かる構成によれば、音素長の伸長に対応してポーズ長を含む他の音素長を短縮するので、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。

上記目的を達成するため、本発明の第２の側面は、文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、前記文字データから音素の種類を判定する手順と、音素に読み上げ速度に応じた音素長を設定する手順と、音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する手順とを前記コンピュータに実行させる構成である。斯かる構成によれば、第１の側面で述べた通り、上記目的を達成することができる。

上記目的を達成するため、本発明の第３の側面は、文字データを音声に変換して読み上げる音声読み上げ方法であって、前記文字データから音素の種類を判定する工程と、音素に読み上げ速度に応じた音素長を設定する工程と、音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する工程とを備える構成である。斯かる構成によれば、第１の側面で述べた通り、上記目的を達成することができる。

本発明によれば、次のような効果が得られる。

(1) 文字データを音声に変換して読み上げる音素について、摩擦音の音素長を伸長させるので、聞き取り易くでき、認識性を高めることができる。

(2) 摩擦音の音素長を伸長すれば、一定比率で音素長を削減する場合に比較して聞き取り易くできる。

(3) 特定の音素を伸長した場合、その音素長の伸長に対し、その伸長分に応じて他の音素の音素長を短縮すれば、読み上げ速度を高速化しても、聞き取り易さを損なうことなく、再生時間を短縮できる。

(4) 特定の音素を伸長した場合、その音素長の伸長に対し、その伸長分に応じて一部又は全部のポーズ長の短縮し、又は削除すれば、読み上げ速度を高速化しても、聞き取り易さを損なうことなく、再生時間を短縮できる。

そして、本発明の他の目的、特徴及び利点は、添付図面及び各実施の形態を参照することにより、一層明確になるであろう。

〔第１の実施の形態〕

本発明の第１の実施の形態について、図１及び図２を参照する。図１は、音声読み上げ装置の構成例を示すブロック図、図２は、音声読み上げ装置の音素長制御部の構成例を示すブロック図である。

この音声読み上げ装置２は、本発明の音声読み上げのための装置、プログラム及び方法の構成例であって、コンピュータで構成され、例えば、テキスト文章（日本語では漢字かな混じり文）等、摩擦音やポーズを含む文字データを音声に変換して読み上げる音声合成装置で構成され、文字データ中の摩擦音の音素長を話速（読み上げ速度）に応じて制御することにより、文字データから得た出力音声の聞き易さを高め、合成音声（読み上げ出力）の認識性を向上させたものである。ここで、文字データは音声読み上げの対象であって、摩擦音やポーズを含む表音文字、その文字列を含むデータであり、表音文字又はその表音文字列は、音声合成で使用する韻律記号付き発音記号からなる中間言語であって、韻律記号付きの発音記号（読み仮名）である。摩擦音は、口腔内の発音器官が狭めを作り、息がそこを通過する際に発せられる子音であり、この子音には「ｆ」、「ｖ」、「ｓ」、「ｚ」等がある。ポーズは、音声に変換されない区間等の無音区間である（但し、破裂音の直前の休止期間や促音は除かれる）。例えば、「卒業して、信用金庫に・・・」（ローマ字表記：ｓｏｔｓｕｇｙｏｕｓｈｉｔｅ、ｓｈｉｎｙｏｕｋｉｎｋｏｎｉ・・・）といった日本語文章では、「卒業して」と、「信用金庫」との間に、無音区間となる句点「、」が存在し、これがポーズの一例である。また、このポーズと呼気段落との関係について、呼気段落は人間が一息に発声する単位であり、この呼気段落の前後の息継ぎには既述のポーズが入ることになる。

斯かる機能を実現するため、この音声読み上げ装置２では、図１に示すように、言語処理部４と、単語辞書６と、パラメータ生成部８と、ピッチ切出し・重合せ部１０と、波形辞書１２とが備えられている。

言語処理部４は、漢字かな混じり文を入力して、単語辞書６を参照して単語を解析し、読み、アクセント、イントネーションを決定し、表音文字列（中間言語）を出力する言語処理手段である。また、単語辞書６には、単語の種類（品詞等）と読みや、アクセントの位置等が格納されている。

アクセントと、イントネーションとは、物理的にはピッチ周波数の時間的変化パターンと密接に関係している。具体的には、アクセント位置でピッチ周波数は高くなり、イントネーションが上がると、ピッチ周波数が高くなる。そこで、言語処理部４では、入力テキストでの句読点や、単語解析によって抽出された文節に基づいて、既述の呼気段落に分割する。

パラメータ生成部８は、音素継続時間、ポーズ継続時間やピッチ周波数パターンの設定を行うパラメータ生成手段である。このパラメータ生成部８では、話速に応じて音素長の制御を行っている。

このパラメータ生成部８には、音素長設定部１４と、音素長テーブル１６と、音素長制御部１８と、ピッチパターン生成部２０とが備えられている。

言語処理部４で生成された表音文字列の段階において、どの音素を音声合成するかが決定される。音素長設定部１４では、各音素についての音素長設定手段であって、標準的な話速における音素長が設定される。音素長テーブル１６は、当該音素と前後の音素に応じた標準的な話速における音素長を格納する手段である。そこで、音素長の設定例としては、当該音素と前後の音素に応じた標準的な話速における音素長（データベースから抽出した値）を音素長テーブル１６に格納しておき、この値を参照して音素長が設定される。この音素長は、他のパラメータ要素を以て修正する構成としてもよい。

音素長制御部１８は、音素長設定部１４で設定された標準的な話速での音素長を話速に応じて制御する音素長制御手段である。話速は、図示しない読み上げ速度（ユーザ設定等）の調整手段等から制御情報として音素長制御部１８に加えられる。

音素長制御部１８には、図２に示すように、音素長調整部２４と、話速判定部２６と、音素判定部２８とが含まれる。音素長調整部２４は、話速判定部２６及び音素判定部２８の各判定出力を受け、音素の長さやポーズの長さを調整する。話速判定部２６は、入力された話速を判定し、その話速が標準速度、高速又は低速の何れであるかを判定し、その判定出力を音素長調整部２４に加える。この場合、話速判定部２６の出力する判定出力には、標準速度、高速又は低速を表す出力、その話速レベルを表す出力が含まれる。また、音素判定部２８は、音素長設定部１４（図１）で設定された音素長を持つ音素やポーズ等を判定し、その判定出力を音素長調整部２４に加える。

そこで、このような音素長制御部１８によれば、例えば、標準的な話速に対する所定の話速に反比例した音素長とし、具体的な数値を例示すれば、標準的な話速を毎秒７モーラを目安とした場合、毎秒１４モーラの話速が設定されていれば、各音素長を半分にし、毎秒６モーラの話速が設定されていれば、７／６の音素長とする。ここで、モーラとは、拍を表し、概ね仮名書きしたときの一文字相当の単位であって、拗音（小さい「ゃ」「ゅ」「ょ」）「きゃ」等は１モーラである。日本語の場合、一文字のモーラが類似の長さを持つ言語である。拗音は、日本語のア〔ａ〕、ウ〔ｕ〕、オ〔ｏ〕の母音の前に半母音〔ｊ〕を伴った子音が添っている音節や、「か」、「が」、「け」、「げ」の子音と母音との間に〔ｗ〕の音の挿入された音節である。

ピッチパターン生成部２０は、表音文字列でのアクセント情報等を加味して、各音素でのピッチ周期を設定するパターン生成手段である。

ピッチ切出し・重合せ部１０は例えば、ＰＳＯＬＡ法（Pitch-Synchronous Overlap- add：波形の加算重畳によるピッチ変換方法）を使用するピッチ切出し・重合せ手段である。また、波形辞書１２には、音声波形と、どの部分がどの音素かを示す音素ラベル、有声音についてピッチ周期を示すピッチマークが格納されている。そこで、ピッチ切出し・重合せ部１０では、パラメータ生成部８で生成されたパラメータを元に波形辞書１２から２周期分の音声波形を切り出し、窓関数（例えばハニング窓）を掛け、必要に応じて振幅調整のゲインを掛ける処理を実行し、波形辞書１２でのピッチ周波数と所望のピッチ周波数が違えばピッチ変換し、切り出された波形をオーバーラップさせて加算することにより、合成音声信号が出力される。

この音声読み上げ装置のハードウェアについて、図３、図４及び図５を参照する。図３は、音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図、図４は、携帯端末装置の構成例を示す図、図５は、画面表示例を示す図である。

この携帯端末装置２００は、既述の音声読み上げ装置２が適用された一例であって、斯かる構成に本発明の音声読み上げのための装置、方法又はプログラムが限定されるものではない。この携帯端末装置２００では、通信機能や、メール文等のテキスト文章（日本語では漢字かな混じり文）等、摩擦音やポーズを含む文字データを音声に変換して出力する機能を有する。そこで、この携帯端末装置２００には、図３に示すように、プロセッサ２０２と、記憶部２０４と、無線部２０６と、入力部２０８と、表示部２１０と、音声入力部２１２と、音声出力部２１４とが備えられている。

プロセッサ２０２は、電話通信や、音声合成等の音声読み上げの実行、その他の制御を行う制御手段であって、ＣＰＵ（Central Processing Unit ）又はＭＰＵ（Micro Processor Unit）で構成され、記憶部２０４にあるＯＳ（Operating System）やアプリケーションプログラムを実行する。このアプリケーションプログラムには、音声読み上げの処理手順を実行するプログラム等が含まれる。

記憶部２０４は、プロセッサ２０２で実行されるプログラムや、その実行に用いる各種データを格納するとともに、処理エリアを形成する記録媒体であって、プログラム記憶部２１６、データ記憶部２１８、ＲＡＭ（Random-Access Memory）２２０で構成されている。プログラム記憶部２１６にはＯＳやアプリケーションプログラムが格納され、データ記憶部２１８には単語辞書６、波形辞書１２及び音素長テーブル１６（図１）が形成され、既述のデータが格納されている。ＲＡＭ２２０は、ワークエリアを構成する。

無線部２０６は基地局と無線によって音声信号電波やパケット信号電波等の送受信を行うための無線通信手段であって、プロセッサ２０２によって制御される。

入力部２０８はユーザの操作により制御データや表示部２１０に展開されるダイアログに対する応答を入力するための手段であって、キーボードやタッチパネル等で構成される。

表示部２１０はプロセッサ２０２によって制御され、文字や図形等を表示する表示手段であって、例えば、ＬＣＤ（Liquid Crystal Display）素子で構成される。この表示部２１０には音声読み上げのテキスト文章等が表示される。

音声入力部２１２はプロセッサ２０２で制御される音声入力手段であって、マイクロフォン２２２を備える。入力音声はマイクロフォン２２２で音声信号に変換され、その音声信号がディジタル信号に変換されてプロセッサ２０２に取り込まれる。

音声出力部２１４はプロセッサ２０２で制御される音声出力手段であって、音声変換手段としてレシーバ２２４と、スピーカ２２６Ｒ、２２６Ｌとを備えている。音声読み上げの合成音声は、これらレシーバ２２４、スピーカ２２６Ｒ、２２６Ｌから再生される。

この携帯端末装置２００において、既述の音声読み上げ装置２は例えば、プロセッサ２０２、記憶部２０４、表示部２１０、音声出力部２１４等で構成される。

そして、この携帯端末装置２００は、図４に示すように、一例として筐体２２８に第１の筐体部２３０と、第２の筐体部２３２とが含まれ、これら筐体部２３０、２３２はヒンジ部２３４で連結して折畳み可能に構成され、筐体部２３０には入力部２０８、マイクロフォン２２２が配置され、筐体部２３２には表示部２１０、レシーバ２２４、スピーカ２２６Ｒ、２２６Ｌが設置されている。入力部２０８には文字等の入力に用いる複数の記号キー２３６、カーソルキー２３８、決定キー２４０等が配置されている。

そこで、この携帯端末装置２００による音声読み上げでは、メール文や小説文等の各種のテキスト文が対象となり、表示部２１０の画面上に展開される文章等が音声合成されてレシーバ２２４やスピーカ２２６Ｒ、２２６Ｌから再生される。その場合、図５に示すように、表示部２１０に展開されたメール文表示画面２４２にはメール文が表示され、このメール文が音声として出力される。この例では、メール文表示画面２４２に「山梨県の高校を卒業して、信用金庫に入って４年目です。」と表示されており、これが音声として再生される。

次に、音素長の制御について、図６を参照する。図６は、第１の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順には、音声読み上げのためのプログラム又は方法の一例であって、高速読み上げの際に摩擦音であればその音素を伸長させる手順、段階又は工程が含まれている。この処理手順は、音声読み上げ装置２（図１）の音素長制御部１８（図２）で実行される。この実施の形態では、摩擦音は、話速に応じての修正後、音素長を他の音素長の例えば、１．５〔倍〕にすることで、聞き取り易さを高めている。

そこで、この処理手順は、図６に示すように、言語処理（ステップＳ１０１）、音素長設定処理（ステップＳ１０２）を実行する。言語処理（ステップＳ１０１）は、言語処理部４において実行され、入力データから表音文字列を生成し、この段階でどの音素を音声合成するかが決定される。次に、音素長設定処理（ステップＳ１０２）は、音素長設定部１４において実行され、各音素について、標準的な話速における音素長が設定される。この場合、音素長は、当該音素と前後の音素に応じた標準的な話速における音素長が音素長テーブル１６を参照して設定される。

このような音素長の設定処理の後、呼気段落内の音素についての処理として、音素番号ｎを初期化（ｎ＝１）し（ステップＳ１０３）、話速に応じた音素長の制御を行う（ステップＳ１０４〜Ｓ１１０）。この音素長の制御は呼気段落を単位として実行され、ステップＳ１０５〜Ｓ１０９が呼気段落の音素処理のループである。この音素長の制御には、制御対象である音素の判定処理、その判定結果に対応した音素長の調整処理が含まれる。

音素長制御部１８では、入力された話速情報が認識され、その話速に応じて固定倍の音素長が設定され（ステップＳ１０４）、設定された話速が高速読み、かつ摩擦音であるか否かが判定される（ステップＳ１０５）。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。

話速が高速読みかつ摩擦音であれば（ステップＳ１０５のＹｅｓ）、その音素長が所定倍として例えば、１．５〔倍〕に設定、即ち、調整され（ステップＳ１０６）、また、話速が高速読みかつ摩擦音でなければ（ステップＳ１０５のＮｏ）、その音素長を調整しない。このような調整又は無調整の後、音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ１０７）、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号ｎが音素数ｎに到達したか否かが判定され（ステップＳ１０８）、呼気段落内の全ての音素についての処理が実行される。

呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし（ステップＳ１０９）、終了判定が行われる（ステップＳ１１０）。この終了判定では、入力データの全データの処理が完了したか否かが判定され（ステップＳ１１０）、全てのデータの処理が完了するまで、ステップＳ１０３からステップＳ１１０の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ１１１）、音声が出力される。

このように、呼気段落単位での摩擦音が話速に応じて修正され、高速読み上げの際に摩擦音の音素の音素長を既述のように、その一例として１．５〔倍〕に調整することにより、高速読み上げによる不明瞭感が解消されて聞き取り易くなり、音声に変換された読み上げ文の認識性を向上させることができる。

〔第２の実施の形態〕

次に、第２の実施の形態について、図７を参照する。図７は、第２の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順には、音声読み上げのプログラム又は方法の一例であって、高速読み上げの際に摩擦音、先頭音素であればその音素を伸長させる手順、段階又は工程が含まれている。この処理手順においても、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第２の実施の形態では、第１の実施の形態の音素長の調整に加え、先頭音素即ち、ポーズ直後の音素であるか否かの判定を行い、高速読み上げの際に、判定された摩擦音の音素長、ポーズ直後の音素長の伸長により、音声読み上げのトータル再生時間を極端に延長させることなく、聞き取り易さを高めている。

この第２の実施の形態では、音素長を伸張すべき音素を特定するため、音素判定部２８（図２）において、摩擦音であるか否かを判定し、その判定に基づき、摩擦音の音素長の伸長処理を実行している。

そこで、この処理手順では、図７に示すように、言語処理（ステップＳ２０１）、音素長設定処理（ステップＳ２０２）を実行する。これら言語処理（ステップＳ２０１）及び音素長設定処理（ステップＳ２０２）の後、呼気段落内の音素の処理として、音素番号ｎを初期化（ｎ＝１）し（ステップＳ２０３）、話速に応じた音素長の制御を行う（ステップＳ２０４〜Ｓ２１１）。この音素長の制御が呼気段落を単位とするのは第１の実施の形態と同様である。

音素長制御部１８では、入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定され（ステップＳ２０４）、高速読みかつ音素が摩擦音であるか否かが判定される（ステップＳ２０５）。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。

話速が高速読みかつ音素が摩擦音であれば（ステップＳ２０５のＹｅｓ）、その音素長が所定倍として例えば、１．５〔倍〕に設定、即ち、調整され（ステップＳ２０６）、また、話速が高速読みかつ音素が摩擦音でなければ（ステップＳ２０５のＮｏ）、その音素長を調整しない。

このような処理の後、高速読みかつ先頭音素（ｎ＝＝１）であるか否かが判定され（ステップＳ２０７）、話速が高速読みかつ先頭音素（ｎ＝＝１）であれば（ステップＳ２０７のＹｅｓ）、その音素長が所定倍として例えば、１．５〔倍〕に設定、即ち、調整され（ステップＳ２０８）、また、先頭音素（ｎ＝＝１）でなければ（ステップＳ２０７のＮｏ）、その音素長を調整しない。

そして、このような調整又は無調整の後、音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ２０９）、呼気段落内の音素は終了したか否かが判定され（ステップＳ２１０）、呼気段落内の全ての音素についての処理が実行される。

呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし（ステップＳ２１１）、終了判定が行われる（ステップＳ２１２）。全てのデータの処理が完了するまで、ステップＳ２０３からステップＳ２１２の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ２１３）、音声が出力される。

このように、呼気段落単位での先頭音素及び摩擦音が話速に応じて修正され、摩擦音、ポーズ直後の音素の音素長を既述のように、その一例として１．５〔倍〕に調整することにより、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第３の実施の形態〕

次に、第３の実施の形態について、図８を参照する。図８は、第３の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、高速読み上げの際に摩擦音を伸長し、他の音素長を短縮させる手順、段階又は工程が含まれている。この処理手順においても、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第３の実施の形態では、第１の実施の形態の音素長の調整に、他の音素の音素長を短縮している。この実施の形態では、摩擦音の音素長の伸長に対し、その他の音素の音素長を短縮し、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。この実施の形態では、その他の音素として、母音の音素長を短縮している。

この第３の実施の形態では、音素長を調整すべき音素を特定するため、音素判定部２８（図２）において、音素が母音であるか否かを判定し、その判定に基づき、母音の音素長に対する短縮処理を実行している。

そこで、この処理手順では、図８に示すように、言語処理（ステップＳ３０１）、音素長設定処理（ステップＳ３０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ３０３）、話速に応じた音素長の制御を行う（ステップＳ３０４〜Ｓ３１１）。この音素長の制御が呼気段落を単位とするのは第１の実施の形態と同様である。

音素長制御部１８では、入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定され（ステップＳ３０４）、高速読みかつ音素が摩擦音であるか否かが判定される（ステップＳ３０５）。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。

話速が高速読みかつ音素が摩擦音であれば（ステップＳ３０５のＹｅｓ）、その音素長が所定倍として例えば、１．５〔倍〕に設定、即ち、調整され（ステップＳ３０６）、また、話速が高速読みかつ音素が摩擦音でなければ（ステップＳ３０５のＮｏ）、その音素長を調整しない。

このような処理の後、高速読みかつ音素が母音であるか否かが判定され（ステップＳ３０７）、話速が高速読みかつ母音であれば（ステップＳ３０７のＹｅｓ）、その音素長が所定倍として例えば、０．９〔倍〕に設定、即ち、調整され（ステップＳ３０８）、また、母音でなければ（ステップＳ３０７のＮｏ）、その音素長を調整しない。

そして、このような調整又は無調整の後、音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ３０９）、呼気段落内の音素は終了したか否かが判定され（ステップＳ３１０）、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし（ステップＳ３１１）、終了判定が行われる（ステップＳ３１２）。全てのデータの処理が完了するまで、ステップＳ３０３からステップＳ３１２の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ３１３）、音声が出力される。

このように、呼気段落単位での摩擦音又は母音の音素長が話速に応じて修正され、摩擦音の音素長を既述のように、その一例として１．５〔倍〕にするのに対し、母音の音素長を既述のように短縮、その一例として０．９〔倍〕に調整することにより、音素長の伸長時間が母音の音素長の短縮によって補完されるので、音声出力の全再生時間の伸長を来すことなく、概ね全体の長さを同一に保ちつつ、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第４の実施の形態〕

次に、第４の実施の形態について、図９及び図１０を参照する。図９は、第４の実施の形態に係る音素長制御部を示すブロック図、図１０は、第４の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図９において、図２と同一部分には同一符号を付してある。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第４の実施の形態では、第１の実施の形態の音素長の調整に加え、即ち、摩擦音の伸長に対し、摩擦音の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高める。

この第４の実施の形態では、音声読み上げ装置２（図１）の音素長制御部１８（図２）に関し、図９に示すように、呼気段落長演算部３０が設置され、この呼気段落長演算部３０は、音素長調整部２４の出力から呼気段落の全体の長さを演算する。その演算結果は制御情報として音素長調整部２４に加えられ、音素長調整部２４は、特定の音素の音素長、この場合、摩擦音の音素長の伸長分を呼気段落内の全音素に比例配分して全音素の各音素長を短縮し、呼気段落の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。

そこで、この処理手順では、図１０に示すように、言語処理（ステップＳ４０１）、音素長設定処理（ステップＳ４０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ４０３）、話速に応じた音素長の制御を行う（ステップＳ４０３〜Ｓ４１２）。この音素長の制御が呼気段落を単位とするのは第１の実施の形態と同様である。

音素長制御部１８では、入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定され（ステップＳ４０４）、高速読みかつ音素が摩擦音であるか否かが判定される（ステップＳ４０５）。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。

話速が高速読みかつ音素が摩擦音であれば（ステップＳ４０５のＹｅｓ）、その音素長が所定倍として例えば、１．５〔倍〕に設定、即ち、調整され（ステップＳ４０６）、また、話速が高速読みかつ音素が摩擦音でなければ（ステップＳ４０５のＮｏ）、その音素長を調整しない。

このような調整又は無調整の後、音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ４０７）、呼気段落内の音素は終了したか否かが判定され（ステップＳ４０８）、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とする（ステップＳ４０９）。

この設定の後、呼気段落全体の長さを計算し（ステップＳ４１０）、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し（ステップＳ４１１）、終了判定が行われる（ステップＳ４１２）。全てのデータの処理が完了するまで、ステップＳ４０３からステップＳ４１２の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ４１３）、音声が出力される。

このように、呼気段落単位での摩擦音の音素長が話速に応じて修正され、摩擦音の音素長を既述のように、その一例として１．５〔倍〕にするのに対し、摩擦音の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第５の実施の形態〕

次に、第５の実施の形態について、図１１及び図１２を参照する。図１１は、第５の実施の形態に係る音素長制御部を示すブロック図、図１２は、第５の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図１１において、図２と同一部分には同一符号を付してある。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第５の実施の形態では、第１の実施の形態の音素長の調整に、他の音素の音素長を短縮している。この実施の形態では、摩擦音の音素長の伸長に対し、その摩擦音の音素長の伸長分を文章全体の音素に比例配分して短くすることで、文章全体の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。

この第５の実施の形態では、音声読み上げ装置２（図１）の音素長制御部１８（図２）に関し、図１１に示すように、文章全体長演算部３２が設置され、この文章全体長演算部３２は、音素長調整部２４の出力から文章全体の長さを演算する。その演算結果は制御情報として音素長調整部２４に加えられ、音素長調整部２４は、特定の音素の音素長、この場合、摩擦音の音素長の伸長分を文章全体の全音素に比例配分して全音素の各音素長を短縮し、文章の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。

そこで、この処理手順では、図１２に示すように、言語処理（ステップＳ５０１）、音素長設定処理（ステップＳ５０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ５０３）、話速に応じた音素長の制御を行う（ステップＳ５０３〜Ｓ５１２）。この音素長の制御が呼気段落を単位とするのは第１の実施の形態と同様である。

音素長制御部１８では、入力された話速情報の認識に基づき、その話速に応じて固定倍の音素長が設定され（ステップＳ５０４）、高速読みかつ音素が摩擦音であるか否かが判定される（ステップＳ５０５）。即ち、この判定処理では、摩擦音の音素が持つ音素長が調整対象として特定されることになる。

話速が高速読みかつ音素が摩擦音であれば（ステップＳ５０５のＹｅｓ）、その音素長が所定倍として例えば、１．５〔倍〕に設定、即ち、調整され（ステップＳ５０６）、また、話速が高速読みかつ音素が摩擦音でなければ（ステップＳ５０５のＮｏ）、その音素長を調整しない。

このような調整又は無調整の後、音素番号ｎの更新（ｎ＝ｎ＋１）を行い（ステップＳ５０７）、呼気段落内の音素は終了したか否かが判定され（ステップＳ５０８）、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし（ステップＳ５０９）、終了判定が行われる（ステップＳ５１０）。全てのデータの処理が完了するまで、ステップＳ５０３からステップＳ５１０の処理が繰り返される。

全データの処理が終了した後、文章全体の長さを計算し（ステップＳ５１１）、文章全体の長さ、即ち、読み上げ時間が所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように文章全体の全音素の音素長を比例配分して調整し（ステップＳ５１２）、この処理の終了後、音声合成が実行され（ステップＳ５１３）、音声が出力される。

このように、呼気段落単位での摩擦音の音素長が話速に応じて修正され、摩擦音の音素長を既述のように、その一例として１．５〔倍〕にするのに対し、摩擦音の音素長の伸長分を文章全体の全音素に比例配分して短縮することにより、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第６の実施の形態〕

次に、第６の実施の形態について、図１３を参照する。図１３は、第６の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行されるが、この第６の実施の形態では、第２の実施の形態（図７）の音素長の調整と、第３の実施の形態（図８）の音素長の調整とを併用することにより、その話頭の音素、摩擦音の音素長の伸長に対し、その他の音素の音素長として例えば、母音の音素長を短縮することにより、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。

そこで、この処理手順では、図１３に示すように、言語処理（ステップＳ６０１）、音素長設定処理（ステップＳ６０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ６０３）、話速に応じた音素長の制御を行う（ステップＳ６０３〜Ｓ６１３）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第６の実施の形態においても、話速に応じた固定倍の音素長の設定（ステップＳ６０４）、高速読みかつ音素が摩擦音であるか否かの判定（ステップＳ６０５）、話速が高速読みかつ音素が摩擦音であれば（ステップＳ６０５のＹｅｓ）、その音素長を所定倍として例えば、１．５〔倍〕に設定（ステップＳ６０６）、高速読みかつ先頭音素（ｎ＝＝１）であるか否かの判定（ステップＳ６０７）、高速読みかつ先頭音素（ｎ＝＝１）であれば（ステップＳ６０７のＹｅｓ）、その音素長を所定倍として例えば、１．５〔倍〕に設定（ステップＳ６０８）を実行する。

このような処理の後、高速読みかつ音素が母音であるか否かが判定される（ステップＳ６０９）、話速が高速読みかつ母音であれば（ステップＳ６０９のＹｅｓ）、その音素長が所定倍として例えば、０．９〔倍〕に設定、即ち、調整され（ステップＳ６０９）、また、母音でなければ（ステップＳ６０９のＮｏ）、その音素長を調整しない。

そして、既述の通り、音素番号ｎの更新（ｎ＝ｎ＋１）（ステップＳ６１１）、呼気段落内の音素の終了判定（ステップＳ６１２）、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定（ステップＳ６１３）、終了判定（ステップＳ６１４）、音声合成（ステップＳ６１５）が実行される。

このように、呼気段落単位での先頭音素、摩擦音の音素長が話速に応じて修正され、摩擦音及びポーズ直後の音素の音素長を既述のように、その一例として１．５〔倍〕にするのに対し、母音の音素長を既述のように短縮、その一例として０．９〔倍〕に調整することにより、ポーズ後の音素及び摩擦音の音素長の伸長による再生時間の伸長分が母音の音素長の短縮分だけ短縮されることとなるので、音声出力の全再生時間の伸長を来すことなく（場合によっては短く）、概ね全体の長さを同一に保ちつつ、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第７の実施の形態〕

次に、第７の実施の形態について、図１４を参照する。図１４は、第７の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行され、この実施の形態では、第２の実施の形態（図７）の音素長の調整に加え、即ち、その話頭の音素、摩擦音の音素長の伸長に対し、当該音素長を長めに確保した音素長分、ポーズ等、他の音素長を確保しない又は短縮する構成として、話頭及び摩擦音の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。

この第７の実施の形態では、第４の実施の形態と同様に（図９）、音素長制御部１８の音素長調整部２４に呼気段落長演算部３０を設置して音素長調整部２４の出力から呼気段落の全体の長さを演算し、その演算結果は制御情報として音素長調整部２４に加える。音素長調整部２４は、特定の音素の音素長、この場合、摩擦音及び先頭音素の音素長の伸長分を呼気段落内の全音素に比例配分して全音素の各音素長を短縮し、呼気段落の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。

そこで、この処理手順では、図１４に示すように、言語処理（ステップＳ７０１）、音素長設定処理（ステップＳ７０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ７０３）、話速に応じた音素長の制御を行う（ステップＳ７０３〜Ｓ７１３）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第７の実施の形態においても、話速に応じた固定倍の音素長の設定（ステップＳ７０４）、高速読みかつ音素が摩擦音であるか否かの判定（ステップＳ７０５）、話速が高速読みかつ音素が摩擦音であれば（ステップＳ７０５のＹｅｓ）、その音素長を所定倍として例えば、１．５〔倍〕に設定（ステップＳ７０６）、高速読みかつ先頭音素（ｎ＝＝１）であるか否かの判定（ステップＳ７０７）、高速読みかつ先頭音素（ｎ＝＝１）であれば（ステップＳ７０７のＹｅｓ）、その音素長を所定倍として例えば、１．５〔倍〕に設定（ステップＳ７０８）を実行する。

このような処理の後、音素番号ｎの更新（ｎ＝ｎ＋１）（ステップＳ７０９）、呼気段落内の音素の終了判定（ステップＳ７１０）、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定（ステップＳ７１１）の後、呼気段落全体の長さを計算し（ステップＳ７１２）、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し（ステップＳ７１３）、終了判定が行われる（ステップＳ７１４）。全てのデータの処理が完了するまで、ステップＳ７０３からステップＳ７１４の処理が繰り返される。この終了判定の後、音声合成が実行され（ステップＳ７１５）、音声が出力される。

このように、呼気段落単位での先頭音素、摩擦音の音素長が話速に応じて修正され、摩擦音及びポーズ直後の音素の音素長を既述のように、その一例として１．５〔倍〕にするのに対し、これら音素の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔第８の実施の形態〕

次に、第８の実施の形態について、図１５を参照する。図１５は、第８の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。

この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置２（図１）及び音素長制御部１８（図２）を用いて実行され、この実施の形態では、第２の実施の形態（図７）の音素長の調整に加え、即ち、その摩擦音の音素、話頭の音素の音素長の伸長に対し、その伸長分を文章全体の音素に比例配分して短くすることで、文章全体の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。

この第８の実施の形態では、第５の実施の形態と同様に（図１１）、音声読み上げ装置２（図１）の音素長制御部１８に文章全体長演算部３２が併設され、この文章全体長演算部３２は、音素長調整部２４の出力から文章全体の長さを演算し、その演算結果が制御情報として音素長調整部２４に加えられる。音素長調整部２４は、特定の音素の音素長、この場合、先頭音素及び摩擦音の音素長の伸長分を文章全体の全音素に比例配分して全音素の各音素長を短縮し、文章の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。

そこで、この処理手順では図１５に示すように、言語処理（ステップＳ８０１）、音素長設定処理（ステップＳ８０２）、呼気段落内の音素の処理として、音素番号ｎの初期化（ｎ＝１）（ステップＳ８０３）、話速に応じた音素長の制御を行う（ステップＳ８０３〜Ｓ８１１）。この音素長の制御が呼気段落を単位とするのは第２の実施の形態（図７）と同様である。

この第８の実施の形態においても、話速に応じた固定倍の音素長の設定（ステップＳ８０４）、高速読みかつ音素が摩擦音であるか否かの判定（ステップＳ８０５）、話速が高速読みかつ音素が摩擦音であれば（ステップＳ８０５のＹｅｓ）、その音素長を所定倍として例えば、１．５〔倍〕に設定（ステップＳ８０６）、高速読みかつ先頭音素（ｎ＝＝１）であるか否かの判定（ステップＳ８０７）、高速読みかつ先頭音素（ｎ＝＝１）であれば（ステップＳ８０７のＹｅｓ）、その音素長を所定倍として例えば、１．５〔倍〕に設定（ステップＳ８０８）を実行する。

このような処理の後、音素番号ｎの更新（ｎ＝ｎ＋１）（ステップＳ８０９）、呼気段落内の音素の終了判定（ステップＳ８１０）、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定（ステップＳ８１１）、終了判定（ステップＳ８１２）を行う。

全データの処理が終了した後、文章全体の長さを計算し（ステップＳ８１３）、文章全体の長さ、即ち、読み上げ時間が所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように文章全体の全音素の音素長を比例配分して調整し（ステップＳ８１４）、この処理の終了後、音声合成が実行され（ステップＳ８１５）、音声が出力される。

このように、呼気段落単位での先頭音素、摩擦音の音素長が話速に応じて修正され、ポーズ直後の音素の音素長をその一例として１．５〔倍〕、摩擦音の音素長をその一例として１．５〔倍〕にするのに対し、これら音素長の伸長分を文章全体の全音素に比例配分して短縮することにより、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。

〔その他の実施の形態〕

(1) 音素長制御部１８に入力する話速情報について、図１６を参照する。図１６は、話速調整部を備えるパラメータ生成部を示すブロック図である。上記実施の形態では、音素長制御部１８に話速情報を入力しているが、図１６に示すように、外部から話速を調整可能な話速調整部２２をパラメータ生成部８に設置し、外部から任意の話速設定を可能な構成としてもよい。

(2) 上記実施の形態では、摩擦音等の音素長を伸長する場合について説明したが、本発明は、短縮する場合にも適用することができる。

(3) 第１の実施の形態に携帯端末装置２００（図３、図４）を例示したが、本発明は、携帯情報端末機（ＰＤＡ：Personal Digital Assistant）や、パーソナルコンピュータ等、コンピュータを搭載して音声を出力する電子機器や、電子機器ユニットを搭載する各種機器に適用できるものであり、本発明は、上記実施の形態に限定されるものではない。

(4) 上記実施の形態では、音素として摩擦音、母音、子音等について例示したが、本発明は、半母音、拗音、破擦音等の他の音素を対象としてもよい。この場合、半母音は、調音法が母音に近いが、単独では音節を作らない音であり、〔ｗ〕、〔ｊ〕等である。破擦音は、破裂音の直後に摩擦音が続き、全体で一つの単音と見なされる音であって、〔ｔｓ〕、〔ｄｚ〕、〔ｔ∫〕等である。

(5) 上記実施の形態において、読み上げ速度が高速である場合、文字データ中の一部又は全部のポーズを削除する構成としてもよく、ポーズの削除により、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。

〔実施例１〕

実施例１について、図１７及び図１８を参照する。図１７は、図６のフローチャートに対応する比較例であるフローチャート、図１８は、言語処理結果を示す図である。

この音声読み上げ装置２（図１）では、話速に応じて各音素の音素長を同様に伸長する場合には、図１７に示すフローチャートの処理となる。この場合、図６に示すフローチャートと同一ステップには同一符号を付し、摩擦音の音素長を調整しない場合の処理を示している。即ち、図１７のフローチャートは、図６のフローチャートからステップＳ１０５、Ｓ１０６の処理がない場合であって、高速読み上げで摩擦音についての音素長を伸長しない場合の処理であり、高速読み上げに反比例して音素長を固定倍している。

このような処理において、入力テキストの文例が例えば、
「山梨県の高校を卒業して、信用金庫に入って４年目です。」（図５）
であるとすれば、その単語解析結果は図１８に示すように、入力テキスト、品詞、表音文字列で表すことができる。

この文例の「山梨県の高校を卒業して、信用金庫に入って４年目です。」において、「山梨」は名詞であり、その表音文字列は「ヤマナシ’」となり、「県」は名詞であり、その表音文字列は「ケン」となり、「の」は助詞であり、その表音文字列は「ノ」となり、この「の」の後部分はアクセント句境界で空白となり、「高校」は名詞であり、その表音文字列は「コーコー」となり、「を」は助詞であり、その表音文字列は「オ」となり、その後の部分はアクセント句境界で空白となり、「卒業し」は動詞（連用形）であり、その表音文字列は「ソツギョーシ」となり、「て」は助詞であり、その表音文字列は「テ」となり、「、」は呼気段落境界（ポーズ長は中）であり、その表音文字列は「、」となり、「信用」は名詞であり、その表音文字列は「シンヨー」となり、「金庫」は名詞であり、その表音文字列は「キ’ンコ」となり、「に」は助詞であり、その表音文字列は「ニ」となり、その後の部分はアクセント句境界で空白となり、「入っ」は動詞（連用形、促音便）であり、その表音文字列は「ハ＊イッ」となり、「て」は助詞であり、その表音文字列は「テ」となり、その後の部分は呼気段落境界（ポーズ長は小）となり、その表音文字列は「・」となり、「４」は数詞であり、その表音文字列は「ヨ」となり、「年」は助数詞であり、その表音文字列は「ネン」となり、「目」は助数詞の後置詞であり、その表音文字列は「メ’」となり、「です」は助動詞であり、その表音文字列は「デス」となり、「。」は呼気段落境界（ポーズ長は大）であり、その表音文字列は「。」となる。従って、上記文例の表音文字列は、
「ヤマナシ’ケンノコーコーオソツギョーシテ、シンヨーキ’ンコニハ＊イッテ・ヨネンメ’デス。」
となる。

この表音文字列中の「シンヨー」の部分の音素長作成と話速による音素長の修正について、図１９を参照する。図１９は、この場合の音素長の生成例を示す図である。

この例では、概ね毎秒７モーラを１倍速として、３倍速（目安として毎秒２１モーラ）を生成する場合では、１倍速での音素長を音素長テーブル１６（図１）から読み出し、話速に反比例して音素長を修正している。この修正の後、アクセント等の情報を基にピッチパターンが生成され、音声波形が合成される。

これに対し、第１の実施の形態（図６）の処理結果について、図２０を参照する。図２０は、第１の実施の形態（図６）の音素長生成例を示す図である。

この場合、３倍速での音素長を生成する場合には、摩擦音である「ｓｈ」の音素長が単純な反比例での長さの１．５〔倍〕に設定される。この結果、図２０に示すように、１倍速での音素長が１１７〔ｍｓ〕であるのに対し、３倍速での音素長は５９〔ｍｓ〕となっている。これらの音素長を他の音素「Ｉ」、「Ｎ」、「ｙ」、「Ｏ」、「Ｏ」と比較すると、１倍速の音素「ｓｈ」の音素長１１７〔ｍｓ〕は、他の音素「Ｉ」＝６０〔ｍｓ〕、「Ｎ」＝６０〔ｍｓ〕、「ｙ」＝６５〔ｍｓ〕、「Ｏ」＝８０〔ｍｓ〕、「Ｏ」＝１０５〔ｍｓ〕であって、顕著な差異がないのに対し、３倍速の音素「ｓｈ」の音素長５９〔ｍｓ〕は、他の音素「Ｉ」＝２０〔ｍｓ〕、「Ｎ」＝２０〔ｍｓ〕、「ｙ」＝２２〔ｍｓ〕、「Ｏ」＝２７〔ｍｓ〕、「Ｏ」＝３５〔ｍｓ〕であり、顕著な差異が生じている。この結果、聴感上の聞き取り易さを向上させることができ、認識性が高められる。

これらの処理結果である音声合成波形について、図２１を参照する。図２１において、Ａは、通常速度で「卒業して、信用金庫に」と読み上げた場合の音声合成波形であり、図１７に示すフローチャートの処理を以て読み上げられた場合である。また、図２１のＢは、同じ読み上げ文章を、一律、高速読み上げした場合の波形であって、同様に、図１７に示すフローチャートの処理を以て読み上げられた場合である。即ち、摩擦音の音素長を伸長しない場合である。また、図２１のＣは、高速読み上げにおいて、第１の実施の形態（図６に示すフローチャート）の処理を適用した場合であり、摩擦音が伸長された場合の音声合成波形である。図２１のＡ、Ｂ、Ｃにおいて、図２１のＡの読み上げ時間をＴｏとすれば、図２１のＢ、Ｃの読み上げ時間は、３倍の話速を設定しているので、Ｔｏ／３に短縮されたものをほぼ同一の尺度で記載している。

図２１のＡの破線包囲部ａは摩擦音であり、図２１のＢの破線包囲部ｂは同様の音素を示しているが、ｂの音素長が話速が３倍になっている分だけ縮んでいることが理解できよう。このような読み上げ音を聞いた場合、音切れのように感じられ、摩擦音が聞き取り難くなることが確認された。これに対し、図２１のＣの破線包囲部ｃは、３倍の話速に対し、摩擦音の音素長を伸長させているため、話速を高めて読み上げ音を聞いた場合にも、音切れが発生することがなく、聞き取り易さが高められる。

〔実施例２〕

実施例２の処理結果を示す波形について、図２２及び図２３を参照する。図２２は比較例である音声合成波形を示す図、図２３は、実施例２に係る音声合成波形を示す図である。図２２において、Ａは、標準速度の場合の波形であり、Ｂは、高速読み上げの場合の波形である。Ａの標準速度の読み上げに対し、Ｂの高速読み上げの場合には、ｄの摩擦音の音素長が話速比例通り短縮し、この例では、１５〔ｍｓｅｃ〕に短縮される。

これに対し、図２３において、Ａは、第１の実施の形態（図６のフローチャート）の処理の標準速度の場合の波形、Ｂは、高速読み上げに対応して摩擦音の音素長を伸長した場合の波形である。

図２２のＢのｄと図２３のＢのｅとを対比すれば、摩擦音が持つ音素長を話速比例よりも伸長（確保）する場合、即ち、この例（図２３のＢのｅ）では、３５〔ｍｓｅｃ〕に伸長するので、音素長は２．３倍程度に伸長されるので、音切れが発生することがなく、聞き取り易さが高められる。

〔実施例３〕

実施例３の処理結果を示す波形について、図２４及び図２５を参照する。図２４は比較例である音声合成波形を示す図、図２５は、実施例３に係る音声合成波形を示す図である。実施例１、２が日本語であるのに対し、実施例３は英語文「ｈａｐｐｙ，ｓｈｏｃｋ，ｓｈｏｏｔ」を読み上げた場合である。

図２４において、Ａは、標準速度の場合の波形であり、Ｂは、高速読み上げの場合の波形である。Ａの標準速度の読み上げに対し、Ｂの高速読み上げの場合には、ｆ、ｇの摩擦音の音素長が話速比例通り短縮し、この例では、ｆの箇所で１９〔ｍｓｅｃ〕、ｇの箇所で１４〔ｍｓｅｃ〕に短縮される。

これに対し、図２５において、Ａは、第１の実施の形態（図６のフローチャート）の処理の標準速度の場合の波形、Ｂは、高速読み上げに対応して摩擦音の音素長を伸長した場合の波形である。

図２４のＢのｆ、ｇと図２５のＢのｈ、ｉとを対比すれば、摩擦音が持つ音素長を話速比例よりも伸長（確保）する場合、即ち、この例（図２５のＢのｈ、ｉ）では、ｈが２７〔ｍｓｅｃ〕、ｉが２５〔ｍｓｅｃ〕に伸長するので、音素長は２倍程度に伸長されるので、音切れが発生することがなく、聞き取り易さが高められる。

次に、以上述べた本発明の実施の形態から抽出される技術的思想を請求項の記載形式に準じて付記として列挙する。本発明に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本発明が限定されるものではない。

（付記１）文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が摩擦音である場合に前記音素判定部の判定結果に基づき、前記摩擦音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。

（付記２）付記１の音声読み上げ装置において、
音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合には前記摩擦音の音素長を伸長させることを特徴とする音声読み上げ装置。

（付記３）付記１の音声読み上げ装置において、
呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。

（付記４）付記１の音声読み上げ装置において、
読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。

（付記５）付記１の音声読み上げ装置において、
前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮することを特徴とする音声読み上げ装置。

（付記６）付記１の音声読み上げ装置において、
前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除することを特徴とする音声読み上げ装置。

（付記７）付記２の音声読み上げ装置において、
前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮することを特徴とする音声読み上げ装置。他の音素長は、母音、子音、促音等の音素長である。

（付記８）文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素の種類を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。

（付記９）付記８の音声読み上げプログラムにおいて、
音素の読み上げ速度を判定する手順と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合には摩擦音の音素長を伸長させる手順と、
を含むことを特徴とする音声読み上げプログラム。

（付記１０）付記８の音声読み上げプログラムにおいて、
前記音素が摩擦音であるか否かを判定する手順と、
前記判定の結果に基づき、前記摩擦音の音素長を伸長させる手順と、
を含むことを特徴とする音声読み上げプログラム。

（付記１１）付記８の音声読み上げプログラムにおいて、
呼気段落の長さを演算する手順と、
前記音素長の調整分を前記演算の結果に基づき、前記呼気段落の各音素長を比例配分して増減させる手順と、
を含むことを特徴とする音声読み上げプログラム。

（付記１２）付記８の音声読み上げプログラムにおいて、
読み上げ文章の長さを演算する手順と、
前記音素長の調整分を前記演算の結果に基づき、前記文章の各音素長を比例配分して増減させる手順と、
を含むことを特徴とする音声読み上げプログラム。

（付記１３）付記８の音声読み上げプログラムにおいて、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮する手順と、
を含むことを特徴とする音声読み上げプログラム。

（付記１４）付記８の音声読み上げプログラムにおいて、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する手順と、
を含むことを特徴とする音声読み上げプログラム。

（付記１５）付記９の音声読み上げプログラムにおいて、
前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する手順と、
を含むことを特徴とする音声読み上げプログラム。

（付記１６）文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素の種類を判定する工程と、
音素に読み上げ速度に応じた音素長を設定する工程と、
音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する工程と、
を備えることを特徴とする音声読み上げ方法。

（付記１７）付記１６の音声読み上げ方法において、
音素の読み上げ速度を判定する工程と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合には摩擦音の音素長を伸長させる工程と、
を含むことを特徴とする音声読み上げ方法。

（付記１８）付記１６の音声読み上げ方法において、
前記音素が摩擦音であるか否かを判定する工程と、
前記判定の結果に基づき、前記摩擦音の音素を伸長させる工程と、
を含むことを特徴とする音声読み上げ方法。

（付記１９）付記１６の音声読み上げ方法において、
呼気段落の長さを演算する工程と、
前記音素長の調整分を前記演算の結果に基づき、前記呼気段落の各音素長を比例配分して増減させる工程と、
を含むことを特徴とする音声読み上げ方法。

（付記２０）付記１６の音声読み上げ方法において、
読み上げ文章の長さを演算する工程と、
前記音素長の調整分を前記演算の結果に基づき、前記文章の各音素長を比例配分して増減させる工程と、
を含むことを特徴とする音声読み上げ方法。

（付記２１）付記１６の音声読み上げ方法において、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズのポーズ長を前記読み上げ速度に応じた長さより短縮する工程と、
を含むことを特徴とする音声読み上げ方法。

（付記２２）付記１６の音声読み上げ方法において、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する工程と、
を含むことを特徴とする音声読み上げ方法。

（付記２３）付記１７の音声読み上げ方法において、
前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する工程と、
を含むことを特徴とする音声読み上げ方法。

（付記２４）文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が子音である場合に前記音素判定部の判定結果に基づき、前記子音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。

（付記２５）文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が半母音である場合に前記音素判定部の判定結果に基づき、前記半母音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。

（付記２６）文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が拗音である場合に前記音素判定部の判定結果に基づき、前記拗音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。

（付記２７）文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が破擦音である場合に前記音素判定部の判定結果に基づき、前記破擦音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。

（付記２８）文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が摩擦音、半母音、拗音又は破擦音の何れかである場合に前記音素判定部の判定結果に基づき、その音素の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。

以上説明したように、本発明の最も好ましい実施の形態等について説明したが、本発明は、上記記載に限定されるものではなく、特許請求の範囲に記載され、又は明細書に開示された発明の要旨に基づき、当業者において様々な変形や変更が可能であることは勿論であり、斯かる変形や変更が、本発明の範囲に含まれることは言うまでもない。

本発明は、摩擦音を含む文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、文字データから摩擦音を認識し、摩擦音の音素長を制御し、読み上げ速度を高速化しても、合成音声の聞き取り易さを高めることができ、認識性の向上が図られるので、音声合成等の処理に有用である。

第１の実施の形態に係る音声読み上げ装置の構成例を示すブロック図である。音声読み上げ装置の音素長制御部の構成例を示すブロック図である。音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図である。携帯端末装置の構成例を示す図である。画面表示例を示す図である。第１の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第２の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第３の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第４の実施の形態に係る音素長制御部を示すブロック図である。第４の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第５の実施の形態に係る音素長制御部を示すブロック図である。第５の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第６の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第７の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。第８の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。話速調整部を備えるパラメータ生成部を示すブロック図である。音素長制御の処理手順の一例を示すフローチャートである。言語処理結果を示す図である。音素長の生成例を示す図である。音素長の生成例を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。音声合成波形を示す図である。

符号の説明

２音声読み上げ装置
２４音素長調整部
２６話速判定部
２８音素判定部
３０呼気段落長演算部
３２文章全体長演算部
３４区切り変更部
２００携帯端末装置

Claims

文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が摩擦音である場合に前記音素判定部の判定結果に基づき、前記摩擦音の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
請求項１の音声読み上げ装置において、
音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合には前記摩擦音の音素長を伸長させることを特徴とする音声読み上げ装置。
請求項１の音声読み上げ装置において、
呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
請求項１の音声読み上げ装置において、
読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
請求項１の音声読み上げ装置において、
前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮することを特徴とする音声読み上げ装置。
請求項１の音声読み上げ装置において、
前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除することを特徴とする音声読み上げ装置。
請求項２の音声読み上げ装置において、
前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮することを特徴とする音声読み上げ装置。
文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素の種類を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素の種類を判定する工程と、
音素に読み上げ速度に応じた音素長を設定する工程と、
音素が摩擦音である場合に前記判定の結果に基づき、摩擦音の音素長を調整する工程と、
を備えることを特徴とする音声読み上げ方法。