JP5029167B2 - 音声読み上げのための装置、プログラム及び方法 - Google Patents

音声読み上げのための装置、プログラム及び方法 Download PDF

Info

Publication number
JP5029167B2
JP5029167B2 JP2007167018A JP2007167018A JP5029167B2 JP 5029167 B2 JP5029167 B2 JP 5029167B2 JP 2007167018 A JP2007167018 A JP 2007167018A JP 2007167018 A JP2007167018 A JP 2007167018A JP 5029167 B2 JP5029167 B2 JP 5029167B2
Authority
JP
Japan
Prior art keywords
phoneme
speech
length
speed
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007167018A
Other languages
English (en)
Other versions
JP2009003394A (ja
Inventor
理香 西池
均 佐々木
伸之 片江
健太郎 村瀬
拓也 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007167018A priority Critical patent/JP5029167B2/ja
Priority to EP08157671.2A priority patent/EP2009622B1/en
Priority to US12/213,792 priority patent/US20080319755A1/en
Priority to KR1020080059876A priority patent/KR101005949B1/ko
Priority to CN2008101248916A priority patent/CN101334994B/zh
Publication of JP2009003394A publication Critical patent/JP2009003394A/ja
Application granted granted Critical
Publication of JP5029167B2 publication Critical patent/JP5029167B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、文書等の表音文字を含む文字データを音声に変換して出力する音声読み上げのための装置、プログラム及び方法に関し、音素長を読み上げ速度に応じて制御し、特に、高速読み上げ等、読み上げ速度に応じて特定の音素長等を伸縮させる音声読み上げのための装置、プログラム及び方法に関する。
表音文字を含む文字データを解析し、その文字データから音声合成法により音声合成を行い、文字データを音声として出力する所謂音声読み上げの技術が知られている。携帯電話機等の携帯端末装置にあっては、メール等の自由文章を読み上げる音声合成機能が普及し始めている。また、パーソナルコンピュータ(PC)にあっては、スクリーンリーダと呼ばれるソフトウェアが普及し始めている。文章の内容を音声により理解する場合には、聴覚に作用する母音、子音、ポーズ等を表す音素の長さが認識性を高める上で重要なファクターとなる。
このような音声読み上げに関し、特許文献1には、発話速度情報が予め定められた値未満のときは、発話速度をその情報に基づいて標準より速くするため、モーラ長を最小限に設定し、発話速度情報に応じた短いフレーム周期を設定し、発話速度情報が予め定められた値以上のときは、発話速度をその情報に基づいて標準より遅くするため、発話速度情報に応じた長いモーラ長を設定し、フレーム周期を最大値に設定する音声合成が開示されている。
特開平6−149283号公報(要約及び図1等)
ところで、読み上げ速度(話速)を設定可能にした場合、話速に反比例して各音素長が設定されるものとする。例えば、話速を2倍の速さとすれば、その音素長は1/2となり、話速を1/2に遅くすれば、音素長は2倍となる。このように話速と音素長との関係を単純な関係に設定し、即ち、話速と音素長とを単純に反比例とすれば、通常の話速では自然な場合(聴き取り易い場合)であっても、高速読みや低速読みの場合には、聞き取り難く、違和感があり、認識性を低下させる場合がある。
斯かる要求や課題について、特許文献1にはその開示や示唆はなく、それを解決する構成等についての開示や示唆はない。
そこで、本発明の目的は、文字データの音声読み上げに関し、音素長の調整によって音声読み上げの認識性を高めることにある。
斯かる目的は、文字データのポーズ直後の音素又はその他の音素等に対する認識性が読み上げ速度に応じて影響を受けるとの知見に基づくものである。
斯かる目的を具体的に述べれば、文字データの音声読み上げに関し、聴感上、読み上げられる音声の聞き取り易さを向上させることにある。
上記目的を達成するため、本発明は、文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、文字データからポーズの存在を認識し、ポーズ直後の前記音素が持つ音素長を制御する。この音素長の制御は例えば、読み上げ速度に応じて実行し、前記読み上げ速度が高速の場合にはポーズ直後の音素が持つ音素長を伸長させ、また、特定の音素についてはその音素が持つ音素長を短縮させ又は基準速度と同一の音素長にする構成である。斯かる構成により、聴感上、読み上げられる音声の聞き取り易さが向上し、音声読み上げの認識性を高めている。
そこで、上記目的を達成するため、本発明の第1の側面は、文字データを音声に変換して読み上げる音声読み上げ装置であって、前記文字データから音素の種類を判定する音素判定部と、音素の読み上げ速度を判定する速度判定部と、音素に読み上げ速度に応じた音素長を設定し、前記読み上げ速度の判定結果が高速の場合には、前記音素判定結果が前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する音素長調整部とを備える構成である。
斯かる構成によれば、文字データ、表音文字列から音素の種類を判別し、読み上げ速度に応じた音素長を設定するとともに、ポーズ直後の音素の音素長をポーズ直後の音素以外の音素の音素長よりも長く伸長するするので、読み上げ速度が高速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、音素長の調整分を呼気段落を単位に他の音素長の調整で増減して補完するので、読み上げ時間の間延びを防止できる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させる構成としてもよい。斯かる構成によれば、音素長の調整分を文章を単位に他の音素長の調整で増減して補完するので、読み上げ時間の間延びや再生時間の延びを防止できる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮する構成としてもよい。斯かる構成によれば、ポーズが存在するための間延び感を抑制でき、再生時間が延びることを防止できる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する構成としてもよい。斯かる構成によれば、ポーズの削除により、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。
上記目的を達成するためには、上記音声読み上げ装置において、好ましくは、前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する構成としてもよい。斯かる構成によれば、音素長の伸長に対応してポーズ長を含む他の音素長を短縮するので、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。
上記目的を達成するため、本発明の第2の側面は、文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、前記文字データから音素の種類を判定する手順と、音素の読み上げ速度を判定する手順と、音素に読み上げ速度に応じた音素長を設定する手順と、読み上げ速度が高速である場合に、前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する手順とを前記コンピュータに実行させる構成である。斯かる構成によれば、第1の側面で述べた通り、上記目的を達成することができる。
上記目的を達成するため、本発明の第3の側面は、文字データを音声に変換して読み上げる音声読み上げ方法であって、前記文字データから音素の種類を判定する工程と、音素の読み上げ速度を判定する工程と、音素に読み上げ速度に応じた音素長を設定する工程と、読み上げ速度が高速である場合に、前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する工程とを備える構成である。斯かる構成によれば、第1の側面で述べた通り、上記目的を達成することができる。
また、上記目的を達成するため、本発明の本発明の第4の側面は、文字データを音声に変換して読み上げる音声読み上げ装置であって、前記文字データから音素の種類を判定する音素判定部と、音素の読み上げ速度を判定する速度判定部と、音素に読み上げに応じた音素長を設定し、前記読み上げ速度の判定結果が標準的な話速よりも速い速度の場合には、前記音素判定結果が前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する音素長調整部とを備える構成である。斯かる構成によれば、第1の側面で述べた通り、上記目的を達成することができる。
また、上記目的を達成するため、本発明の本発明の第5の側面は、文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、前記文字データから音素の種類を判定する手順と、音素の読み上げ速度を判定する手順と、音素に読み上げ速度に応じた音素長を設定する手順と、読み上げ速度が標準的な話速よりも速い速度である場合に、前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する手順とを前記コンピュータに実行させる構成である。斯かる構成によれば、第1の側面で述べた通り、上記目的を達成することができる。
本発明によれば、次のような効果が得られる。
(1) 文字データを音声に変換して読み上げる音素について、ポーズ直後の話頭の音素長を伸長させるので、聞き取り易くでき、認識性を高めることができる。
(2) 話頭の音素長を伸長すれば、一定比率で音素長を削減する場合に比較して聞き取り易くできる。
(3) 摩擦音の音素長を伸長すれば、聞き取り易くでき、認識性を高めることができる。
(4) 特定の音素長を伸長した場合、その音素長の伸長に対し、その伸長分に応じて他の音素の音素長を短縮すれば、読み上げ速度を高速化しても、聞き取り易さが損なわれることがなく、再生時間も短縮できる。
(5) 特定の音素長を伸長した場合、その音素長の伸長に対し、その伸長分に応じて一部又は全部のポーズ長を短縮し、又は、削除すれば、読み上げ速度を高速化しても、聞き取り易さが損なわれることがなく、再生時間も短縮できる。
そして、本発明の他の目的、特徴及び利点は、添付図面及び各実施の形態を参照することにより、一層明確になるであろう。
〔第1の実施の形態〕
本発明の第1の実施の形態について、図1及び図2を参照する。図1は、音声読み上げ装置の構成例を示すブロック図、図2は、音声読み上げ装置の音素長制御部の構成例を示すブロック図である。
この音声読み上げ装置2は、本発明の音声読み上げのための装置、プログラム及び方法の構成例であって、コンピュータで構成され、例えば、テキスト文章(日本語では漢字かな混じり文)等、文字データを音声に変換して読み上げる音声合成装置で構成され、文字データ中のポーズ直後の音素が持つ音素長を話速(読み上げ速度)に応じて制御することにより、文字データから得た出力音声の聞き易さを高め、合成音声(読み上げ出力)の認識性を向上させたものである。ここで、文字データは音声読み上げの対象であって、表音文字、その文字列、ポーズを含むデータであり、表音文字又はその表音文字列は、音声合成で使用する韻律記号付き発音記号からなる中間言語であって、韻律記号付きの発音記号(読み仮名)である。文字データに含まれるポーズは、音声に変換されない区間等の無音区間であって、ポーズ直後の音素が持つ音素長の制御情報としては破裂音の直前の休止期間や促音は除かれる。例えば、「卒業して、信用金庫に・・・」(ローマ字表記:so tsugyoushi te、 shinyou kin koni・・・)といった日本語文章では、「卒業して」と、「信用金庫」との間に、無音区間となる句点「、」が存在し、これがポーズの一例である。また、このポーズと呼気段落との関係について、呼気段落は人間が一息に発声する単位であり、この呼気段落の前後の息継ぎには既述のポーズが入ることになる。
斯かる機能を実現するため、この音声読み上げ装置2では、図1に示すように、言語処理部4と、単語辞書6と、パラメータ生成部8と、ピッチ切出し・重合せ部10と、波形辞書12とが備えられている。
言語処理部4は、漢字かな混じり文を入力して、単語辞書6を参照して単語を解析し、読み、アクセント、イントネーションを決定し、表音文字列(中間言語)を出力する言語処理手段である。また、単語辞書6には、単語の種類(品詞等)と読みや、アクセントの位置等が格納されている。
アクセントと、イントネーションとは、物理的にはピッチ周波数の時間的変化パターンと密接に関係している。具体的には、アクセント位置でピッチ周波数は高くなり、イントネーションが上がると、ピッチ周波数が高くなる。そこで、言語処理部4では、入力テキストでの句読点や、単語解析によって抽出された文節に基づいて、既述の呼気段落に分割する。
パラメータ生成部8は、音素継続時間、ポーズ継続時間やピッチ周波数パターンの設定を行うパラメータ生成手段である。このパラメータ生成部8では、話速に応じて音素長の制御を行っている。
このパラメータ生成部8には、音素長設定部14と、音素長テーブル16と、音素長制御部18と、ピッチパターン生成部20とが備えられている。
言語処理部4で生成された表音文字列の段階において、どの音素を音声合成するかが決定される。音素長設定部14では、各音素についての音素長設定手段であって、標準的な話速における音素長が設定される。音素長テーブル16は、当該音素と前後の音素に応じた標準的な話速における音素長を格納する手段である。そこで、音素長の設定例としては、当該音素と前後の音素に応じた標準的な話速における音素長(データベースから抽出した値)を音素長テーブル16に格納しておき、この値を参照して音素長が設定される。この音素長は、他のパラメータ要素を以て修正する構成としてもよい。
音素長制御部18は、音素長設定部14で設定された標準的な話速での音素長を話速に応じて制御する音素長制御手段である。話速は、図示しない読み上げ速度(ユーザ設定等)の調整手段等から制御情報として音素長制御部18に加えられる。
音素長制御部18には、図2に示すように、音素長調整部24と、話速判定部26と、音素判定部28とが含まれる。音素長調整部24は、話速判定部26及び音素判定部28の各判定出力を受け、音素の長さやポーズの長さを調整する。話速判定部26は、入力された話速を判定し、その話速が標準速度、高速又は低速の何れであるかを判定し、その判定出力を音素長調整部24に加える。この場合、話速判定部26の出力する判定出力には、標準速度、高速又は低速を表す出力、その話速レベルを表す出力が含まれる。また、音素判定部28は、音素長設定部14(図1)で設定された音素長を持つ音素やポーズ等を判定し、その判定出力を音素長調整部24に加える。
そこで、このような音素長制御部18によれば、例えば、標準的な話速に対する所定の話速に反比例した音素長とし、具体的な数値を例示すれば、標準的な話速を毎秒7モーラを目安とした場合、毎秒14モーラの話速が設定されていれば、各音素長を半分にし、毎秒6モーラの話速が設定されていれば、7/6の音素長とする。ここで、モーラとは、拍を表し、概ね仮名書きしたときの一文字相当の単位であって、拗音(小さい「ゃ」「ゅ」「ょ」)「きゃ」等は1モーラである。日本語の場合、一文字のモーラが類似の長さを持つ言語である。
ピッチパターン生成部20は、表音文字列でのアクセント情報等を加味して、各音素でのピッチ周期を設定するパターン生成手段である。
ピッチ切出し・重合せ部10は例えば、PSOLA法(Pitch-Synchronous Overlap- add:波形の加算重畳によるピッチ変換方法)を使用するピッチ切出し・重合せ手段である。また、波形辞書12には音声波形と、どの部分がどの音素かを示す音素ラベル、有声音についてピッチ周期を示すピッチマークが格納されている。そこで、ピッチ切出し・重合せ部10では、パラメータ生成部8で生成されたパラメータを元に波形辞書12から2周期分の音声波形を切り出し、窓関数(例えばハニング窓)を掛け、必要に応じて振幅調整のゲインを掛ける処理を実行し、波形辞書12でのピッチ周波数と所望のピッチ周波数が違えばピッチ変換し、切り出された波形をオーバーラップさせて加算することにより、合成音声信号が出力される。
この音声読み上げ装置のハードウェアについて、図3、図4及び図5を参照する。図3は、音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図、図4は、携帯端末装置の構成例を示す図、図5は、画面表示例を示す図である。
この携帯端末装置200は、既述の音声読み上げ装置2が適用された一例であって、斯かる構成に本発明の音声読み上げのための装置、方法又はプログラムが限定されるものではない。この携帯端末装置200では、通信機能や、メール文等のテキスト文章(日本語では漢字かな混じり文)等、文字データを音声に変換して出力する機能を有する。そこで、この携帯端末装置200には、図3に示すように、プロセッサ202と、記憶部204と、無線部206と、入力部208と、表示部210と、音声入力部212と、音声出力部214とが備えられている。
プロセッサ202は、電話通信や、音声合成等の音声読み上げの実行、その他の制御を行う制御手段であって、CPU(Central Processing Unit )又はMPU(Micro Processor Unit)で構成され、記憶部204にあるOS(Operating System)やアプリケーションプログラムを実行する。このアプリケーションプログラムには音声読み上げの処理手順を実行するプログラム等が含まれる。
記憶部204はプロセッサ202で実行されるプログラムや、その実行に用いる各種データを格納するとともに、処理エリアを形成する記録媒体であって、プログラム記憶部216、データ記憶部218、RAM(Random-Access Memory)220で構成されている。プログラム記憶部216にはOSやアプリケーションプログラムが格納され、データ記憶部218には単語辞書6、波形辞書12及び音素長テーブル16(図1)が形成され、既述のデータが格納されている。RAM220は、ワークエリアを構成する。
無線部206は基地局と無線によって音声信号電波やパケット信号電波等の送受信を行うための無線通信手段であって、プロセッサ202によって制御される。
入力部208はユーザの操作により制御データや表示部210に展開されるダイアログに対する応答を入力するための手段であって、キーボードやタッチパネル等で構成される。
表示部210はプロセッサ202によって制御され、文字や図形等を表示する表示手段であって、例えば、LCD(Liquid Crystal Display)素子で構成される。この表示部210には音声読み上げのテキスト文章等が表示される。
音声入力部212はプロセッサ202で制御される音声入力手段であって、マイクロフォン222を備える。入力音声はマイクロフォン222で音声信号に変換され、その音声信号がディジタル信号に変換されてプロセッサ202に取り込まれる。
音声出力部214はプロセッサ202で制御される音声出力手段であって、音声変換手段としてレシーバ224と、スピーカ226R、226Lとを備えている。音声読み上げの合成音声は、これらレシーバ224、スピーカ226R、226Lから再生される。
この携帯端末装置200において、既述の音声読み上げ装置2は例えば、プロセッサ202、記憶部204、表示部210、音声出力部214等で構成される。
そして、この携帯端末装置200は、図4に示すように、一例として筐体228に第1の筐体部230と、第2の筐体部232とが含まれ、これら筐体部230、232はヒンジ部234で連結して折畳み可能に構成され、筐体部230には入力部208、マイクロフォン222が配置され、筐体部232には表示部210、レシーバ224、スピーカ226R、226Lが設置されている。入力部208には文字等の入力に用いる複数の記号キー236、カーソルキー238、決定キー240等が配置されている。
そこで、この携帯端末装置200による音声読み上げでは、メール文や小説文等の各種のテキスト文が対象となり、表示部210の画面上に展開される文章等が音声合成されてレシーバ224やスピーカ226R、226Lから再生される。その場合、図5に示すように、表示部210に展開されたメール文表示画面242にはメール文が表示され、このメール文が音声として出力される。この例では、メール文表示画面242に「山梨県の 高校を 卒業して、信用金庫に 入って 4年目 です。」と表示されており、これが音声として再生される。
次に、音素長の制御について、図6を参照する。図6は、第1の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのためのプログラム又は方法の一例であって、第1の実施の形態では、高速読み上げの際にポーズの直後の音素即ち、話頭か否かを判断し、話頭の音素であれば、その音素長を制御する手順又は工程として話頭の音素を伸長させる手順又は工程を含んでいる。この処理手順は、音声読み上げ装置2(図1)の音素長制御部18(図2)で実行される。この実施の形態では、話頭(呼気段落単位での先頭音素)は、話速に応じての修正後、音素長を他の音素長の例えば、1.5〔倍〕にすることで、聞き取り易さを高めている。
そこで、この処理手順は、図6に示すように、言語処理(ステップS101)、音素長設定処理(ステップS102)を実行する。言語処理(ステップS101)は、言語処理部4において実行され、入力データから表音文字列を生成し、この段階でどの音素を音声合成するかが決定される。次に、音素長設定処理(ステップS102)は、音素長設定部14において実行され、各音素について、標準的な話速における音素長が設定される。この場合、音素長は、当該音素と前後の音素に応じた標準的な話速における音素長が音素長テーブル16を参照して設定される。
このような音素長の設定処理の後、呼気段落内の音素についての処理として、音素番号nを初期化(n=1)し(ステップS103)、話速に応じた音素長の制御を行う(ステップS104〜S110)。この音素長の制御は呼気段落を単位として実行され、ステップS105〜S109が呼気段落の音素処理のループである。この音素長の制御には、制御対象である音素の判定処理、その判定結果に対応した音素長の調整処理が含まれる。
音素長制御部18では、入力された話速情報が認識に基づき、その話速に応じて音素長が制御され、この場合、固定倍の音素長が設定され(ステップS104)、設定された話速が高速読み、かつ先頭音素(n==1)であるか否かが判定される(ステップS105)。即ち、この判定処理では、ポーズ直後(話頭)の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ先頭音素(n==1)であれば(ステップS105のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS106)、また、話速が高速読みかつ先頭音素(n==1)でなければ(ステップS105のNo)、その音素長を調整しない。このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS107)、呼気段落内の音素は終了したか、即ち、呼気段落内の音素番号nが音素数nに到達したか否かが判定され(ステップS108)、呼気段落内の全ての音素についての処理が実行される。
呼気段落内の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS109)、終了判定が行われる(ステップS110)。この終了判定では、入力データの全データの処理が完了したか否かが判定され(ステップS110)、全てのデータの処理が完了するまで、ステップS103からステップS110の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS111)、音声が出力される。
このように、呼気段落単位での先頭音素が話速に応じて修正され、高速読み上げの際にポーズ直後の音素の音素長を既述のように、その一例として1.5〔倍〕に調整することにより、高速読み上げによる不明瞭感が解消されて聞き取り易くなり、音声に変換された読み上げ文の認識性を向上させることができる。
〔第2の実施の形態〕
次に、第2の実施の形態について、図7を参照する。図7は、第2の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第2の実施の形態では、第1の実施の形態の音素長の調整に加え、音素が摩擦音であるか否かの判定を行い、高速読み上げの際に、判定された摩擦音の音素長の調整として音素長を伸長させ、音声読み上げのトータル再生時間を極端に延長させることなく、聞き取り易さを高めている。
この第2の実施の形態では、音素長を伸張すべき音素を特定するため、音素判定部28(図2)において、摩擦音であるか否かを判定し、その判定に基づき、摩擦音の音素長の伸長処理を実行している。
そこで、この処理手順では、図7に示すように、言語処理(ステップS201)、音素長設定処理(ステップS202)を実行する。これら言語処理(ステップS201)及び音素長設定処理(ステップS202)の後、呼気段落内の音素の処理として、音素番号nを初期化(n=1)し(ステップS203)、話速に応じた音素長の制御を行う(ステップS204〜S214)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では、入力された話速情報の認識に基づき、その話速に応じて音素長が制御され、この場合、固定倍の音素長が設定され(ステップS204)、高速読みかつ先頭音素(n==1)であるか否かが判定される(ステップS205)。即ち、この判定処理では、ポーズ直後(話頭)の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ先頭音素(n==1)であれば(ステップS205のYes)、音素が摩擦音か否かが判定され(ステップS206)、話速が高速読みかつ先頭音素(n==1)かつ摩擦音であれば(ステップS206のYes)、その音素長が所定倍即ち、α倍として例えば、α=1.7〔倍〕に設定ないし調整され(ステップS207)、また、先頭音素(n==1)でも摩擦音でもなければ(ステップS208のNo)、その音素長の調整はない。即ち、この場合、ステップS204で固定倍とされたそのままの状態が維持される。
高速読みかつ先頭音素の場合には(ステップS206のNo)、その音素長が所定倍即ち、β倍として例えば、β=1.5〔倍〕に設定ないし調整され(ステップS209)、高速読みかつ摩擦音の場合には(ステップS208のYes)、その音素長が所定倍即ち、γ倍として例えば、γ=1.4〔倍〕に設定ないし調整される(ステップS210)。
従って、高速読みかつ先頭音素かつ摩擦音の場合、高速読みかつ先頭音素の場合、高速読みかつ摩擦音の場合、先頭音素でも摩擦音でもない場合について、音素長の調整又は無調整は次の表1の通りとなる。
Figure 0005029167
そして、このような処理の後、音素番号nの更新(n=n+1)を行い(ステップS211)、呼気段落内の音素は終了したか否かが判定され(ステップS212)、呼気段落内の全ての音素についての処理が実行される。
呼気段落の音素の処理が行われ、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS213)、終了判定が行われる(ステップS214)。全てのデータの処理が完了するまで、ステップS203からステップS214の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS215)、音声が出力される。
このように、呼気段落単位での先頭音素及び摩擦音が話速に応じて修正され、ポーズ直後の音素の音素長や摩擦音の音素長の場合、又は何れでもない場合には、既述のように、音素長の伸長を異ならせた設定とするので、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第3の実施の形態〕
次に、第3の実施の形態について、図8を参照する。図8は、第3の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第3の実施の形態では、第1の実施の形態の音素長の調整に加え、即ち、その音素長の伸長に対し、その他の音素の音素長を短縮することにより、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。この実施の形態では、その他の音素として、母音の音素長を短縮している。
この第3の実施の形態では、音素長を調整すべき音素を特定するため、音素判定部28(図2)において、音素が母音であるか否かを判定し、その判定に基づき、母音の音素長に対する短縮処理を実行している。
そこで、この処理手順では、図8に示すように、言語処理(ステップS301)、音素長設定処理(ステップS302)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS303)、話速に応じた音素長の制御を行う(ステップS304〜S312)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では、入力された話速情報が認識に基づき、その話速に応じて音素長が制御され、この場合、固定倍の音素長が設定され(ステップS304)、高速読みかつ先頭音素(n==1)であるか否かが判定される(ステップS305)。即ち、この判定処理では、ポーズ直後(話頭)の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ先頭音素(n==1)であれば(ステップS305のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS306)、また、話速が高速読みかつ先頭音素(n==1)でなければ(ステップS305のNo)、その音素長を調整しない。
このような処理の後、高速読みかつ音素が母音であるか否かが判定され(ステップS307)、話速が高速読みかつ母音であれば(ステップS307のYes)、その音素長が所定倍として例えば、0.9〔倍〕に設定、即ち、調整され(ステップS308)、また、母音でなければ(ステップS307のNo)、その音素長を調整しない。
そして、このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS309)、呼気段落内の音素は終了したか否かが判定され(ステップS310)、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS311)、終了判定が行われる(ステップS312)。全てのデータの処理が完了するまで、ステップS303からステップS312の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS313)、音声が出力される。
このように、呼気段落単位での先頭音素及び母音が話速に応じて修正され、ポーズ直後の音素の音素長を既述のように、その一例として1.5〔倍〕にするのに対し、母音の音素長を既述のように短縮、その一例として0.9〔倍〕に調整することにより、音素長の伸長時間が母音の音素長の短縮によって補完されるので、音声出力の全再生時間の伸長を来すことなく、概ね全体の長さを同一に保ちつつ、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第4の実施の形態〕
次に、第4の実施の形態について、図9及び図10を参照する。図9は、第4の実施の形態に係る音素長制御部を示すブロック図、図10は、第4の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図9において、図2と同一部分には同一符号を付してある。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第4の実施の形態では、第1の実施の形態の音素長の調整に加え、即ち、その音素長の伸長に対し、話頭音素の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高める。
この第4の実施の形態では、音声読み上げ装置2(図1)の音素長制御部18(図2)に関し、図9に示すように、呼気段落長演算部30が設置され、この呼気段落長演算部30は、音素長調整部24の出力から呼気段落の全体の長さを演算する。その演算結果は制御情報として音素長調整部24に加えられ、音素長調整部24は、特定の音素の音素長、この場合、先頭音素の音素長の伸長分を呼気段落内の全音素に比例配分して全音素の各音素長を短縮し、呼気段落の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
そこで、この処理手順では、図10に示すように、言語処理(ステップS401)、音素長設定処理(ステップS402)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS403)、話速に応じた音素長の制御を行う(ステップS404〜S412)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では、入力された話速情報が認識に基づき、その話速に応じて音素長が制御され、この場合、固定倍の音素長が設定され(ステップS404)、高速読みかつ先頭音素(n==1)であるか否かが判定される(ステップS405)。即ち、この判定処理では、ポーズ直後(話頭)の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ先頭音素(n==1)であれば(ステップS405のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS406)、また、話速が高速読みかつ先頭音素(n==1)でなければ(ステップS405のNo)、その音素長を調整しない。
このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS407)、呼気段落内の音素は終了したか否かが判定され(ステップS408)、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とする(ステップS409)。
この設定の後、呼気段落全体の長さを計算し(ステップS410)、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し(ステップS411)、終了判定が行われる(ステップS412)。全てのデータの処理が完了するまで、ステップS403からステップS412の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS413)、音声が出力される。
このように、呼気段落単位での先頭音素が話速に応じて修正され、ポーズ直後の音素の音素長を既述のように、その一例として1.5〔倍〕にするのに対し、話頭音素の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第5の実施の形態〕
次に、第5の実施の形態について、図11及び図12を参照する。図11は、第5の実施の形態に係る音素長制御部を示すブロック図、図12は、第5の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図11において、図2と同一部分には同一符号を付してある。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第5の実施の形態では、第1の実施の形態の音素長の調整に加え、即ち、その音素長の伸長に対し、話頭音素の音素長の伸長分を文章全体の音素に比例配分して短くすることで、文章全体の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。
この第5の実施の形態では、音声読み上げ装置2(図1)の音素長制御部18(図2)に関し、図11に示すように、文章全体長演算部32が設置され、この文章全体長演算部32は、音素長調整部24の出力から文章全体の長さを演算する。その演算結果は制御情報として音素長調整部24に加えられ、音素長調整部24は、特定の音素の音素長、この場合、先頭音素の音素長の伸長分を文章全体の全音素に比例配分して全音素の各音素長を短縮し、文章の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
そこで、この処理手順では、図12に示すように、言語処理(ステップS501)、音素長設定処理(ステップS502)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS503)、話速に応じた音素長の制御を行う(ステップS503〜S512)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態と同様である。
音素長制御部18では、入力された話速情報が認識に基づき、その話速に応じて音素長が制御され、この場合、固定倍の音素長が設定され(ステップS504)、高速読みかつ先頭音素(n==1)であるか否かが判定される(ステップS505)。即ち、この判定処理では、ポーズ直後(話頭)の音素が持つ音素長が調整対象として特定されることになる。
話速が高速読みかつ先頭音素(n==1)であれば(ステップS505のYes)、その音素長が所定倍として例えば、1.5〔倍〕に設定、即ち、調整され(ステップS506)、また、話速が高速読みかつ先頭音素(n==1)でなければ(ステップS505のNo)、その音素長を調整しない。
このような調整又は無調整の後、音素番号nの更新(n=n+1)を行い(ステップS507)、呼気段落内の音素は終了したか否かが判定され(ステップS508)、呼気段落内の全ての音素についての処理が実行された後、呼気段落の終端のポーズに到達した場合には、そのポーズ長を話速に応じて固定倍とし(ステップS509)、終了判定が行われる(ステップS510)。全てのデータの処理が完了するまで、ステップS503からステップS510の処理が繰り返される。
全データの処理が終了した後、文章全体の長さを計算し(ステップS511)、文章全体の長さ、即ち、読み上げ時間が所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように文章全体の全音素の音素長を比例配分して調整し(ステップS512)、この処理の終了後、音声合成が実行され(ステップS513)、音声が出力される。
このように、呼気段落単位での先頭音素が話速に応じて修正され、ポーズ直後の音素の音素長を既述のように、その一例として1.5〔倍〕にするのに対し、話頭音素の音素長の伸長分を文章全体の全音素に比例配分して短縮することにより、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第6の実施の形態〕
次に、第6の実施の形態について、図13を参照する。図13は、第6の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この第6の実施の形態では、第2の実施の形態(図7)の音素長の調整と、第3の実施の形態(図8)の音素長の調整とを併用することにより、その話頭の音素、摩擦音の音素長の伸長に対し、その他の音素の音素長として例えば、母音の音素長を短縮しており、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。
そこで、この処理手順では、図13に示すように、言語処理(ステップS601)、音素長設定処理(ステップS602)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS603)、話速に応じた音素長の制御を行う(ステップS603〜S616)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第6の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS604)、高速読みかつ先頭音素(n==1)であるか否かの判定を行い(ステップS605)、話速が高速読みかつ先頭音素(n==1)であれば(ステップS605のYes)、音素が摩擦音か否かの判定(ステップS606)、話速が高速読みかつ先頭音素(n==1)かつ摩擦音であれば(ステップS606のYes)、その音素長が所定倍即ち、α倍として例えば、α=1.7〔倍〕に設定ないし調整(ステップS607)、また、先頭音素(n==1)でも摩擦音でもなければ(ステップS608のNo)、その音素長の調整はない。即ち、この場合、ステップS604で固定倍とされたそのままの状態が維持される。
高速読みかつ先頭音素の場合には(ステップS606のNo)、その音素長が所定倍即ち、β倍として例えば、β=1.5〔倍〕に設定ないし調整され(ステップS609)、高速読みかつ摩擦音の場合には(ステップS608のYes)、その音素長が所定倍即ち、γ倍として例えば、γ=1.4〔倍〕に設定ないし調整される(ステップS610)。
従って、高速読みかつ先頭音素かつ摩擦音の場合、高速読みかつ先頭音素の場合、高速読みかつ摩擦音の場合、先頭音素でも摩擦音でもない場合について、音素長の調整又は無調整は既述の表1の通りとなる。
このような処理の後、高速読みかつ音素が母音であるか否かが判定される(ステップS611)、話速が高速読みかつ母音であれば(ステップS611のYes)、その音素長が所定倍として例えば、0.9〔倍〕に設定、即ち、調整され(ステップS612)、また、母音でなければ(ステップS611のNo)、その音素長を調整しない。
そして、既述の通り、音素番号nの更新(n=n+1)(ステップS613)、呼気段落内の音素の終了判定(ステップS614)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS615)、終了判定(ステップS616)、音声合成(ステップS617)が実行される。
このように、呼気段落単位での先頭音素及び摩擦音が話速に応じて修正され、ポーズ直後の音素の音素長や摩擦音の音素長の場合、又は何れでもない場合には、既述のように、音素長の伸長を異ならせた設定とし、母音の場合にはその音素長を既述のように短縮することにより、ポーズ後の音素及び摩擦音の音素長の伸長時間が母音の音素長の短縮分だけ補完されるので、音声出力の全再生時間の伸長を来すことなく、概ね全体の長さを同一に保ちつつ、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第7の実施の形態〕
次に、第7の実施の形態について、図14を参照する。図14は、第7の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この実施の形態では、第2の実施の形態(図7)の音素長の調整に加え、即ち、その話頭の音素、摩擦音の音素長の伸長に対し、当該音素長を長めに確保した音素長分、ポーズ等、他の音素長を確保しない又は短縮する構成として、話頭及び摩擦音の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。
この第7の実施の形態では、第4の実施の形態と同様に(図9)、音素長制御部18の音素長調整部24に呼気段落長演算部30を設置して音素長調整部24の出力から呼気段落の全体の長さを演算し、その演算結果は制御情報として音素長調整部24に加える。音素長調整部24は、特定の音素の音素長、この場合、先頭音素及び摩擦音の音素長の伸長分を呼気段落内の全音素に比例配分して全音素の各音素長を短縮し、呼気段落の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
そこで、この処理手順では、図14に示すように、言語処理(ステップS701)、音素長設定処理(ステップS702)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS703)、話速に応じた音素長の制御を行う(ステップS703〜S716)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第7の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS704)、高速読みかつ先頭音素(n==1)であるか否かの判定を行い(ステップS705)、話速が高速読みかつ先頭音素(n==1)であれば(ステップS705のYes)、音素が摩擦音か否かの判定(ステップS706)、話速が高速読みかつ先頭音素(n==1)かつ摩擦音であれば(ステップS706のYes)、その音素長が所定倍即ち、α倍として例えば、α=1.7〔倍〕に設定ないし調整(ステップS707)、また、先頭音素(n==1)でも摩擦音でもなければ(ステップS708のNo)、その音素長の調整はない。即ち、この場合、ステップS704で固定倍とされたそのままの状態が維持される。
高速読みかつ先頭音素の場合には(ステップS706のNo)、その音素長が所定倍即ち、β倍として例えば、β=1.5〔倍〕に設定ないし調整され(ステップS709)、高速読みかつ摩擦音の場合には(ステップS708のYes)、その音素長が所定倍即ち、γ倍として例えば、γ=1.4〔倍〕に設定ないし調整される(ステップS710)。
従って、高速読みかつ先頭音素かつ摩擦音の場合、高速読みかつ先頭音素の場合、高速読みかつ摩擦音の場合、先頭音素でも摩擦音でもない場合について、音素長の調整又は無調整は既述の表1の通りとなる。
このような処理の後、音素番号nの更新(n=n+1)(ステップS711)、呼気段落内の音素の終了判定(ステップS712)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS713)の後、呼気段落全体の長さを計算し(ステップS714)、呼気段落の長さが所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように全音素の音素長を比例配分して調整し(ステップS715)、終了判定が行われる(ステップS716)。全てのデータの処理が完了するまで、ステップS703からステップS716の処理が繰り返される。この終了判定の後、音声合成が実行され(ステップS717)、音声が出力される。
このように、呼気段落単位での先頭音素及び摩擦音が話速に応じて修正され、ポーズ直後の音素の音素長や摩擦音の音素長の場合、又は何れでもない場合には、既述のように、音素長の伸長を異ならせた設定とし、これら音素の音素長の伸長分を呼気段落内の音素に比例配分して短縮することにより、呼気段落の長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第8の実施の形態〕
次に、第8の実施の形態について、図15を参照する。図15は、第8の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)を用いて実行されるが、この実施の形態では、第2の実施の形態(図7)の音素長の調整に加え、即ち、その話頭の音素、摩擦音の音素の音素長の伸長に対し、その伸長分を文章全体の音素に比例配分で短くすることで、文章全体の長さを保ちつつ、即ち、読み上げ文の音声変換時間を伸長させることなく、聞き取り易さを高めている。
この第8の実施の形態では、第5の実施の形態と同様に(図11)、音声読み上げ装置2(図1)の音素長制御部18に文章全体長演算部32が併設され、この文章全体長演算部32は、音素長調整部24の出力から文章全体の長さを演算し、その演算結果が制御情報として音素長調整部24に加えられる。音素長調整部24は、特定の音素の音素長、この場合、先頭音素及び摩擦音の音素長の伸長分を文章全体の全音素に比例配分して全音素の各音素長を短縮し、文章の読み上げ時間の長さが所定の長さになるように制御する機能を備えている。
そこで、この処理手順では、図15に示すように、言語処理(ステップS801)、音素長設定処理(ステップS802)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS803)、話速に応じた音素長の制御を行う(ステップS803〜S816)。この音素長の制御が呼気段落を単位とするのは第2の実施の形態(図7)と同様である。
この第8の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS804)、高速読みかつ先頭音素(n==1)であるか否かの判定を行い(ステップS805)、話速が高速読みかつ先頭音素(n==1)であれば(ステップS805のYes)、音素が摩擦音か否かの判定(ステップS806)、話速が高速読みかつ先頭音素(n==1)かつ摩擦音であれば(ステップS806のYes)、その音素長が所定倍即ち、α倍即ち、として例えば、α=1.7〔倍〕に設定(ステップS807)、また、先頭音素(n==1)でも摩擦音でもなければ(ステップS808のNo)、その音素長の調整はない。即ち、この場合、ステップS804で固定倍とされたそのままの状態が維持される。
高速読みかつ先頭音素の場合には(ステップS806のNo)、その音素長が所定倍即ち、β倍として例えば、β=1.5〔倍〕に設定され(ステップS809)、高速読みかつ摩擦音の場合には(ステップS808のYes)、その音素長が所定倍即ち、γ倍として例えば、γ=1.4〔倍〕に設定される(ステップS810)。
従って、高速読みかつ先頭音素かつ摩擦音の場合、高速読みかつ先頭音素の場合、高速読みかつ摩擦音の場合、先頭音素でも摩擦音でもない場合について、音素長の調整又は無調整は既述の表1の通りとなる。
このような処理の後、音素番号nの更新(n=n+1)(ステップS811)、呼気段落内の音素の終了判定(ステップS812)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS813)、終了判定(ステップS814)を行う。
全データの処理が終了した後、文章全体の長さを計算し(ステップS815)、文章全体の長さ、即ち、読み上げ時間が所定の長さ例えば、音素長を伸長しない場合の長さと同等又は同等程度の長さになるように文章全体の全音素の音素長を比例配分して調整し(ステップS816)、この処理の終了後、音声合成が実行され(ステップS817)、音声が出力される。
このように、呼気段落単位での先頭音素及び摩擦音が話速に応じて修正され、ポーズ直後の音素の音素長や摩擦音の音素長の場合、又は何れでもない場合には、既述のように、音素長の伸長を異ならせた設定とし、これら音素長の伸長分を全文章の全音素に比例配分して短縮することにより、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第9の実施の形態〕
次に、第9の実施の形態について、図16を参照する。図16は、第9の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。
この処理手順は、音声読み上げのプログラム又は方法の一例であって、既述の音声読み上げ装置2(図1)及び音素長制御部18(図2)を用いて実行されるが、この実施の形態では、高速読みの場合にポーズの長さを短縮することにより、聞き取り易さは同等であって、読み上げ時間の長さを短縮したものである。話速を例えば、3倍速とすれば、話速の反比例によってポーズ長をその半分にすれば、標準話速に対してのポーズ長は6分の1となり、ポーズ長の短縮によって読み上げ時間の長さを短くできる。
そこで、この処理手順では、図16に示すように、言語処理(ステップS901)、音素長設定処理(ステップS902)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS903)、話速に応じた音素長の制御を行う(ステップS903〜S910)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態(図5)と同様である。
この第9の実施の形態においても、話速に応じた固定倍の音素長の設定(ステップS904)、音素番号nの更新(n=n+1)(ステップS905)、呼気段落内の音素の終了判定(ステップS906)を行う。
この場合、高速読みか否かの判定を行い(ステップS907)、高速読みであれば(ステップS907のYes)、終端のポーズ長を話速に応じた固定倍に対する所定の倍率としての例えば、2分の1に設定する(ステップS908)。
高速読みでなければ(ステップS907のNo)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍に設定し(ステップS909)、全データが終了したか否かの終了判定を行い(ステップS910)、全データの終了後、音声合成が実行され(ステップS911)、音声が出力される。
このように、高速読みの場合に、呼気段落の終端のポーズ長を短縮することにより、全文章の読み上げの長さが保たれるとともに、合成音声の聞き取り易さが高められ、音声に変換された読み上げ文の認識性が改善される。
〔第10の実施の形態〕
次に、第10の実施の形態について、図17及び図18を参照する。図17は、第10の実施の形態に係る音声読み上げ装置のパラメータ生成部の構成例を示すブロック図、図18は、第10の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。図17において、図1と同一部分には同一符号を付してある。
この第10の実施の形態では、パラメータ生成部8に区切り変更部34が音素長設定部14の前段に設置されており、この区切り変更部34では、言語処理部4(図1)で生成された表音文字列の呼気段落の区切りのポーズ長が変更される構成である。このような区切り変更部34を備えたことにより、各音素長を確保した状況で、読み上げを行う文章の全体の再生時間を短縮することができる。
この場合、言語処理結果の表音文字列を、
「ヤマナシ' ケンノ コーコーオ ソツギョーシテ、シンヨーキ' ンコニ ハ*イッテ・ヨネンメ' デス。」
とすれば、この表音文字列に対し、区切り変更部34では、呼気段落区切りの長さの段階を1段階短くする。具体的には、ポーズ長が小の中点「・」はアクセント区切りの空白(ポーズはない)にし、ポーズ長が中の読点「、」はポーズ長が小の中点「・」にし、ポーズ長が大の句点「。」はポーズ長が中の読点「、」にする。
即ち、表音文字列は、
「ヤマナシ' ケンノ コーコーオ ソツギョーシテ・シンヨーキ' ンコニ ハ*イッテ ヨネンメ' デス、」
に変更され、読み上げ文の全体の再生時間を削減できる。
そこで、この処理手順では、図18に示すように、言語処理(ステップS1001)、音素長設定処理(ステップS1002)、呼気段落内の音素の処理として、音素番号nの初期化(n=1)(ステップS1003)、話速に応じた音素長の制御を行う(ステップS1003〜S1014)。この音素長の制御が呼気段落を単位とするのは第1の実施の形態(図6)と同様である。
この第10の実施の形態では、話速に応じた固定倍の音素長を設定し(ステップS1004)、この音素長の設定の後、文字が句点「。」であるか否かを判定し(ステップS1005)、句点「。」であれば、当該文字を読点「、」に置き換え(ステップS1006)、ステップS1011に移行する。
また、文字が句点「。」でなければ(ステップS1005のNo)、文字が読点「、」であるか否かを判定し(ステップS1007)、読点「、」であれば、当該文字を中点「・」に置き換え(ステップS1008)、ステップS1011に移行する。
また、読点「、」でなければ(ステップS1007のNo)、文字が中点「・」であるか否かを判定し(ステップS1009)、中点「・」であれば、当該文字を空白「 」に置き換え(ステップS1010)、ステップS1011に移行する。
このような処理の後、ステップS1011では、音素音素番号nの更新(n=n+1)を行い、呼気段落内の音素の終了判定(ステップS1012)、呼気段落の終端のポーズに到達した場合のポーズ長を話速に応じた固定倍の設定(ステップS1013)を行い、終了判定(ステップS1014)を行う。この処理の終了後、音声合成が実行され(ステップS1015)、音声が出力される。
この処理手順によれば、呼気段落区切りを示す文字を置換することで、区切り長さの段階を1段階だけ短くする。具体的には、
・ ポーズ長が小の中点「・」(例えば、標準話速で0.1秒)はアクセント区切りの空白(ポーズはない)に、
・ ポーズ長が中の読点「、」(例えば、標準話速で0.3秒)はポーズ長小の中点「・」に、
・ ポーズ長が大の句点「。」(例えば、標準話速で0.8秒)はポーズ長中の読点「、」にする。即ち、表音文字列は、
「ヤマナシ' ケンノ コーコーオ ソツギョーシテ・シンヨーキ' ンコニ ハ*イッテ ヨネンメ' デス、」
となり、このような変更により、全体の再生時間を削減できる。
従って、呼気段落単位での各音素長を確保した状況で、読み上げを行う文章の全体の再生時間を短縮することができる。
〔その他の実施の形態〕
(1) 音素長制御部18に入力する話速情報について、図19を参照する。図19は、話速調整部を備えるパラメータ生成部を示すブロック図である。上記実施の形態では、音素長制御部18に話速情報を入力しているが、図19に示すように、外部から話速を調整可能な話速調整部22をパラメータ生成部8に設置し、外部から任意の話速設定を可能な構成としてもよい。
(2) 上記実施の形態では、ポーズ直後の音素長を伸長する場合について説明したが、本発明は、短縮する場合にも適用することができる。
(3) 第1の実施の形態に携帯端末装置200(図3、図4)を例示したが、本発明は、携帯情報端末機(PDA:Personal Digital Assistant)や、パーソナルコンピュータ等、コンピュータを搭載して音声を出力する電子機器や、電子機器ユニットを搭載する各種機器に適用できるものであり、本発明は、上記実施の形態に限定されるものではない。
(4) 上記実施の形態において、読み上げ速度が高速である場合、文字データ中の一部又は全部のポーズを削除する構成としてもよく、ポーズの削除により、聞き取り易さを損なうことなく、再生時間の短縮を図ることができる。
(5) 読み上げ速度が低速の場合にはポーズ直後の音素が持つ音素長を短縮させ又は基準速度と同一の音素長にする構成としてもよい。
(6) 上記第6の実施の形態(図13)では、読み上げ速度が高速である場合、先頭音素の音素長や摩擦音の伸長に対し、他の音素として母音の音素長を短縮しているが、特定のポーズや音素長の伸長に対応し、他の音素長を短縮する構成としてもよく、斯かる構成とすれば、同様に、読み上げ時間の伸長を抑制できる。
(7) 上記第10の実施の形態(図18)では、呼気段落を単位とする処理を示しているが、呼気段落以外の文章単位でもよく、特定の文章の段落内処理であってもよい。
(8) 上記第2、第6、第7、第8の実施の形態では、特定の音素として摩擦音を例示し、その音素長を伸長させているが、摩擦音の伸長を省略してもよいし、摩擦音に代え、他の音素長であってもよい。
〔実施例1〕
実施例1について、図20及び図21を参照する。図20は、図6のフローチャートに対応する比較例であるフローチャート、図21は、言語処理結果を示す図である。
この音声読み上げ装置2(図1)では、話速に応じて各音素の音素長を同様に伸長する場合には、図20に示すフローチャートの処理となる。この場合、図6に示すフローチャートと同一ステップには同一符号を付し、ポーズ後の話頭の音素長を調整しない場合の処理を示している。即ち、図20のフローチャートは、図6のフローチャートからステップS105、S106の処理がない場合であって、高速読み上げで先頭音素についての音素長を伸長しない場合の処理であり、高速読み上げに反比例して音素長を固定倍している。
このような処理において、入力テキストの文例が例えば、
「山梨県の高校を卒業して、信用金庫に入って4年目です。」(図5)
であるとすれば、その単語解析結果は図21に示すように、入力テキスト、品詞、表音文字列で表すことができる。
この文例の「山梨県の高校を卒業して、信用金庫に入って4年目です。」において、「山梨」は名詞であり、その表音文字列は「ヤマナシ’」となり、「県」は名詞であり、その表音文字列は「ケン」となり、「の」は助詞であり、その表音文字列は「ノ」となり、この「の」の後部分はアクセント句境界で空白となり、「高校」は名詞であり、その表音文字列は「コーコー」となり、「を」は助詞であり、その表音文字列は「オ」となり、その後の部分はアクセント句境界で空白となり、「卒業し」は動詞(連用形)であり、その表音文字列は「ソツギョーシ」となり、「て」は助詞であり、その表音文字列は「テ」となり、「、」は呼気段落境界(ポーズ長は中)であり、その表音文字列は「、」となり、「信用」は名詞であり、その表音文字列は「シンヨー」となり、「金庫」は名詞であり、その表音文字列は「キ’ンコ」となり、「に」は助詞であり、その表音文字列は「ニ」となり、その後の部分はアクセント句境界で空白となり、「入っ」は動詞(連用形、促音便)であり、その表音文字列は「ハ*イッ」となり、「て」は助詞であり、その表音文字列は「テ」となり、その後の部分は呼気段落境界(ポーズ長は小)となり、その表音文字列は「・」となり、「4」は数詞であり、その表音文字列は「ヨ」となり、「年」は助数詞であり、その表音文字列は「ネン」となり、「目」は助数詞の後置詞であり、その表音文字列は「メ’」となり、「です」は助動詞であり、その表音文字列は「デス」となり、「。」は呼気段落境界(ポーズ長は大)であり、その表音文字列は「。」となる。従って、上記文例の表音文字列は、
「ヤマナシ’ケンノ コーコーオ ソツギョーシテ、シンヨーキ’ンコニ ハ*イッテ・ヨネンメ’デス。」
となる。
この表音文字列中の「シンヨー」の部分の音素長作成と話速による音素長の修正について、図22を参照する。図22は、この場合の音素長の生成例を示す図である。
この例では、概ね毎秒7モーラを1倍速として、3倍速(目安として毎秒21モーラ)を生成する場合では、1倍速での音素長を音素長テーブル16(図1)から読み出し、話速に反比例して音素長を修正している。この修正の後、アクセント等の情報を基にピッチパターンが生成され、音声波形が合成される。
これに対し、第1の実施の形態(図6)の処理結果について、図23を参照する。図23は、第1の実施の形態(図6)の音素長生成例を示す図である。
この場合、3倍速での音素長を生成する場合には、ポーズ後の話頭である「sh」の音素長が単純な反比例での長さの1.5〔倍〕に設定される。この結果、図23に示すように、1倍速での音素長が117〔ms〕であるのに対し、3倍速での音素長は59〔ms〕となっている。これらの音素長を他の音素「I」、「N」、「y」、「O」、「O」と比較すると、1倍速の音素「sh」の音素長117〔ms〕は、他の音素「I」=60〔ms〕、「N」=60〔ms〕、「y」=65〔ms〕、「O」=80〔ms〕、「O」=105〔ms〕であって、顕著な差異がないのに対し、3倍速の音素「sh」の音素長59〔ms〕は、他の音素「I」=20〔ms〕、「N」=20〔ms〕、「y」=22〔ms〕、「O」=27〔ms〕、「O」=35〔ms〕であり、顕著な差異が生じている。この結果、聴感上の聞き取り易さを向上させることができ、認識性が高められる。
これらの処理結果である音声合成波形について、図24を参照する。図24において、Aは、通常速度で「卒業して、信用金庫に」と読み上げた場合の音声合成波形であり、図20に示すフローチャートの処理を以て読み上げられた場合である。また、図24のBは、同じ読み上げ文章を、一律、高速読み上げした場合の波形であって、同様に、図20に示すフローチャートの処理を以て読み上げられた場合である。即ち、ポーズ直後の話頭の音素長を伸長しない場合である。また、図24のCは、高速読み上げにおいて、第1の実施の形態(図6に示すフローチャート)の処理を適用した場合であり、話頭の音素長が伸長された場合の音声合成波形である。図24のA、B、Cにおいて、図24のAの読み上げ時間をToとすれば、図24のB、Cの読み上げ時間は、3倍の話速を設定しているので、To/3に短縮されたものをほぼ同一の尺度で記載している。
図24のAの破線包囲部aはポーズ直後の話頭の音素であり、図24のBの破線包囲部bは同様の音素を示しているが、bの音素長が話速が3倍になっている分だけ縮んでいることが理解できよう。このような読み上げ音を聞いた場合、音切れのように感じられ、話頭が聞き取りづらくなることが確認された。これに対し、図24のCの破線包囲部cは、3倍の話速に対し、話頭の音素の音素長を伸長させているため、話速を高めて読み上げ音を聞いた場合にも、音切れが発生することがなく、聞き取り易さが高められる。
〔実施例2〕
実施例2の処理結果を示す波形について、図25及び図26を参照する。図25は比較例である音声合成波形を示す図、図26は、実施例2に係る音声合成波形を示す図である。図25において、Aは、標準速度の場合の波形であり、Bは、高速読み上げの場合の波形である。Aの標準速度の読み上げに対し、Bの高速読み上げの場合には、dのポーズ直後の音素長が話速比例通り短縮し、この例では、15〔msec〕に短縮される。
これに対し、図26において、Aは、第1の実施の形態(図6のフローチャート)の処理の標準速度の場合の波形、Bは、高速読み上げに対応してポーズ直後の話頭の音素長を伸長した場合の波形である。
図25のBのdと図26のBのeとを対比すれば、ポーズ直後の話頭の音素が持つ音素長を話速比例よりも伸長(確保)する場合、即ち、この例(図26のBのe)では、35〔msec〕に伸長するので、音素長は2.3倍程度に伸長されるので、音切れが発生することがなく、聞き取り易さが高められる。
〔実施例3〕
実施例3の処理結果を示す波形について、図27及び図28を参照する。図27は比較例である音声合成波形を示す図、図28は、実施例3に係る音声合成波形を示す図である。実施例1、2が日本語であるのに対し、実施例3は英語文「ha ppy, sho ck, shoo t」を読み上げた場合である。
図27において、Aは、標準速度の場合の波形であり、Bは、高速読み上げの場合の波形である。Aの標準速度の読み上げに対し、Bの高速読み上げの場合には、f、gのポーズ直後の音素長が話速比例通り短縮し、この例では、fの箇所で19〔msec〕、gの箇所で14〔msec〕に短縮される。
これに対し、図28において、Aは、第1の実施の形態(図6のフローチャート)の処理の標準速度の場合の波形、Bは、高速読み上げに対応してポーズ直後の話頭の音素長を伸長した場合の波形である。
図27のBのf、gと図28のBのh、iとを対比すれば、ポーズ直後の話頭の音素が持つ音素長を話速比例よりも伸長(確保)する場合、即ち、この例(図28のBのh、i)では、hが27〔msec〕、iが25〔msec〕に伸長するので、音素長は2倍程度に伸長されるので、音切れが発生することがなく、聞き取り易さが高められる。
〔実施例4〕
実施例4の処理結果を示す波形について、図29及び図30を参照する。図29は比較例である音声合成波形を示す図、図30は、実施例4に係る音声合成波形を示す図である。図29において、Aは、標準速度の場合の波形であり、Bは、高速読み上げの場合の波形である。Aの標準速度の読み上げの場合のポーズ区間jは、Bの高速読み上げの場合には、ポーズ区間kに変化し、ポーズ区間の長さが話速に応じて短縮されている。
これに対し、図30において、Aは、第9の実施の形態(図16のフローチャート)の処理の標準速度の場合の波形であり、lはその場合のポーズ区間、Bは、高速読み上げに対応してポーズ長を話速による短縮よりも更に短縮した場合の波形であり、mがその場合のポーズ区間である。
図29のBのポーズ区間kと図30のBのポーズ区間mとを対比すれば、ポーズ区間が話速比例のポーズ区間よりも短縮され、音切れを発生させることなく、即ち、聞き取り易さを損なうことなく、読み上げ時間の短縮が図られる。
〔実施例5〕
実施例5の処理結果を示す波形について、図31を参照する。実施例1、2、4が日本語であるのに対し、実施例5は実施例3と同様に、英語文「ha ppy sho ck shoo t」を読み上げた場合である。
図31において、Aは、第9の実施の形態(図16のフローチャート)の処理の標準速度の場合の波形であり、n、oはその場合のポーズ区間、Bは、高速読み上げに対応してポーズを話速による短縮よりも更に短縮した場合の波形であり、p、qがその場合のポーズ区間である。
図31のAのポーズ区間n、oとBのポーズ区間p、qとを対比すれば、ポーズ区間が話速比例のポーズ区間よりも短縮され、音切れを発生させることなく、即ち、聞き取り易さを損なうことなく、読み上げ時間の短縮が図られる。
次に、以上述べた本発明の実施の形態から抽出される技術的思想を請求項の記載形式に準じて付記として列挙する。本発明に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本発明が限定されるものではない。
(付記1) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
前記文字データから音素の種類を判定する音素判定部と、
音素に読み上げ速度に応じた音素長を設定し、音素が前記文字データのポーズ直後の音素である場合に前記音素判定部の判定結果に基づき、ポーズ直後の前記音素の音素長を調整する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記2) 付記1の音声読み上げ装置において、
音素の読み上げ速度を判定する速度判定部を備え、前記音素長調整部は、前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合にはポーズ直後の音素が持つ音素長を伸長させることを特徴とする音声読み上げ装置。
斯かる構成によれば、ポーズ直後の音素長を伸長させるので、既述したように、読み上げ速度が高速になっても、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。
(付記3) 付記1の音声読み上げ装置において、
前記音素が摩擦音である場合に、前記音素長調整部は、前記音素判定部の判定結果に基づいて前記摩擦音の音素を伸長させることを特徴とする音声読み上げ装置。
斯かる構成によれば、表音文字列から摩擦音を選択し、その摩擦音の音素長を伸長させるので、聞き取り難さがなく、また、音切れ等の違和感を生じさせることがなく、音声の認識性が高められる。
(付記4) 付記1の音声読み上げ装置において、
呼気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、前記音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
(付記5) 付記1の音声読み上げ装置において、
読み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、前記音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする音声読み上げ装置。
(付記6) 付記1の音声読み上げ装置において、
前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮することを特徴とする音声読み上げ装置。
(付記7) 付記1の音声読み上げ装置において、
前記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除することを特徴とする音声読み上げ装置。
(付記8) 付記2の音声読み上げ装置において、
前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮することを特徴とする音声読み上げ装置。他の音素長は、母音、子音、促音等の音素長である。
(付記9) 付記3の音声読み上げ装置において、
前記音素長調整部は、前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮することを特徴とする音声読み上げ装置。他の音素長は、母音、子音、促音等の音素長である。
(付記10) 文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
前記文字データから音素の種類を判定する手順と、
音素に読み上げ速度に応じた音素長を設定する手順と、
音素が前記文字データのポーズ直後の音素である場合に前記判定の結果に基づき、ポーズ直後の前記音素の音素長を調整する手順と、
を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
(付記11) 付記10の音声読み上げプログラムにおいて、
音素の読み上げ速度を判定する手順と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合にはポーズ直後の音素が持つ音素長を伸長させる手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記12) 付記10の音声読み上げプログラムにおいて、
前記音素が摩擦音であるか否かを判定する手順と、
前記判定の結果に基づき、前記摩擦音の音素を伸長させる手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記13) 付記10の音声読み上げプログラムにおいて、
呼気段落の長さを演算する手順と、
前記音素長の調整分を前記演算の結果に基づき、前記呼気段落の各音素長を比例配分して増減させる手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記14) 付記10の音声読み上げプログラムにおいて、
読み上げ文章の長さを演算する手順と、
前記音素長の調整分を前記演算の結果に基づき、前記文章の各音素長を比例配分して増減させる手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記15) 付記10の音声読み上げプログラムにおいて、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮する手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記16) 付記10の音声読み上げプログラムにおいて、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記17) 付記11の音声読み上げプログラムにおいて、
前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記18) 付記12の音声読み上げプログラムにおいて、
前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する手順と、
を含むことを特徴とする音声読み上げプログラム。
(付記19) 文字データを音声に変換して読み上げる音声読み上げ方法であって、
前記文字データから音素の種類を判定する工程と、
音素に読み上げ速度に応じた音素長を設定する工程と、
音素が前記文字データのポーズ直後の音素である場合に前記判定の結果に基づき、ポーズ直後の前記音素の音素長を調整する工程と、
を備えることを特徴とする音声読み上げ方法。
(付記20) 付記19の音声読み上げ方法において、
音素の読み上げ速度を判定する工程と、
前記読み上げ速度の判定結果に基づき、前記読み上げ速度が高速の場合にはポーズ直後の音素が持つ音素長を伸長させる工程と、
を含むことを特徴とする音声読み上げ方法。
(付記21) 付記19の音声読み上げ方法において、
前記音素が摩擦音であるか否かを判定する工程と、
前記判定の結果に基づき、前記摩擦音の音素を伸長させる工程と、
を含むことを特徴とする音声読み上げ方法。
(付記22) 付記19の音声読み上げ方法において、
呼気段落の長さを演算する工程と、
前記音素長の調整分を前記演算の結果に基づき、前記呼気段落の各音素長を比例配分して増減させる工程と、
を含むことを特徴とする音声読み上げ方法。
(付記23) 付記19の音声読み上げ方法において、
読み上げ文章の長さを演算する工程と、
前記音素長の調整分を前記演算の結果に基づき、前記文章の各音素長を比例配分して増減させる工程と、
を含むことを特徴とする音声読み上げ方法。
(付記24) 付記19の音声読み上げ方法において、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮する工程と、
を含むことを特徴とする音声読み上げ方法。
(付記25) 付記19の音声読み上げ方法において、
読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する工程と、
を含むことを特徴とする音声読み上げ方法。
(付記26) 付記20の音声読み上げ方法において、
前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する工程と、
を含むことを特徴とする音声読み上げ方法。
(付記27) 付記21の音声読み上げ方法において、
前記音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する工程と、
を含むことを特徴とする音声読み上げ方法。
(付記28) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
読み上げ速度を判定する読み上げ速度判定部と、
前記読み上げ判定部の判定に基づき、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じて調整する調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記29) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
読み上げ速度を判定する読み上げ速度判定部と、
前記読み上げ判定部の判定に基づき、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除する調整部と、
を備えることを特徴とする音声読み上げ装置。
(付記30) 文字データを音声に変換して読み上げる音声読み上げ装置であって、
文字データから音素の種類を判定する音素判定部と、
前記音素判定部の判定に基づき、特定の音素の音素長を伸長させ、この音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮する音素長調整部と、
を備えることを特徴とする音声読み上げ装置。
以上説明したように、本発明の最も好ましい実施の形態等について説明したが、本発明は、上記記載に限定されるものではなく、特許請求の範囲に記載され、又は明細書に開示された発明の要旨に基づき、当業者において様々な変形や変更が可能であることは勿論であり、斯かる変形や変更が、本発明の範囲に含まれることは言うまでもない。
本発明は、文字データを音声に変換して読み上げる装置、プログラム及び方法に関し、文字データからポーズの存在を認識し、ポーズ直後の音素又は他の音素の音素長やポーズ長を制御し、読み上げ速度を高速化しても、合成音声の聞き取り易さを高めることができ、認識性の向上が図られるので、音声合成等の処理に有用である。
第1の実施の形態に係る音声読み上げ装置の構成例を示すブロック図である。 音声読み上げ装置の音素長制御部の構成例を示すブロック図である。 音声読み上げ装置を搭載した携帯端末装置の一例を示すブロック図である。 携帯端末装置の構成例を示す図である。 画面表示例を示す図である。 第1の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第2の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第3の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第4の実施の形態に係る音素長制御部を示すブロック図である。 第4の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第5の実施の形態に係る音素長制御部を示すブロック図である。 第5の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第6の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第7の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第8の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第9の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 第10の実施の形態に係る音声読み上げ装置のパラメータ生成部の構成例を示すブロック図である。 第10の実施の形態に係る音素長制御の処理手順の一例を示すフローチャートである。 話速調整部を備えるパラメータ生成部を示すブロック図である。 音素長制御の処理手順の一例を示すフローチャートである。 言語処理結果を示す図である。 音素長の生成例を示す図である。 音素長の生成例を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。 音声合成波形を示す図である。
符号の説明
2 音声読み上げ装置
24 音素長調整部
26 話速判定部
28 音素判定部
30 呼気段落長演算部
32 文章全体長演算部
34 区切り変更部
200 携帯端末装置

Claims (10)

  1. 文字データを音声に変換して読み上げる音声読み上げ装置であって、
    前記文字データから音素の種類を判定する音素判定部と、
    音素の読み上げ速度を判定する速度判定部と、
    音素に読み上げ速度に応じた音素長を設定し、前記読み上げ速度の判定結果が高速の場合には、前記音素判定結果が前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する音素長調整部と、
    を備えることを特徴とする音声読み上げ装置。
  2. 気段落の長さを演算する呼気段落演算部を備え、前記音素長調整部は、音素長の調整分を前記呼気段落演算部の演算結果に基づき、前記呼気段落の各音素長を比例配分して増減させることを特徴とする請求項1の音声読み上げ装置。
  3. み上げ文章の長さを演算する文章演算部を備え、前記音素長調整部は、音素長の調整分を前記文章演算部の演算結果に基づき、前記文章の各音素長を比例配分して増減させることを特徴とする請求項1または2の音声読み上げ装置。
  4. 記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズが持つポーズ長を前記読み上げ速度に応じた長さより短縮することを特徴とする請求項1ないし3の音声読み上げ装置。
  5. 記音素長調整部は、読み上げ速度が高速の場合、前記文字データ中の一部又は全部のポーズを削除することを特徴とする請求項1ないし4の音声読み上げ装置。
  6. 記音素長調整部は、音素長の伸長に対応し、ポーズ長を含む他の音素長を短縮することを特徴とする請求項1ないし5の音声読み上げ装置。
  7. 文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
    前記文字データから音素の種類を判定する手順と、
    音素の読み上げ速度を判定する手順と、
    音素に読み上げ速度に応じた音素長を設定する手順と、
    読み上げ速度が高速である場合に、前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する手順と、
    を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
  8. 文字データを音声に変換して読み上げる音声読み上げ方法であって、
    前記文字データから音素の種類を判定する工程と、
    音素の読み上げ速度を判定する工程と、
    音素に読み上げ速度に応じた音素長を設定する工程と、
    読み上げ速度が高速である場合に、前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する工程と、
    を備えることを特徴とする音声読み上げ方法。
  9. 文字データを音声に変換して読み上げる音声読み上げ装置であって、
    前記文字データから音素の種類を判定する音素判定部と、
    音素の読み上げ速度を判定する速度判定部と、
    音素に読み上げに応じた音素長を設定し、前記読み上げ速度の判定結果が標準的な話速よりも速い速度の場合には、前記音素判定結果が前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する音素長調整部と、
    を備えることを特徴とする音声読み上げ装置。
  10. 文字データを音声に変換して読み上げる手順をコンピュータに実行させる音声読み上げプログラムであって、
    前記文字データから音素の種類を判定する手順と、
    音素の読み上げ速度を判定する手順と、
    音素に読み上げ速度に応じた音素長を設定する手順と、
    読み上げ速度が標準的な話速よりも速い速度である場合に、前記文字データのポーズ直後の音素について前記ポーズ直後の音素以外の音素よりも音素長を長く伸長する手順と、
    を前記コンピュータに実行させることを特徴とする音声読み上げプログラム。
JP2007167018A 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法 Expired - Fee Related JP5029167B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2007167018A JP5029167B2 (ja) 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法
EP08157671.2A EP2009622B1 (en) 2007-06-25 2008-06-05 Phoneme length adjustment for speech synthesis
US12/213,792 US20080319755A1 (en) 2007-06-25 2008-06-24 Text-to-speech apparatus
KR1020080059876A KR101005949B1 (ko) 2007-06-25 2008-06-24 음성 읽어내기를 위한 장치, 기록 매체 및 방법
CN2008101248916A CN101334994B (zh) 2007-06-25 2008-06-25 文本到语音设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007167018A JP5029167B2 (ja) 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2009003394A JP2009003394A (ja) 2009-01-08
JP5029167B2 true JP5029167B2 (ja) 2012-09-19

Family

ID=39688882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007167018A Expired - Fee Related JP5029167B2 (ja) 2007-06-25 2007-06-25 音声読み上げのための装置、プログラム及び方法

Country Status (5)

Country Link
US (1) US20080319755A1 (ja)
EP (1) EP2009622B1 (ja)
JP (1) JP5029167B2 (ja)
KR (1) KR101005949B1 (ja)
CN (1) CN101334994B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102124523B (zh) 2008-07-04 2014-08-27 布克查克控股有限公司 制作并播放音带的方法和系统
JP5376643B2 (ja) * 2009-03-25 2013-12-25 Kddi株式会社 音声合成装置、方法およびプログラム
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
JP5533377B2 (ja) * 2010-07-13 2014-06-25 富士通株式会社 音声合成装置、音声合成プログラムおよび音声合成方法
US8930192B1 (en) * 2010-07-27 2015-01-06 Colvard Learning Systems, Llc Computer-based grapheme-to-speech conversion using a pointing device
DE102010061945A1 (de) * 2010-11-25 2012-05-31 Siemens Medical Instruments Pte. Ltd. Verfahren zum Betrieb eines Hörgeräts und Hörgerät mit einer Dehnung von Reibelauten
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
CN103782342B (zh) 2011-07-26 2016-08-31 布克查克控股有限公司 电子文本的声道
JP6127371B2 (ja) * 2012-03-28 2017-05-17 ヤマハ株式会社 音声合成装置および音声合成方法
US9311932B2 (en) 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
TWI582755B (zh) * 2016-09-19 2017-05-11 晨星半導體股份有限公司 文字轉語音方法及系統
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及系统
CN108305611B (zh) * 2017-06-27 2022-02-11 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备
JP7339124B2 (ja) * 2019-02-26 2023-09-05 株式会社Preferred Networks 制御装置、システム及び制御方法
WO2020181234A1 (en) 2019-03-07 2020-09-10 Yao-The Bard, Llc. Systems and methods for transposing spoken or textual input to music
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
CN112420015B (zh) * 2020-11-18 2024-07-19 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质
CN113674731A (zh) * 2021-05-14 2021-11-19 北京搜狗科技发展有限公司 语音合成处理方法、装置和介质
EP4293660A4 (en) 2021-06-22 2024-07-17 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND ITS CONTROL METHOD
CN113781997B (zh) * 2021-09-22 2024-07-23 联想(北京)有限公司 语音合成方法及电子设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6147991A (ja) * 1984-08-14 1986-03-08 日本電気株式会社 音声の時間長デ−タ生成装置
JPH01118200A (ja) * 1987-10-30 1989-05-10 Fujitsu Ltd 音声合成方式
JP3113101B2 (ja) 1992-11-09 2000-11-27 株式会社東芝 音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3219892B2 (ja) * 1993-04-05 2001-10-15 日本放送協会 リアルタイム話速変換装置
JPH0772896A (ja) * 1993-09-01 1995-03-17 Sanyo Electric Co Ltd 音声の圧縮伸長装置
JPH07140996A (ja) * 1993-11-16 1995-06-02 Fujitsu Ltd 音声規則合成装置
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
JPH08171394A (ja) * 1994-12-19 1996-07-02 Fujitsu Ltd 音声合成装置
KR0144157B1 (ko) * 1995-01-25 1998-07-15 조백제 휴지기 길이 조절을 이용한 발음속도 조절 방법
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2001222300A (ja) * 2000-02-08 2001-08-17 Nippon Hoso Kyokai <Nhk> 音声再生装置および記録媒体
JP3937688B2 (ja) * 2000-05-10 2007-06-27 ヤマハ株式会社 話速変換方法および話速変換装置
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP2005242231A (ja) * 2004-02-27 2005-09-08 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP2006154531A (ja) * 2004-11-30 2006-06-15 Matsushita Electric Ind Co Ltd 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
JP4580297B2 (ja) * 2005-07-13 2010-11-10 パナソニック株式会社 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路

Also Published As

Publication number Publication date
CN101334994A (zh) 2008-12-31
KR20080114571A (ko) 2008-12-31
KR101005949B1 (ko) 2011-01-05
EP2009622A1 (en) 2008-12-31
EP2009622B1 (en) 2015-09-02
CN101334994B (zh) 2011-08-03
JP2009003394A (ja) 2009-01-08
US20080319755A1 (en) 2008-12-25

Similar Documents

Publication Publication Date Title
JP5029167B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP4973337B2 (ja) 音声読み上げのための装置、プログラム及び方法
JP5029168B2 (ja) 音声読み上げのための装置、プログラム及び方法
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US8504368B2 (en) Synthetic speech text-input device and program
JP5198046B2 (ja) 音声処理装置及びそのプログラム
EP2645363B1 (en) Sound synthesizing apparatus and method
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4953767B2 (ja) 音声生成装置
JP3838193B2 (ja) 文章読み上げ装置、同装置のためのプログラム及び記録媒体
JP2002304186A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2000310995A (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
JPH0934490A (ja) 音声合成装置および音声合成方法、ナビゲーションシステム、並びに記録媒体
JP3870583B2 (ja) 音声合成装置および記憶媒体
JP2003005774A (ja) 音声合成装置
JP2001282274A (ja) 音声合成装置及びその制御方法及び記憶媒体
JPH10177396A (ja) 音声合成装置及び発音訓練装置
JPH08211896A (ja) 音声合成編集方式および装置
JPH08202381A (ja) 音声合成装置
JPH02285400A (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120611

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5029167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees