JPH08335096A - テキスト音声合成装置 - Google Patents

テキスト音声合成装置

Info

Publication number
JPH08335096A
JPH08335096A JP7140210A JP14021095A JPH08335096A JP H08335096 A JPH08335096 A JP H08335096A JP 7140210 A JP7140210 A JP 7140210A JP 14021095 A JP14021095 A JP 14021095A JP H08335096 A JPH08335096 A JP H08335096A
Authority
JP
Japan
Prior art keywords
style
duration
speech
phoneme
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7140210A
Other languages
English (en)
Inventor
Kaoru Tsukamoto
薫 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7140210A priority Critical patent/JPH08335096A/ja
Publication of JPH08335096A publication Critical patent/JPH08335096A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 発話スタイル別テーブルを基本のテーブル
と、組合せることによって、より自然な発話スタイルで
読み上げることのできるテキスト音声合成装置を提供す
る。 【構成】 入力された文字情報を音声信号に変換するテ
キスト音声合成装置において、発話スタイル指定部17
には、通常スタイルと、朗読スタイル、会話スタイル等
を用意した継続時間テーブルの指定スイッチが設けられ
ている。合成パラメータ生成部13は、音韻記号列に基
づいて、対応する音声素片データを音声素片データ記憶
部14から取り出し、テキストの音韻環境や、アクセン
ト情報から、継続時間テーブル16を参照して継続時間
を決定し、パワーや基本周波数パターンといった、音声
合成用パラメータを生成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力された文字列情報
に基づき、音声を合成して出力するテキスト音声合成装
置に関する。
【0002】
【従来の技術】文字情報(例えば、テキストデータ)を
入力して、それを音声に変換して出力する音声合成装置
は、出力語彙の制限が無いことから、録音再生型の音声
合成技術にとって代わる音声合成技術として種々の利用
分野での応用が期待できる。例えば、ワードプロセッサ
等で作成されたテキストデータを、音声に変換し出力さ
せたり、また、テキストを編集するだけで、簡単に応答
メッセージを作成、変更することができるので、電話等
の通信サービス等でも利用できる。
【0003】図5は従来のテキスト音声合成装置の機能
的構成を示すブロック図であり、日本語(漢字かな混じ
り文)を入力としたテキスト音声合成装置(日本語テキ
スト音声変換)の構成ブロック図を示している。以下、
この図5を参照しながら、従来のテキスト音声合成装置
の概要を説明する。
【0004】図5において、テキスト解析部101で
は、発音辞書102を利用して、文字情報入力部100
より入力された漢字かな混じり文から、音韻韻律記号列
を生成する。ここで音韻韻律記号列とは、入力文の読
み、アクセント、イントネーション等を文字列として記
述したもので、中間言語と呼ばれる。各単語の読みとア
クセントは発音辞書102に登録されており、テキスト
解析部101は、この発音辞書102を参照しながら、
音韻韻律記号列を生成する。
【0005】合成パラメータ生成部103では、音韻韻
律記号列に基づき、音声素片(音の種類)を取り出し、
予め定められた規則より、音韻継続時間(音の長さ)、
基本周波数(声の高さ)パターンといった音声合成用の
パラメータ(合成パラメータと呼ぶ)を生成する。この
内、音声素片は、単語等を発生した時の発声データから
分析生成されるもので、合成のための音声の基本単位で
あり、これらを重ね合わせていくことによって、合成波
形が生成される。
【0006】なお、以下では、CV(子音−母音)、V
CV(母音−子音−母音)等の音声の基本要素の組み合
わせ自体を音声単位と呼び、その音声単位の波形を実現
する要素を音声素片と呼ぶ。各音声単位は、例えば、複
数の音声素片でなる組に対応する。音声素片データは、
ROM等でなる音声素片データ記憶部104に格納され
ており、合成パラメータ生成部103は、音韻韻律記号
列から音声単位を認識して対応する音声素片データを取
り出す。
【0007】音声合成部105は、合成パラメータ生成
部103で生成した合成パラメータに基づいて、合成波
形(音声信号)を生成する。このような合成音声信号
が、スピーカー106を通して音声出力されたり、回線
を介して他の装置に伝送されたりする。第2の従来例と
して、第1の従来例では、予め定められた規則により、
音韻継続時間等の合成パラメータを決定していたが、自
然性を高めるために、実音声の音韻を音韻環境毎に分析
した結果を統計処理したものを用いて音韻継続時間を与
える方法がある(例えば、特開平3─161800号公
報参照)。
【0008】
【発明が解決しようとする課題】しかしながら、第1の
従来例においては、音韻継続時間は、入力されたテキス
トが変換された音韻記号列によって、予め定められた規
則によって与えられるものであり、自然音声の継続時間
に比べると、単調である。また、第2の従来例において
も、1つの継続時間テーブルを用いるだけでは、論文、
小説、会話等の多様な発話スタイルを自然に表現できな
い、という問題があった。
【0009】また、たとえ、複数の口調のデータを集め
て、継続時間テーブルをそれぞれについて作成しても、
継続時間テーブルの作成には、音声データの収集、デー
タのラベリングに莫大な手間と費用がかかるため、十分
な効果を上げるものを個別に作るのは、非常に困難であ
った。本発明は、自然音声を分析して得られた共通の読
み上げモードの継続時間テーブルの他に、朗読調や会話
調等の発話スタイル毎に、特徴的な言い回しにおける継
続時間テーブルを効果的に複数用意し、この発話スタイ
ル別テーブルを基本のテーブルと、組合せることによっ
て、より自然な発話スタイルで読み上げることのできる
テキスト音声合成装置を提供することを目的とする。
【0010】
【課題を解決するための手段】本発明は、上記目的を達
成するために、入力された文字情報を音声信号に変換す
るテキスト音声合成装置において、標準的な読み上げ口
調で発声された連続音声を分析して得られた音韻環境に
おける共通の通常読み上げスタイル音韻継続時間テーブ
ルと、種々の発話スタイルにおける特徴を記述した複数
の音韻継続時間テーブルと、前記発話スタイルを選択す
る発話スタイル指定部と、入力された文字情報が変換さ
れた音韻列に従って音声単位を選択し、前記音韻列にお
ける音韻環境やアクセント等の韻律情報により、前記発
話スタイル指定部によって指定された継続時間テーブル
と前記共通の通常読み上げスタイル音韻継続時間テーブ
ルから音韻継続時間を決定し、ピッチやパワー等の合成
パラメータを生成する合成パラメータ生成部を設けるよ
うにしたものである。
【0011】
【作用】本発明によれば、上記したように、連続発声さ
れた自然音声を、先行、後続の数音韻と当該音韻の違い
によって分析し、生成された継続時間テーブルに加え、
発話スタイル別に複数の継続時間特徴テーブルを備え、
入力された文字情報が変換された音韻列に従って、音声
単位を選択し、この音韻列における音韻環境や、アクセ
ント等の韻律情報により、基本の継続時間テーブルと発
話スタイル指定部によって指定された継続時間テーブル
から音韻継続時間を決定する音声パラメータ決定手段を
設ける。
【0012】したがって、複数の発話スタイルに特徴的
な継続時間を基本の継続時間テーブルに合わせ持ち、発
話スタイル指定部(切り替えスイッチ)を備えることに
より、文章に合わせた発話スタイルで、より自然な合成
音を生成することができる。また、頻出頻度の低い音韻
継続時間と、差の出にくい音韻継続時間テーブルを通常
スタイルと共通化することにより、作成に要する手間を
省き、テーブルの冗長化を防ぐことが可能である。
【0013】したがって、各発話スタイルの継続時間テ
ーブルは、基本の継続時間テーブルに対して、各々の口
調での文末によく使われる音韻等、頻出頻度を考慮した
特徴的な部分を持つだけで、所望の発話スタイルを実現
することができる。
【0014】
【実施例】以下、本発明の実施例について図面を参照し
ながら詳細に説明する。図1は本発明の実施例のテキス
ト音声合成装置の機能的構成を示すブロック図である。
図1において、このテキスト音声合成装置は、文字情報
入力部10、テキスト解析部11、発音辞書12、合成
パラメータ生成部13、音声素片データ記憶部14、音
声合成部15、複数の継続時間テーブル16、発話スタ
イル指定部(発話スタイル指定スイッチ内蔵)17から
なる。
【0015】ここで、文字情報入力部10、テキスト解
析部11、発音辞書12、音声素片データ記憶部14及
び音声合成部15は、前記した従来のテキスト音声合成
装置と対応しており、同一の動作を行うものであり、こ
こでは説明は省略する。この実施例の場合、合成パラメ
ータ生成部13が利用する継続時間テーブル16には、
複数種類の口調で自然に発声された音声データから分析
生成された、それぞれの継続時間テーブルが格納されて
いる。
【0016】発話スタイル指定部17には、通常スタイ
ルと、朗読スタイル、会話スタイル等を用意した継続時
間テーブルの指定スイッチが設けられている。合成パラ
メータ生成部13は、音韻記号列に基づいて、対応する
音声素片データを音声素片データ記憶部14から取り出
し、テキストの音韻環境や、アクセント情報から、継続
時間テーブル16を参照して継続時間を決定し、パワー
や基本周波数パターンといった、音声合成用パラメータ
を生成する。
【0017】以上のように機能する各部よりなる実施例
のテキスト音声合成装置は、全体を通しては、図2のフ
ローチャートに示すように動作する。 (1)まず、文字情報(漢字かな混じり文等の、テキス
トデータ)を入力する(ステップS201)。 (2)次に、その文字情報を解析して、1フレーズ毎
に、音韻韻律記号列に変換する(ステップS202)。
【0018】(3)次に、音韻韻律記号列に従って、音
声素片データ記憶部14より、順次使用する音声素片を
取り出す(ステップS203)。 (4)次に、フレーズ毎に、音韻韻律記号列と発話スタ
イルの指定に基づいて、継続時間テーブルを参照し、そ
れぞれの音韻の継続時間を決定する(ステップS20
4)。
【0019】(5)次に、韻律パラメータ(音韻継続時
間、基本周波数パターン、パワー等を規定するパラメー
タ)を生成する(ステップS205)。 (6)以上のようにして、韻律パラメータと音声素片デ
ータからなる合成パラメータが決定されると、音声信号
を合成する(ステップ206)。 (7)その合成された音声信号を出力する(ステップ2
07)。
【0020】なお、出力方法は、スピーカからの出力で
も、回線を通じた他の装置への伝送でも良い。次に、具
体例によって、その継続時間テーブル16を用いて、音
韻継続時間を決定する様子(ステップ204)を説明す
る。ここでは、入力文を“これは、音声合成装置で
す。”として、モードとしては、通常の読み上げモード
が指定されているとする。また、本発明は、合成単位を
問わないが、ここでは、VCV単位を用いて説明する。
【0021】この入力文を、テキスト解析部11によっ
て、図3に示すように、P1コレワ、P2オンセーゴー
セーソーチデスP0。と解析される。テキスト解析部1
1では、このように、発音辞書12を参照しながら、入
力文を、音韻韻律記号列に変換する。また、ここでは、
必要に応じて、文頭や文中、文末に、フレーズ記号(P
0、P1、P2等)を挿入する。これらのフレーズ記号
は、文頭や、文中、文末における、フレーズの立ち上が
りを示すものである。
【0022】まず、第1フレーズである「コレワ」につ
いて、合成パラメータ生成部13は、音韻記号列に基づ
いて、音声単位を抜き出し、対応する音声素片データを
音声素片データ記憶部14から取り出す。VCV音声単
位では、/ko/、/ore/、/ewa/の3個の音
声単位に相当する音声素片が取り出される。次いで、継
続時間テーブル16を参照し、各々の音韻の継続時間を
決定する。各々の音韻環境は表1のようになっている。
【0023】
【表1】
【0024】この音韻環境をもとに、音韻環境ごとに分
類されて継続時間が記述されている継続時間テーブル1
6を参照して、音韻環境が一致したものを継続時間とし
て決定する。音韻環境をどこまで参照されるかは、その
音韻の頻出頻度に依存し、使用頻度の高いものほど、詳
しく分類、参照される。ところで、ここまでは、通常の
継続時間テーブルを用いた合成方法と同じであるが、本
発明においては、好みの発話スタイルを発話スタイル指
定部17によって指定することができる。
【0025】図4は本発明における好みの発話スタイル
の構成の説明図である。この図に示すように、読み上げ
スタイル継続時間テーブル21を共通のテーブルとし、
この共通のテーブルに、発話スタイル指定部17によっ
て指定された発話スタイル別テーブル30、例えば、朗
読スタイルテーブル31、会話スタイルテーブル32、
アナウンススタイルテーブル33等を組み合わせる。
【0026】このように構成することにより、発話スタ
イル別テーブルは通常読み上げスタイル継続時間テーブ
ルを補強し、それぞれの読み上げ特徴を出すことができ
る。ここでは、朗読スタイルを指定した場合について説
明する。朗読スタイル継続時間テーブルの作成方法であ
るが、アナウンサーなどによって、朗読された音声を音
韻環境ごとに分析して生成された音韻継続時間テーブル
と、通常モードの音韻継続時間テーブルを比較し、例え
ば、音韻頻出頻度が2倍以上であるか、継続時間調の差
が5msec以上であるような環境の音韻データだけを
選び出してそれを朗読調継続時間テーブルとした。つま
り、朗読調に特徴的な部分だけ残し、他は共通とする。
これは、他の発話スタイルの継続時間テーブルについて
も同様であり、発話スタイル別継続時間テーブルは、そ
の方面で頻出頻度の高い語句や、文末の言い回しを中心
にデータ収集をして作成され、通常スタイルの継続時間
テーブルに付加して使用される。
【0027】このように、頻出頻度の低い音韻継続時間
と、差の出にくい音韻継続時間を共通化したことで、作
成に要する手間を省き、テーブルの冗長化を防ぐことが
可能になった。朗読スタイルが指定された際には、ま
ず、テキストの音韻環境から、朗読スタイル時間調継続
時間テーブルを検索し、音韻環境が一致するものがあれ
ばそれを継続時間とし、なければ通常読み上げの継続時
間テーブル上のデータを継続時間とする。朗読スタイル
に特徴的な音韻は、朗読スタイル継続時間テーブルから
選ばれるようにデータが作成されているため、朗読スタ
イルの特徴を出した読み上げを行うことができる。さら
に、似たような、または頻度の低い音韻についてのデー
タを重複して持つ必要がなく、拡張するテーブルは小さ
いので、選択された発話スタイルが変わる度に、全ての
継続時間テーブルを読み込み直す必要もなく、検索処理
も容易である。
【0028】なお、本発明は上記実施例に限定されるも
のではなく本発明の範囲から排除するものではない。
【0029】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、以下のような効果を奏することができる。 (1)複数の発話スタイルに特徴的な継続時間を基本の
継続時間テーブルに合わせ持ち、発話スタイル指定部
(切り替えスイッチ)を備えたことで、文章に合わせた
発話スタイルで、より自然な合成音を生成することがで
きる。
【0030】また、頻出頻度の低い音韻継続時間と、差
の出にくい音韻継続時間テーブルを通常スタイルと共通
化したことにより、作成に要する手間を省き、テーブル
の冗長化を防ぐことが可能である。したがって、各発話
スタイルの継続時間テーブルは、基本の継続時間テーブ
ルに対して、各々の口調での文末によく使われる音韻
等、頻出頻度を考慮した特徴的な部分を持つだけで、所
望の発話スタイルを実現することができる。
【0031】(2)発話スタイルのみならず、個人別特
徴や、方言などの地方別特徴のある音韻継続時間テーブ
ルを作成するときにも有効である。その際は、音韻の継
続時間に加え、ピッチパターンテーブルも付加すると、
さらに個性のある合成音が生成できる。
【図面の簡単な説明】
【図1】本発明の実施例のテキスト音声合成装置の機能
的構成を示すブロック図である。
【図2】本発明の実施例のテキスト音声合成装置の動作
フローチャートである。
【図3】入力文の例を示す図である。
【図4】本発明における好みの発話スタイルの構成の説
明図である。
【図5】従来のテキスト音声合成装置の機能的構成を示
すブロック図である。
【符号の説明】 10 文字情報入力部 11 テキスト解析部 12 発音辞書 13 合成パラメータ生成部 14 音声素片データ記憶部 15 音声合成部 16 継続時間テーブル 17 発話スタイル指定部(発話スタイル指定スイッ
チ内蔵) 21 読み上げスタイル継続時間テーブル(共通) 30 指定された発話スタイル別テーブル 31 朗読スタイルテーブル 32 会話スタイルテーブル 33 アナウンススタイルテーブル

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力された文字情報を音声信号に変換す
    るテキスト音声合成装置において、(a)標準的な読み
    上げ口調で発声された連続音声を分析して得られた音韻
    環境における共通の通常読み上げスタイル音韻継続時間
    テーブルと、(b)種々の発話スタイルにおける特徴を
    記述した複数の音韻継続時間テーブルと、(c)前記発
    話スタイルを選択する発話スタイル指定部と、(d)入
    力された文字情報が変換された音韻列に従って音声単位
    を選択し、前記音韻列における音韻環境やアクセント等
    の韻律情報により、前記発話スタイル指定部によって指
    定された継続時間テーブルと前記共通の通常読み上げス
    タイル音韻継続時間テーブルから音韻継続時間を決定
    し、ピッチやパワー等の合成パラメータを生成する合成
    パラメータ生成部を備えたことを特徴とするテキスト音
    声合成装置。
JP7140210A 1995-06-07 1995-06-07 テキスト音声合成装置 Pending JPH08335096A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7140210A JPH08335096A (ja) 1995-06-07 1995-06-07 テキスト音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7140210A JPH08335096A (ja) 1995-06-07 1995-06-07 テキスト音声合成装置

Publications (1)

Publication Number Publication Date
JPH08335096A true JPH08335096A (ja) 1996-12-17

Family

ID=15263486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7140210A Pending JPH08335096A (ja) 1995-06-07 1995-06-07 テキスト音声合成装置

Country Status (1)

Country Link
JP (1) JPH08335096A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980065482A (ko) * 1997-01-10 1998-10-15 김광호 스피킹 스타일을 변경하는 음성 합성 방법
JP2002027177A (ja) * 2000-07-10 2002-01-25 Noritsu Koki Co Ltd 音声・画像処理装置
KR20020026228A (ko) * 2002-03-02 2002-04-06 백수곤 실시간 음성 변환
JP2003005775A (ja) * 2001-06-26 2003-01-08 Oki Electric Ind Co Ltd テキスト音声変換装置における高速読上げ制御方法
WO2003028010A1 (en) * 2001-09-25 2003-04-03 Motorola, Inc. Text-to-speech native coding in a communication system
JP2006098695A (ja) * 2004-09-29 2006-04-13 Clarion Co Ltd 音声合成装置、制御方法、制御プログラム及び記録媒体
JP2008015424A (ja) * 2006-07-10 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980065482A (ko) * 1997-01-10 1998-10-15 김광호 스피킹 스타일을 변경하는 음성 합성 방법
JP2002027177A (ja) * 2000-07-10 2002-01-25 Noritsu Koki Co Ltd 音声・画像処理装置
JP2003005775A (ja) * 2001-06-26 2003-01-08 Oki Electric Ind Co Ltd テキスト音声変換装置における高速読上げ制御方法
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
WO2003028010A1 (en) * 2001-09-25 2003-04-03 Motorola, Inc. Text-to-speech native coding in a communication system
US6681208B2 (en) 2001-09-25 2004-01-20 Motorola, Inc. Text-to-speech native coding in a communication system
KR20020026228A (ko) * 2002-03-02 2002-04-06 백수곤 실시간 음성 변환
JP2006098695A (ja) * 2004-09-29 2006-04-13 Clarion Co Ltd 音声合成装置、制御方法、制御プログラム及び記録媒体
JP4684609B2 (ja) * 2004-09-29 2011-05-18 クラリオン株式会社 音声合成装置、制御方法、制御プログラム及び記録媒体
JP2008015424A (ja) * 2006-07-10 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4648878B2 (ja) * 2006-07-10 2011-03-09 日本電信電話株式会社 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム

Similar Documents

Publication Publication Date Title
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US11763797B2 (en) Text-to-speech (TTS) processing
US10699695B1 (en) Text-to-speech (TTS) processing
US6212501B1 (en) Speech synthesis apparatus and method
JP5198046B2 (ja) 音声処理装置及びそのプログラム
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP2003271194A (ja) 音声対話装置及びその制御方法
JPH08335096A (ja) テキスト音声合成装置
JPH0887297A (ja) 音声合成システム
JP2000187495A (ja) 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP3060276B2 (ja) 音声合成装置
EP1589524B1 (en) Method and device for speech synthesis
JPH06318094A (ja) 音声規則合成装置
JP2536169B2 (ja) 規則型音声合成装置
JP3575919B2 (ja) テキスト音声変換装置
JP2703253B2 (ja) 音声合成装置
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JP2577372B2 (ja) 音声合成装置および方法
EP1640968A1 (en) Method and device for speech synthesis
JP3292218B2 (ja) 音声メッセージ作成装置
KR100269215B1 (ko) 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법
JPH08160990A (ja) 音声合成装置
JP2003108170A (ja) 音声合成学習方法および音声合成学習装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030610