JP2000187494A - 音声合成方法および音声合成装置 - Google Patents

音声合成方法および音声合成装置

Info

Publication number
JP2000187494A
JP2000187494A JP10363464A JP36346498A JP2000187494A JP 2000187494 A JP2000187494 A JP 2000187494A JP 10363464 A JP10363464 A JP 10363464A JP 36346498 A JP36346498 A JP 36346498A JP 2000187494 A JP2000187494 A JP 2000187494A
Authority
JP
Japan
Prior art keywords
intermediate code
speech
generating
pause
input text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10363464A
Other languages
English (en)
Inventor
Shigeki Aoshima
滋樹 青島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP10363464A priority Critical patent/JP2000187494A/ja
Publication of JP2000187494A publication Critical patent/JP2000187494A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 漢字かな混じりテキストから合成した音声を
聞き取りやすくする。 【解決手段】 漢字かな混じり入力テキストから規則音
声合成入力用の中間コードを生成し、中間コードから合
成音声を生成する。中間コードは、読み情報とともに、
ポーズ情報を含んでいる。従来はポーズの取り方が荒か
ったが、これを改良することにより、中間コードから合
成した音声が聞き取り易くなる。例えば、連接単語の構
成単語毎にポーズを設定する。また、ローマ字表記の短
縮記号部分では、各ローマ字毎にポーズを設定する。ま
た、入力テキストの中の助詞の前後にポーズを設定す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ニュース文のよう
な漢字かな混じり文から規則音声合成処理により合成音
声を生成する方法に関する。本発明は、特に、規則音声
合成入力用の中間コード生成のポーズ設定規則の改良に
よって、合成音声を聞き取りやすくする方法に関する。
【0002】
【従来の技術】新聞記事などの日本語文章には漢字およ
びかなが混じっている。日本語文章を対象とする音声合
成については、例えば、特開平7−244495号公報
に開示されている。
【0003】漢字およびかなが混じった入力テキスト
(入力文)を読み上げる合成音声を生成する場合、ま
ず、入力テキストに対して言語処理が行われて、規則音
声合成入力用の中間コード(以下、単に中間コードとい
う)が生成される。そして、中間コードに対して規則音
声合成処理が行われて合成音声が生成される。
【0004】中間コードは、いわゆる発音記号に相当す
るものであり、入力テキストの読みの情報を含み、さら
に、アクセント句、ポーズ(無音区間)といった韻律情
報を含んでいる。図23は、従来の言語処理によって生
成される中間コードの例を示している。図中のアルファ
ベットは、入力テキストに対してふられた読みである。
「 ’」はアクセントの位置を示す。また、コード中の
数字は、ポーズの位置と長さを示している。ポーズの数
字が大きいほど、ポーズの長さが長い。
【0005】
【発明が解決しようとする課題】中間コードにおいて、
ポーズ情報は、自然な音声を生成するための重要な要素
の一つである。ポーズ情報は、入力テキストの解析結果
に基づき、予め定めた規則に従って設定される。従来の
ポーズ設定規則では、単語境界(連接単語は一塊として
扱う)、アクセント句境界、フレーズ句境界、文節境
界、文終端のみにポーズが設定される。すなわち、従来
のポーズ(図23において「3」以上の長さをもつポー
ズ)は、アクセント句(「山梨県の」など)を最小単位
として設定される。また、単語境界ポーズ(短ポーズ、
図23の「1」または「2」の長さをもつポーズ)は、
連接単語(「中央線の」など)を最小単位として設定さ
れる。例えば、上記の特開平7−244495号公報で
は、入力テキストがアクセント句毎に区切られ、アクセ
ント句の間にポーズが挿入される。
【0006】しかし、上記の方法ではポーズの取り方が
荒いために、中間コードを合成音声に変換したときに、
単語の聞き取り、および、文章の内容把握が比較的困難
になり、ユーザにとって文章の聞き取りが困難になるこ
とがある。図23に例示した中間コードから合成した音
声を実際に出力した場合、合成音声は、人間が普通に読
み上げた音声と大きく異なって聞こえる。
【0007】本発明は上記課題に鑑みてなされたもので
あり、その目的は、ポーズ設定処理を改良することによ
り、聞き取り易さを向上できる音声合成方法および音声
合成装置を提供することにある。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、下記に示すようにして中間コードのポー
ズを設定する。なお、本発明において、「単語境界ポー
ズ(短ポーズ)」は、単語の境界などに用いるのに適し
た短いポーズであり;「中ポーズ」は、単語境界ポーズ
と長ポーズの間の長さをもつポーズであり;「長ポー
ズ」は、比較的長めに設定されたポーズであり、すなわ
ち、中間ポーズよりは長く、文終端ポーズに近いが、文
終端ポーズよりは短い長さをもつポーズであり;「文終
端ポーズ」は、文の終端に用いるのに適した最も長いポ
ーズである。
【0009】(1)本発明の一態様は、中間コードの生
成の際、入力テキスト中の連接単語の構成単語毎にポー
ズを設定することを特徴とする。
【0010】(2)本発明の一態様は、中間コードの生
成の際、入力テキスト中のローマ字表記の短縮記号部分
では、各ローマ字毎にポーズを設定することを特徴とす
る。
【0011】(3)本発明の一態様は、中間コードの生
成の際、入力テキスト中の助詞の前後にポーズを設定す
ることを特徴とする。
【0012】(4)本発明の一態様は、中間コードの生
成の際、入力テキスト中のフレーズ句境界に対して長ポ
ーズを設定することを特徴とする。
【0013】(5)本発明の一態様は、中間コードの生
成の際、入力テキスト中の複文の境界に対して文終端ポ
ーズを設定することを特徴とする。
【0014】(6)本発明の一態様は、中間コードの生
成の際、入力テキストが重文である場合に、重文の入れ
子部分の前後に対して文終端ポーズを設定することを特
徴とする。
【0015】(7)本発明の一態様は、中間コードの生
成の際、入力テキストが括弧を含み、括弧の中に文節が
入る場合に、括弧の前後に文終端ポーズを設定すること
を特徴とする。
【0016】(8)本発明の一態様は、中間コードの生
成の際、入力テキストが括弧を含み、括弧の中に単語ま
たはアクセント句が入る場合に、括弧の前に長ポーズを
設定するとともに、括弧の後ろに単語が掛かる場合には
括弧の後ろに単語境界ポーズを設定することを特徴とす
る。
【0017】(9)本発明の一態様は、中間コードの生
成の際、入力テキストがスポーツ結果を含む場合に、ス
ポーツ結果の各項目の後に文終端ポーズを設定すること
を特徴とする。
【0018】(10)本発明の一態様は、中間コードの
生成の際、入力テキストがスポーツ結果を含む場合に、
対戦結果の中の「対」の前よりも後ろのポーズを長く設
定することを特徴とする。
【0019】(11)本発明の一態様は、中間コードの
生成の際、入力テキストの文頭に日にちがある場合に、
日にち部分の後ろに長ポーズを設定することを特徴とす
る。
【0020】(12)本発明の一態様は、中間コードの
生成の際、入力テキストに項目を伴う数字が含まれる場
合に、項目の直後に中ポーズを設定することを特徴とす
る。
【0021】(13)本発明の一態様は、中間コードの
生成の際、入力テキストに項目を伴う数字が含まれる場
合に、次の項目の直前に長ポーズを設定することを特徴
とする。
【0022】(14)本発明の一態様は、中間コードの
生成の際、入力テキストに複数桁の数字が含まれる場合
に、桁毎にポーズを設定することを特徴とする。
【0023】(15)本発明の一態様は、中間コードの
生成の際、入力テキストに小数点を伴う数字が含まれる
場合に、小数点の直後にポーズを設定することを特徴と
する。 (16)本発明の一態様は、中間コードの生成の際、入
力テキストにイコール記号を伴う数字が含まれ、イコー
ル記号を飛ばし読みする場合に、イコール記号の部分に
ポーズを設定することを特徴とする。
【0024】(17)本発明の一態様は、中間コードの
生成の際、入力テキスト中の人物名の後に年齢が続く場
合に、年齢の前に中ポーズを設定し、年齢の後に長ポー
ズを設定することを特徴とする。
【0025】(18)本発明の一態様は、中間コードの
生成の際、入力テキストに助数詞を伴う数字が含まれる
場合に、数字と助数詞の間にポーズを設定することを特
徴とする。
【0026】(19)本発明の一態様は、中間コードの
生成の際、入力テキスト中で省略記号と正式名称が並ん
でいる場合に、省略記号と正式名称との間に長ポーズま
たは文終端ポーズを設定することを特徴とする。
【0027】(20)本発明の一態様は、中間コードの
生成の際、入力テキストが天気予報である場合に、地方
名と天気または降水量との間に長ポーズまたは文終端ポ
ーズを設定することを特徴とする。
【0028】(21)本発明の一態様は、中間コードの
生成の際、入力テキストに「・」で連結されるアクセン
ト句がある場合に、連結の境界に中ポーズを設定するこ
とを特徴とする。
【0029】(22)本発明の一態様は、中間コードの
生成の際、入力テキスト中で地名が連続する場合に、地
名の境界に中ポーズを設定することを特徴とする。
【0030】なお、本発明は、音声合成方法の態様で実
現されてもよく、また、音声合成装置の態様で実現され
てもよく、さらにまた、コンピュータに音声合成処理を
行わせるプログラムを記録したコンピュータ読みとり可
能な記録媒体の態様で実現されてもよい。
【0031】
【発明の実施の形態】以下、本発明の好適な実施の形態
(以下、実施形態という)について、図面を参照し説明
する。
【0032】図1は、本発明が適用される音声合成装置
1を示すブロック図である。図1の各要素はソフトウエ
アによって構成することが好適であるが、適宜、ハード
ウエアによって構成されてもよい。また、図2は、図1
の装置による音声合成方法を示している。さらに、図3
は、図2中の言語処理を示している。
【0033】図1を参照すると、音声合成装置1は、大
きく分けて言語処理部3と規則音声合成部5を有する。
言語処理部3は、言語解析処理部7および中間コード生
成部9を含む。また、言語処理部3は、その一部として
中間コード生成規則辞書11を含み、この中間コード生
成規則辞書11はアクセント設定規則13およびポーズ
設定規則15を含んでいる。中間コード生成規則辞書1
1は、例えば音声合成装置1の図示しないメモリ装置に
記憶されている。
【0034】図2を参照すると、言語処理部3には、読
上げ目的テキストとして、漢字かな混じりのテキストが
入力される(S1)。本実施形態では、ニューステキス
ト(例えばヘッドライン・ニュース)が入力される。言
語処理部3は、入力テキストに対して形態素解析、係り
受け解析処理などを行い、解析結果に基づいて中間コー
ドを生成する(S3)。前述したように、中間コード
は、いわゆる発音記号に相当するものであり、入力テキ
ストの読みの情報を含み、さらに、アクセント句、ポー
ズ(無音区間)といった韻律情報を含んでいる。
【0035】規則音声合成部5は、中間コードから合成
音声を生成する(S5)。ここでは中間コードからイン
トネーションパターンが算出される。そして、音素デー
タベースである音源にアクセスすることにより、イント
ネーションパターンに適合する音素が選択され、選択さ
れた音素を接続することにより合成音声が得られる。生
成された合成音声は、スピーカ(図示せず)などから出
力される(S7)。
【0036】次に、図3を参照して、上記の処理の内の
言語処理について説明する。言語処理では、まず、言語
解析処理部7が、言語解析処理(S11)として、形態
素解析処理(S13)、係り受け解析処理(S15)お
よび構文解析処理(S17)を含む処理を行う。特開平
7−244495号公報にも開示されるように、単語の
認定が行われ、各単語毎に品詞、読みを含む単語情報が
得られる。また文節が認定され、文節の係り先と係り受
け関係を含む係り受け情報が得られる。そして、これら
の情報を含んだ文が中間コード生成部9へと受け渡され
る。
【0037】上記の言語解析処理では、単語推定、品詞
推定、連接単語推定、品詞の係り受け推定、文節の係り
受け推定、構文解析といったことが行われるが、言語解
析処理を通じて、本発明の中間コード生成のために参照
される各種の中間コード生成用情報が取得され、それら
の情報が中間コード生成部9へと受け渡される。具体的
な情報については後に詳細に述べるが、数字のカテゴリ
推定、助詞のカテゴリ推定、助数詞などのカテゴリ推
定、大和言葉/外来語の推定、その他の特定表現または
特定部分の推定、などである。特定表現または特定部分
は、例えば、括弧などの記号付き表現、スポーツ結果な
どの特殊表現、その他のニュースに特徴的な表現であ
る。
【0038】図3のS19においては、中間コード生成
部9が、言語解析処理部7で得られたテキスト解析結果
に基づいて中間コードを生成する。中間コード生成部9
は、中間コード生成規則辞書11を参照し、予め定めら
れた規則13、15に従った処理を行う。ここでは、ま
ずテキストに読みが与えられる。言語解析結果にアクセ
ント設定規則13が適用されて、アクセント関連の情報
が付与される。さらに、言語解析結果にポーズ設定規則
15が適用されて、ポーズ情報、すなわちポーズの位置
と長さの情報が与えられる。
【0039】以下に説明するように、従来の荒いポーズ
設定がなされた中間コードとは異なり、本発明では言語
解析処理で得られた構文/係り受け/数字などの情報に
応じた適切な中間コードが作成される。これらの情報を
ポーズ設定の条件に含めた規則表(ポーズ設定規則1
5)が辞書に定められていて、この規則表を検索して各
種情報に応じた中間コードが作成される。
【0040】「本発明のポーズ設定処理」次に、本発明
のポーズ設定処理について説明する。ポーズ設定は、予
め定められたポーズ設定規則に従って行われる。この規
則には、ポーズの長さに応じて以下の4種類のポーズが
設定されている。ポーズ継続時間の長さは、( )内に
示す1〜5の数字で表す。
【0041】「単語境界ポーズ(短ポーズ)(1)
(2)」:単語境界などに用いるのに適した短いポーズ
である。単語境界ポーズは、長さ1と長さ2の2種類に
分けられている。
【0042】「中ポーズ(3)」:中位の長さのポーズ
である。単語境界ポーズと長ポーズの間の長さをもつポ
ーズである。
【0043】「長ポーズ(4)」:比較的長めに設定さ
れたポーズである。中間ポーズよりは長く、文終端ポー
ズに近いが、文終端ポーズよりは短い長さをもつポーズ
である。
【0044】「文終端ポーズ(5)」:文終端、発話終
端境界に用いるのに適した最も長いポーズである。長ポ
ーズの一種に分類することもできる。
【0045】各ポーズの長さは、数字の大きさに比例し
ている。例えば、単語境界ポーズ(1)から文終端ポー
ズ(5)にかけて、ポーズの長さが、約200msec、約
400msec、約600msec、約800msec、約1secで
ある。
【0046】なお、上記の各ポーズは、さらに複数に分
けられていてもよい。また、具体的なポーズ長の設定値
は、本発明を実現する音声合成装置の仕様に応じて適当
に設定されればよい。また、適用対象のコンピュータの
ハードウエア構成、適用対象のテキストなどに応じて適
宜設定することも好適である。上記の他に250msec毎
等のポーズ設定も好適である。
【0047】さて、従来のポーズ設定規則では、単語境
界(連接単語は一塊として扱う)、アクセント句境界、
フレーズ句境界、文節境界、文終端のみにポーズを設定
することが定められ、各部に与えるポーズの種類(長
さ)が上記の如く定められている。本発明によれば、従
来の規則に加えて以下の規則が定められており、あるい
は、従来の規則の一部が以下のように変更されている。
そして、これらの規則に従ってポーズ情報を設定する。
各規則の適用により、中間コードから生成・出力した音
声が自然に聞こえ、聞き取りやすくなり、合成音声の
「単語の了解度」や「文了解度」が向上する。
【0048】以下の説明では、本発明が適用された中間
コードを多数例示するが、コード中のアルファベット
は、入力テキストに対してふられた読みである。
「 ’」はアクセントの位置を示す。また、コード中の
数字は、ポーズの位置と長さを示している。
【0049】(規則1)連接単語 連接単語の構成単語毎に単語境界(短ポーズ)を設定す
る。
【0050】従来は、連接単語が一塊の単語として扱わ
れるので、連接単語の構成単語の間にポーズは設定され
ない。例えば、テキスト「千載一遇」は、中間コード
「センザイイチグー(senzaiitiguu)」に変換される。
しかし、これでは聞き手に対して不自然な印象を与え
る。
【0051】一方、本発明では、連接単語の構成単語毎
に単語境界ポーズを挿入する。図4の例では、テキスト
「千載一遇」からは、中間コード「センザイ「2」イチ
グー(senzai 2 itiguu)」が生成される。
【0052】なお、規則1に従った処理のため、前段の
言語解析処理では、入力テキスト中の連接単語と、連接
単語の構成単語とを検出(認定)し、処理結果を記憶し
ておく。
【0053】(規則2)ローマ字 ローマ字表記の短縮記号部分では、各ローマ字(1文
字)毎に単語境界(短ポーズ)を設定する。
【0054】図5の例に示すように、従来は、ローマ字
表記した短縮記号(JRなど)の文字間にはポーズが設
定されなかった。しかし、本発明では、短縮記号の1文
字毎に単語境界(短ポーズ)を挿入する。図中では、下
線を付けた箇所が特徴部分である(以下同じ)。
【0055】なお、規則2に従った処理のため、前段の
言語解析処理では、入力テキスト中のローマ字を検出
し、検出したローマ字(列)が短縮記号(JRなど)で
あるか否かを判定する。判定処理は、例えば短縮記号の
辞書を用いて行い、適宜、前後の文章、文脈を参照して
行うことが好適である(この点は、他の規則に関連する
処理においても適宜適用される)。そして、処理結果を
入力テキストと関連づけて記憶しておく。
【0056】(規則3)助詞前後 助詞の前後には短ポーズを挿入する。
【0057】図6の例に示すように、従来は、助詞の前
後にはポーズを設定していなかった。しかし、本発明で
は、助詞の前後に短ポーズを挿入する。特に、「主語」
の直後の「助詞」の前後に短ポーズを挿入することが効
果的である。
【0058】なお、規則3に従った処理のため、前段の
言語解析処理で入力テキストから助詞を検出した結果が
利用される。
【0059】(規則4)フレーズ句境界 フレーズ句境界に対して長ポーズ(4)を設定する。
【0060】従来は、フレーズ句境界には中ポーズ
(3)が設定されていた。しかし、本発明では、フレー
ズ句境界には基本的に長ポーズ(4)を設定する。な
お、規則4に従った処理のため、前段の言語解析処理で
は、フレーズ句とその境界を検出し、処理結果を記憶し
ておく。
【0061】(規則5)複文の扱い 複文の境界に対して文終端ポーズ(5)を設定する。な
お、規則5に従った処理のため、前段の言語解析処理で
は、構文解析において複文とその境界を検出し、処理結
果を記憶しておく。
【0062】(規則6)重文の扱い 重文の入れ子になった中の部分の前後に対して文終端ポ
ーズ(5)を設定する。なお、規則6に従った処理のた
め、前段の言語解析処理では、構文解析において、重文
とその入れ子部分とを検出し、処理結果を記憶してお
く。
【0063】(規則7)括弧の扱いI 括弧の中に文節が入る場合に、基本的に括弧の前後に文
終端ポーズ(5)を設定する。図7に中間コードの例が
示されている。
【0064】なお、規則7に従った処理のため、前段の
言語解析処理では、入力テキストから括弧を検出し、括
弧の中に文節が入っているか否かを判定し、処理結果を
記憶しておく。
【0065】(規則8)括弧の扱いII 括弧の中に単語またはアクセント句が入る場合に、括弧
の前に長ポーズ(4)を設定する。さらに、括弧の後ろ
に単語が掛かる場合には、括弧の後ろに単語境界(短ポ
ーズ)を設定する。図8に中間コードの例が示されてい
る。
【0066】なお、規則8に従った処理のため、前段の
言語解析処理では、入力テキストから括弧を検出し、括
弧の中に単語またはアクセント句が入っているか否かを
判定する。さらに、括弧の後ろに単語が掛かるか否かを
判定し、処理結果を記憶しておく。
【0067】(規則9)スポーツ結果(例:巨人 2=
0 ヤクルト)の扱いI 項目(プロ野球速報/22日など)のそれぞれに文終端
ポーズ(5)を設定する。
【0068】(規則10)スポーツ結果の扱いII 対戦結果(2=3など)の「対:タイ」の前(3)より
も後ろを長いポーズ(4など)とする。
【0069】図9に、規則9および規則10に従って作
成した中間コードの例が示されている。
【0070】なお、規則9および規則10に従った処理
のため、前段の言語解析処理では、入力テキストがスポ
ーツ結果であるか否かを判定する。スポーツ結果である
場合には、テキストをスポーツ結果の項目ごとに分け
る。そして、図9に示すように、所定の規則に従ってテ
キストに読みをふる。読みの中の「項目」および「対」
の部分に上記の処理を施す。
【0071】(規則11)日にちの扱い 文頭に日にちがある場合に、日にち部分の後ろに長ポー
ズ(4)を設定する。図10に中間コードの例が示され
ており、日にちの直後には長ポーズ(4)が与えられて
いる。この規則は、ニュース文に適用すると効果的であ
る。
【0072】なお、規則11に従った処理のため、前段
の言語解析処理では、入力テキストの文頭に「日にち」
がくるか否かを判定し、「日にち」がくる場合には、そ
の情報(日にちの終わり部分を含む)を記憶しておく。
【0073】(規則12)数字の扱いI−1(項目を伴
う) 入力テキストに項目を伴う数字が含まれる場合に、項目
の直後に中ポーズ(3)を設定する。
【0074】(規則13)数字の扱いI−2(項目を伴
う) 入力テキストに項目を伴う数字が含まれる場合に、次の
項目の直前に長ポーズ(4)を設定する。
【0075】図11に、規則12および規則13に従っ
て作成した中間コードの例が示されている。図11に例
示するように、項目、数字、項目、数字が順に現れる場
合、項目(三越・松坂屋)の直後には中ポーズ(3)が
設定され、次の項目(高島屋)の直前には長ポーズ
(4)が設定される。
【0076】なお、規則12および規則13に従った処
理のため、前段の言語解析処理では、入力テキストにお
ける数字とその前後の単語を認定する。そして、入力テ
キストが上述のような項目と数字の配列を含むか否かを
判定し、処理結果を記憶しておく。
【0077】(規則14)数字の扱いII 複数桁の数字が含まれる場合に、桁毎に単語境界(短ポ
ーズ)を挿入する。例えば、「198億円」などの数字
が該当する。図12に中間コードの例が示されている。
【0078】なお、規則14に従った処理のため、前段
の言語解析処理では、入力テキストから数字が検出さ
れ、さらに複数桁の数字があるか否かが判定され、処理
結果が記憶される。
【0079】(規則15)数字の扱いIII 小数点を伴う数字が含まれる場合に、小数点の直後に中
ポーズ(3)を設定する。図13に中間コードの例が示
されている。
【0080】なお、規則15に従った処理のため、前段
の言語解析処理では、入力テキストから数字が検出され
る。さらに数字が小数であるか否か、すなわち小数点が
存在するか否かが求められる。そして、小数点の位置を
示す情報が記憶される。
【0081】(規則16)数字の扱いIV イコール記号を伴う数字が含まれ、イコール記号を飛ば
し読みする場合に、イコール記号の部分に長ポーズ
(4)を設定する。図14に中間コードの例が示されて
いる。
【0082】なお、規則16に従った処理のため、前段
の言語解析処理では、入力テキストから「イコール
(=)」およびその前後の数字が検出される。検出結果
に基づいて、イコールを飛ばし読みすべきか否かが判断
される。飛ばし読みに対応した読みがテキストに付与さ
れ、そして、飛ばし読み部分に長ポーズ(4)が設定さ
れる。
【0083】(規則17)数字の扱いV 人物名の後に年齢が続く場合に、年齢の前に中ポーズ
(3)を設定し、年齢の後に長ポーズ(4)を設定す
る。図15に中間コードの例が示されている。入力テキ
ストにおいては、人物名の後に括弧「()」が続き、括
弧内に年齢の数字が入っている。このような場合に本規
則が適用される。
【0084】なお、規則17に従った処理のため、前段
の言語解析処理では、入力テキストから、人物名および
数字が検出される。人物名の後に(年齢)の数字が続い
ているか否かが判定され、処理結果が記憶される。
【0085】(規則18)数字の扱いVI 助数詞を伴う数字が含まれる場合に、数字と助数詞の間
に単語境界(1)を入れる。図16に中間コードの例が
示されている。ただし、大和読み(9日(ここのか)な
ど)は除外する。
【0086】なお、規則18に従った処理のため、前段
の言語解析処理では、入力テキストから、数字および助
数詞が検出される。そして、数字および助数詞に大和読
みを付すべきか否かが判断され、処理結果が記憶され
る。
【0087】(規則19)省略記号と正式名称 省略記号と正式名称が並んでいる場合に、省略記号と正
式名称との間に長ポーズ(4)または文終端ポーズ
(5)を設定する。「イコール」「・」などを伴う省略
記号と正式名称に好適に適用される。図17に中間コー
ドの例が示されている。
【0088】なお、規則19に従った処理のため、前段
の言語解析処理では、入力テキストから、省略記号とそ
の後に続く正式名称が認定される。イコールなどを挟ん
で並んでいる省略記号と正式名称も検出される。処理結
果はポーズ設定のために記憶される。
【0089】(規則20)天気予報の扱い 入力テキストが天気予報である場合に、「地方名」と
「天気/降水量」との間に長ポーズ(4)または文終端
ポーズ(5)を設定する。図18に中間コードの例が示
されている。
【0090】なお、規則20に従った処理のため、前段
の言語解析処理では、入力テキストの内容が天気予報で
あるか否かが判定される。天気予報である場合に、「地
方名」、「天気」、「降水量」の部分が認定される。そ
して、地方名に天気/降水量が続く部分が認定され、処
理結果が記憶される。
【0091】(規則21)「・」で連結されたアクセン
ト句の扱い 入力テキストに「・」で連結されるアクセント句がある
場合に、連結の境界に中ポーズ(3)を設定する。図1
9に中間コードの例が示されている。
【0092】なお、規則21に従った処理のため、前段
の言語解析処理では、入力テキストに含まれる「・」印
が検出される。「・」の前後のアクセント句が求められ
る。そして、前後のアクセント句が「・」により連結さ
れているか否かが、アクセント句の比較などにより判定
され、処理結果が記憶される。
【0093】(規則22)地名(国名、都市名など)の
扱い 地名が連続する場合に、地名の境界に中ポーズ(3)を
設定する。典型例としては、国名と都市名が連続する場
合、県名と市町村名が連続する場合である。図20に中
間コードの例が示されている。
【0094】なお、規則22に従った処理のため、前段
の言語解析処理では、入力テキストから地名が認定され
る。そして、地名が連続して並んでいるか否かが判断さ
れ、処理結果が記憶される。
【0095】以上に、本発明に特徴的なポーズ設定規則
を個別に説明した。次に、図21は、本発明の方法で生
成した中間コード(改良)を、従来の方法で生成した中
間コードと比較して示している。
【0096】図21に示されるように、従来の方法では
ポーズの取り方が荒かった。しかし、本発明の方法で
は、上記の規則の適用により、適切な位置に適切な長さ
のポーズが設定されている。例えば、(規則1)に従
い、「中央線」の「中央」と「線」間に単語境界が挿入
されている。また、(規則2)に従い、「JR」の
「J」と「R」の間に単語境界が挿入されている。
【0097】改良後の中間コードから規則音声合成によ
り合成音声を実際に生成し、出力すると、従来の合成音
声と比較して、聞き手にとって音声が自然に聞こえる。
その結果、単語の聞き取り、および、文章の内容把握が
大幅に容易になる。
【0098】図22は、本発明を音声合成装置の態様で
実現するのに適したコンピュータ装置の構成の一例であ
る。CPU100、ROM102、RAM104、通信
回路106、記憶装置108(ハードディスクなど)、
媒体装着部110(記録媒体112(CD−ROMな
ど)を装着)、入力部114、スピーカ116およびデ
ィスプレイ118が備えられている。
【0099】本発明の方法で音声合成処理を行うための
音声合成プログラムは、記憶装置108に格納されてい
る。音声合成プログラムを書き込んだ記録媒体112が
媒体装着部110に装着されてもよい。また、音声合成
プログラムは、ROM102に書き込まれていてもよ
い。音声合成プログラムは、CPU100によって読み
出され、実行される。そして、合成された音声は、スピ
ーカ116から出力される。
【0100】また、音声合成の対象である漢字かな混じ
りの入力テキストは、例えば、通信回路106を介して
外部から入力される。入力テキストは、入力部114か
ら入力されてもよく、記憶装置108から読み出されて
も、記録媒体112から読み出されてもよい。
【0101】本発明は、例えば、車両と情報センタを通
信で結ぶ車両用情報提供システムに好適に適用される。
車両にはコンピュータが搭載され、情報センタから「ニ
ュース」「交通情報」「天気予報」などがテキストデー
タのかたちで入手される。これらのテキストデータが中
間コードに変換され、中間コードが合成音声に変換され
る。また、情報センタ側のコンピュータ装置で音声合成
処理を行って、合成音声を車両に送り、車両のスピーカ
から合成音声を出力してもよい。その他、文字放送の読
み上げ処理など、各種の用途に本発明を適用可能であ
る。
【0102】また、本発明では、上述のように複数種類
の特徴的な規則が示されている。これらの規則の一部を
音声合成に適用する構成も、本発明の範囲内に含まれる
ことはもちろんである。ただし、全部の規則を適用する
ことにより、全体として、合成音声の聞き取りやすさの
一層の向上を図ることができる。
【0103】「本発明の中間コード」図24〜図41
に、本発明のポーズ設定方法に従ってつくられた中間コ
ードの50例をオリジナルの入力テキストとともに列挙
する。
【0104】
【発明の効果】以上に説明したように、本発明によれ
ば、中間コード生成の際にポーズ情報を適切に設定する
ことにより、中間コードから合成した音声の聞き取り易
さ、聞き手の了解度を向上することができる。
【図面の簡単な説明】
【図1】 本発明の実施形態の音声合成装置を示すブロ
ック図である。
【図2】 図1の装置による音声合成方法を示すフロー
チャートである。
【図3】 図2中の言語処理ステップの詳細を示すフロ
ーチャートである。
【図4】 本発明のポーズ設定規則1に従って生成した
中間コードの例を示す図である。
【図5】 本発明のポーズ設定規則2に従って生成した
中間コードの例を示す図である。
【図6】 本発明のポーズ設定規則3に従って生成した
中間コードの例を示す図である。
【図7】 本発明のポーズ設定規則7に従って生成した
中間コードの例を示す図である。
【図8】 本発明のポーズ設定規則8に従って生成した
中間コードの例を示す図である。
【図9】 本発明のポーズ設定規則9および規則10に
従って生成した中間コードの例を示す図である。
【図10】 本発明のポーズ設定規則11に従って生成
した中間コードの例を示す図である。
【図11】 本発明のポーズ設定規則12および規則1
3に従って生成した中間コードの例を示す図である。
【図12】 本発明のポーズ設定規則14に従って生成
した中間コードの例を示す図である。
【図13】 本発明のポーズ設定規則15に従って生成
した中間コードの例を示す図である。
【図14】 本発明のポーズ設定規則16に従って生成
した中間コードの例を示す図である。
【図15】 本発明のポーズ設定規則17に従って生成
した中間コードの例を示す図である。
【図16】 本発明のポーズ設定規則18に従って生成
した中間コードの例を示す図である。
【図17】 本発明のポーズ設定規則19に従って生成
した中間コードの例を示す図である。
【図18】 本発明のポーズ設定規則20に従って生成
した中間コードの例を示す図である。
【図19】 本発明のポーズ設定規則21に従って生成
した中間コードの例を示す図である。
【図20】 本発明のポーズ設定規則22に従って生成
した中間コードの例を示す図である。
【図21】 本発明のポーズ設定規則に従って入力テキ
ストから生成した中間コードの例を従来技術と比較して
示す図である。
【図22】 本発明の音声合成処理を実行するのに適し
たコンピュータ装置の一例を示す図である。
【図23】 従来のポーズ設定規則に従って生成される
中間コードの例を示す図である。
【図24】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図25】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図26】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図27】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図28】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図29】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図30】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図31】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図32】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図33】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図34】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図35】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図36】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図37】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図38】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図39】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図40】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【図41】 本発明のポーズ設定規則に従って生成され
る中間コードをオリジナルの入力テキストと共に示す図
である。
【符号の説明】
1 音声合成装置、3 言語処理部、5 規則音声合成
部、7 言語解析処理部、9 中間コード生成部、11
中間コード生成規則辞書、13 アクセント設定規
則、15 ポーズ設定規則。

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキスト中の連接単語の構
    成単語毎にポーズを設定することを特徴とする音声合成
    方法。
  2. 【請求項2】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキスト中のローマ字表記
    の短縮記号部分では、各ローマ字毎にポーズを設定する
    ことを特徴とする音声合成方法。
  3. 【請求項3】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキスト中の助詞の前後に
    ポーズを設定することを特徴とする音声合成方法。
  4. 【請求項4】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキスト中のフレーズ句境
    界に対して長ポーズを設定することを特徴とする音声合
    成方法。
  5. 【請求項5】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキスト中の複文の境界に
    対して文終端ポーズを設定することを特徴とする音声合
    成方法。
  6. 【請求項6】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストが重文である場合
    に、重文の入れ子部分の前後に対して文終端ポーズを設
    定することを特徴とする音声合成方法。
  7. 【請求項7】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストが括弧を含み、括
    弧の中に文節が入る場合に、括弧の前後に文終端ポーズ
    を設定することを特徴とする音声合成方法。
  8. 【請求項8】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストが括弧を含み、括
    弧の中に単語またはアクセント句が入る場合に、括弧の
    前に長ポーズを設定するとともに、括弧の後ろに単語が
    掛かる場合には括弧の後ろに単語境界ポーズを設定する
    ことを特徴とする音声合成方法。
  9. 【請求項9】 漢字かな混じり入力テキストから規則音
    声合成入力用の中間コードを生成し、中間コードから合
    成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストがスポーツ結果を
    含む場合に、スポーツ結果の各項目の後に文終端ポーズ
    を設定することを特徴とする音声合成方法。
  10. 【請求項10】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストがスポーツ結果を
    含む場合に、対戦結果の中の「対」の前よりも後ろのポ
    ーズを長く設定することを特徴とする音声合成方法。
  11. 【請求項11】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストの文頭に日にちが
    ある場合に、日にち部分の後ろに長ポーズを設定するこ
    とを特徴とする音声合成方法。
  12. 【請求項12】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、中間コード
    の生成の際、入力テキストに項目を伴う数字が含まれる
    場合に、項目の直後に中ポーズを設定することを特徴と
    する音声合成方法。
  13. 【請求項13】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストに項目を伴う数字
    が含まれる場合に、次の項目の直前に長ポーズを設定す
    ることを特徴とする音声合成方法。
  14. 【請求項14】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストに複数桁の数字が
    含まれる場合に、桁毎にポーズを設定することを特徴と
    する音声合成方法。
  15. 【請求項15】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストに小数点を伴う数
    字が含まれる場合に、小数点の直後にポーズを設定する
    ことを特徴とする音声合成方法。
  16. 【請求項16】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、中間コード
    の生成の際、入力テキストにイコール記号を伴う数字が
    含まれ、イコール記号を飛ばし読みする場合に、イコー
    ル記号の部分にポーズを設定することを特徴とする音声
    合成方法。
  17. 【請求項17】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキスト中の人物名の後に
    年齢が続く場合に、年齢の前に中ポーズを設定し、年齢
    の後に長ポーズを設定することを特徴とする音声合成方
    法。
  18. 【請求項18】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストに助数詞を伴う数
    字が含まれる場合に、数字と助数詞の間にポーズを設定
    することを特徴とする音声合成方法。
  19. 【請求項19】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキスト中で省略記号と正
    式名称が並んでいる場合に、省略記号と正式名称との間
    に長ポーズまたは文終端ポーズを設定することを特徴と
    する音声合成方法。
  20. 【請求項20】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストが天気予報である
    場合に、地方名と天気または降水量との間に長ポーズま
    たは文終端ポーズを設定することを特徴とする音声合成
    方法。
  21. 【請求項21】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキストに「・」で連結さ
    れるアクセント句がある場合に、連結の境界に中ポーズ
    を設定することを特徴とする音声合成方法。
  22. 【請求項22】 漢字かな混じり入力テキストから規則
    音声合成入力用の中間コードを生成し、中間コードから
    合成音声を生成する音声合成方法において、 中間コードの生成の際、入力テキスト中で地名が連続す
    る場合に、地名の境界に中ポーズを設定することを特徴
    とする音声合成方法。
  23. 【請求項23】 請求項1〜22のいずれかに記載の音
    声合成方法を用いて音声合成を行う音声合成装置。
  24. 【請求項24】 請求項1〜22のいずれかに記載の音
    声合成方法を用いた音声合成処理をコンピュータに実行
    させるためのプログラムを記録したコンピュータ読みと
    り可能な記録媒体。
JP10363464A 1998-12-21 1998-12-21 音声合成方法および音声合成装置 Pending JP2000187494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10363464A JP2000187494A (ja) 1998-12-21 1998-12-21 音声合成方法および音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10363464A JP2000187494A (ja) 1998-12-21 1998-12-21 音声合成方法および音声合成装置

Publications (1)

Publication Number Publication Date
JP2000187494A true JP2000187494A (ja) 2000-07-04

Family

ID=18479383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10363464A Pending JP2000187494A (ja) 1998-12-21 1998-12-21 音声合成方法および音声合成装置

Country Status (1)

Country Link
JP (1) JP2000187494A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015007683A (ja) * 2013-06-25 2015-01-15 日本電気株式会社 音声処理器具、音声処理方法
JP2016133299A (ja) * 2015-01-22 2016-07-25 株式会社富士通ゼネラル 空気調和機
CN114464161A (zh) * 2022-01-29 2022-05-10 上海擎朗智能科技有限公司 语音播报方法、移动设备、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015007683A (ja) * 2013-06-25 2015-01-15 日本電気株式会社 音声処理器具、音声処理方法
JP2016133299A (ja) * 2015-01-22 2016-07-25 株式会社富士通ゼネラル 空気調和機
CN114464161A (zh) * 2022-01-29 2022-05-10 上海擎朗智能科技有限公司 语音播报方法、移动设备、装置及存储介质

Similar Documents

Publication Publication Date Title
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US7263488B2 (en) Method and apparatus for identifying prosodic word boundaries
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
JP3071804B2 (ja) 音声合成装置
JP2000187494A (ja) 音声合成方法および音声合成装置
JP2004145015A (ja) テキスト音声合成システム及び方法
Sen et al. Indian accent text-to-speech system for web browsing
JP3518340B2 (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JP3626398B2 (ja) テキスト音声合成装置、テキスト音声合成方法及びその方法を記録した記録媒体
JPH07262191A (ja) 単語分割方法、および音声合成装置
JP3029403B2 (ja) 文章データ音声変換システム
JPH05134691A (ja) 音声合成方法および装置
JP4056647B2 (ja) 波形接続型音声合成装置および方法
JPH096378A (ja) テキスト音声変換装置
JP3364820B2 (ja) 合成音声出力方法及び装置
JP2996978B2 (ja) テキスト音声合成装置
JPH054676B2 (ja)
JPH08160983A (ja) 音声合成装置
JP2888847B2 (ja) 文章読み上げ装置とその方法及び言語処理装置とその方法
JP2004246085A (ja) 音声合成方法、装置及びプログラム
JP3269083B2 (ja) 自然語処理装置
JP4319851B2 (ja) 読み上げ装置、読み上げ方法及び読み上げ処理用プログラム
JPH08328578A (ja) テキスト音声合成装置
JPH10124501A (ja) 日本語読み付与方法及び装置及び日本語読み付与プログラム媒体