JP3571925B2 - 音声情報処理装置 - Google Patents

音声情報処理装置 Download PDF

Info

Publication number
JP3571925B2
JP3571925B2 JP21136098A JP21136098A JP3571925B2 JP 3571925 B2 JP3571925 B2 JP 3571925B2 JP 21136098 A JP21136098 A JP 21136098A JP 21136098 A JP21136098 A JP 21136098A JP 3571925 B2 JP3571925 B2 JP 3571925B2
Authority
JP
Japan
Prior art keywords
unit
pitch
information
subjective
accent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21136098A
Other languages
English (en)
Other versions
JP2000047680A (ja
Inventor
眞弘 森田
重宣 瀬戸
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP21136098A priority Critical patent/JP3571925B2/ja
Publication of JP2000047680A publication Critical patent/JP2000047680A/ja
Application granted granted Critical
Publication of JP3571925B2 publication Critical patent/JP3571925B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、テキストから所望の音声を合成するためのピッチパタンを生成する音声情報処理装置に係り、特に合成音のアクセントが不自然になりにくいピッチパタンを生成することが可能な音声情報処理装置に関する。
【0002】
【従来の技術】
任意のテキストから自然でかつ正しく理解される合成音声を生成するためには、生成しようとする音声に正しいアクセントを付与してやる必要がある。しかし、現状の技術では、このアクセントの付与に誤りが残存している上、この誤りが、生成される合成音声に大きく影響するために、不自然で正しく理解されない合成音声を生成することがある。
【0003】
また、音声合成の品質の向上に伴い、方言別や世代別などの読み上げも求められるようになってくると考えられるが、基準としている共通語アクセントとアクセントの付与の仕方が異なるこのような読み上げを実現するためには、アクセントを付与するための規則を容易に再構築できる技術が必要になってくる。
【0004】
一般に、合成音声へのアクセントの付与は次のような手順で行われる。まず入力されたテキストに対して形態素解析を施すことによって、テキストを形態素の単位に分割し、それぞれの形態素に読み、品詞、アクセント型などの情報を付与する。ここで、アクセント型とは、語の読みのどこにアクセントがあるかを示す情報で、語頭からアクセント核( 基本周波数が急激に下がり始める位置) までのモーラ(拍) の個数と定義されている。
【0005】
実際に読み上げにおいては、形態素のアクセント型が決まっても自然なアクセントが付与できるわけではない。連接する形態素の組み合わせによって、形態素固有のアクセント型が変形したり、消失し、新たなアクセント型が生起するからである。よって、次に、いくつかの形態素をまとめてアクセント核を最大一つ持つようなアクセント句を作り、それぞれのアクセント句に対してアクセント型が付与される。
【0006】
こうして付与されたアクセント型に対応するようなピッチパタンを生成し、このピッチパタンに従って音声波形を生成することによって、合成音声にアクセントが付与される。
【0007】
以上のような手順でアクセントの付与を行う場合、アクセント句に対するアクセント型を付与する部分での性能がとりわけ重要である。一般的に、アクセント句に対するアクセント型の付与は、アクセント句を構成する形態素の性質に基づいてアクセント型を決定する規則を言語解析の熟練者が作成し、この作成された規則を用いて行われる(匂坂、佐藤:「日本語単語連鎖のアクセント規則」電気情報学会論文誌Vol.J66−D、No7、pp.849−856参照)
【0008】
【発明が解決しようとする課題】
上述のような、熟練者によって作成された規則を用いてアクセント型を設定する方法の場合、規則で考慮しきれていない語が出現した場合、全く有り得ないアクセント型を設定する場合がある。また、規則の構築に非常な労力を要するため、方言別・世代別の読み上げを実現するのが容易でないという問題点がある。
【0009】
また、アクセント句のアクセント型を決める際には、アクセント句を構成するの形態素の性質だけではなく、音韻的な性質によるアクセント核の移動も考慮する必要がある。例えば、「仙台市(せんだいし)」は形態素の「仙台」と「市」から構成され、それらの形態素の性質から考えて最も起こりやすいアクセント核位置は「い」であるが、実際には一つ前のモーラの「だ」にアクセント核を置いて発声される。これは、二重母音の「い」にはアクセント核が来にくく、前のモーラにアクセント核が移るためと考えられている。
【0010】
アクセント辞典などに記載されている一般的なアクセント規則では、アクセント句を構成する単語の性質からアクセント核の位置を決める規則と、アクセント核位置の音韻の種類によってアクセント核を移動する規則が別々に記述されており、従来法などにおいても、アクセント句を構成する形態素の性質からアクセント核の位置を決めた後、音韻的な性質によるアクセント核の移動を行っている。しかしこの方法では、形態素の性質からアクセント核の位置を決める規則を作るためには、音韻の種類によるアクセント核の移動の影響を取り除いたアクセント型が抽出されたデータを用意する必要がある( 「仙台市」の場合、「い」にアクセント核が来るというデータ) が、実際の発声でのアクセント型が、音韻の種類によってアクセント核の移動があった結果なのか否かを区別するのが容易ではない。
【0011】
また、従来の方法では、一つのアクセント句に対してアクセント型を一つ与え、それに従ってピッチパタンを生成するので、与えられたアクセント型の確からしさが低くても、確からしさが高い場合と同様の音声を合成する。よって、与えられたアクセント型が誤っていれば、合成された音声は大変不自然なものになる。
【0012】
本発明は、上記事情を考慮してなされたものでその目的は、合成される音声に有り得ないアクセントを付与することが少ない音声情報処理装置を提供することにある。
【0013】
本発明の他の目的は、アクセントの付与のために必要な規則を、データベースから自動的に構築できる音声情報処理装置を提供することにある。
【0014】
本発明の更に他の目的は、テキストを構成する語の諸性質と同時に、音韻の種類も同時に考慮して、アクセント付与のために必要な情報を生成できる、音声情報処理装置を提供することにある。
【0015】
【課題を解決するための手段】
本発明の第一の観点に係る音声情報処理装置は、
テキストを入力するテキスト入力手段と、この手段に入力されたテキストを解析するテキスト解析手段と、当該テキスト解析手段で得られたテキスト解析結果に従って、モーラあるいは音節を発声単位とよぶ場合の、発声単位のピッチの高低に関する確率情報である単位ピッチ高低情報を発声単位ごとに生成する単位ピッチ情報生成手段と、当該単位ピッチ情報生成手段で得られた前記単位ピッチ高低情報を用いてピッチパタンを生成するピッチパタン生成手段を有することを特徴とする。
【0016】
本発明の第二の観点に係る音声情報処理装置は、
前記発声単位におけるピッチの主観的かつ相対的な高低を単位主観ピッチ高低とよび、この単位主観ピッチ高低が複数のカテゴリを持つとき、前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低のカテゴリのどれに該当するかの情報から単位ピッチの高低へ対応付ける規則により得た確率であることを特徴とする。
【0017】
本発明の第三の観点に係る音声情報処理装置は、
前記発声単位におけるピッチの主観的かつ相対的な高低を単位主観ピッチ高低とよび、この単位主観ピッチ高低が複数のカテゴリを持つとき、 前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低の各カテゴリに該当する確率であることを特徴とする。
【0018】
本発明の第四の観点に係る音声情報処理装置は、
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が複数のカテゴリを持つとき、前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化のカテゴリのどれに該当するかの情報から単位ピッチの高低へ対応付ける規則により得た確率であることを特徴とする。
【0019】
本発明の第五の観点に係る音声情報処理装置は、
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が複数のカテゴリを持つとき、前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化の各カテゴリに該当する確率であることを特徴とする。
【0020】
本発明の第六の観点に係る音声情報処理装置は、
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が高から低への変化を有するとき、前記単位ピッチ高低情報は、前記発声単位内で主観的かつ相対的なピッチが高から低に転じる確率であることを特徴とする。
【0021】
本発明の第七の観点に係る音声情報処理装置は、
前記単位ピッチ情報生成手段において、前記単位ピッチ高低情報前記入力テキスト中での前記発声単位の現れる順番で順次生成され、それぞれの単位ピッチ高低情報の生成においては該当する発声単位以前の発声単位に対して生成された前記単位ピッチ高低情報を用いることを特徴とする。
【0022】
本発明の第八の観点に係る音声情報処理方法は、
前記ピッチパタン生成手段において、前記単位ピッチ情報生成手段で生成された単位ピッチ高低情報を用いて、前記入力テキストをアクセント句に分割するとともにこのアクセント句に対してアクセント型を設定することを特徴とする。
【0023】
本発明の第九の観点に係る音声情報処理方法は、
前記テキスト解析手段で得られたテキスト解析結果の属性に従って、前記入力テキストをアクセント句に分割するとともにそれぞれのアクセント句に対してアクセント句情報を生成するアクセント句分割手段を具備し、前記単位ピッチ情報生成手段においては、前記アクセント句分割手段で生成された前記アクセント句情報を用いて前記単位ピッチ高低情報を生成し、前記ピッチパタン生成手段においては、この単位ピッチ高低情報を用いて、前記それぞれのアクセント句に対するアクセント型を設定することを特徴とする。
【0026】
本発明の第十の観点に係る音声情報処理方法は、
前記単位ピッチ高低情報は、当該発声単位が、主観的なピッチの高低を表す複数種類の値のそれぞれをとる確度であり、
前記ピッチパタン生成手段においては、前記確度を用いてアクセント句に対して設定されるアクセント型の確度を算出し、当該確度に応じたピッチパタンを生成すること、を特徴とする。
【0027】
本発明の第十一の観点に係る音声情報処理方法は、
前記単位ピッチ高低情報は、当該発声単位が、主観的なピッチの高低の変化を表す複数種類の値のそれぞれをとる確度であり、
前記ピッチパタン生成手段においては、前記確度を用いてアクセント句に対して設定されるアクセント型の確度を算出し、当該確度に応じたピッチパタンを生成すること、を特徴とする。
【0028】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【0029】
図1は本発明の1形態を実施するために必要な構成を示すブロック図である。1はテキスト入力部、2はテキスト解析部、3は単位ピッチ情報生成部、4はピッチパタン生成部である。以下、テキストが入力されてからピッチパタンが生成されるまでの処理について説明する。
【0030】
まず、テキスト入力部1に音声合成の対象となるテキスト( 例えば、漢字カナ混じり文) が入力される。このテキスト入力部1では音声合成の可能な任意のテキストを受け付けることができる。テキスト入力部1に入力されたテキストはテキスト解析部2に送られる。
【0031】
テキスト解析部2では、入力されたテキストに対して、形態素解析などのテキスト解析を行うことによって、テキストを形態素などの解析単位に分割するとともに、それぞれの解析単位に対して、読み、その解析単位に固有のアクセント型、品詞などの各種情報を付与する。これらの各種情報は、単位ピッチ情報生成部3に送られる。
【0032】
単位ピッチ情報生成部3では、テキスト解析部2から送られた解析結果から、モーラあるいは音節などの発声単位のテキスト情報(以下、単位テキスト情報とよぶ)を生成し、この単位テキスト情報を元に、主観的かつ相対的なピッチ高低に関する情報(以下、単位ピッチ高低情報とよぶ)を各発声単位ごとに生成する。ここで、ピッチの主観的な高低とは、語を発声する際の音の高さの相対的な高低のことで、例えば、共通語アクセントにおいてアクセント型が1型の語である「音声( おんせい) 」では、第一モーラが「高」で、第二モーラ以降が「低」である。なお、ピッチの高低に関する情報を生成する単位は、ここでは1モーラ( あるいは音節) とするが、隣り合った2モーラなどの複数モーラ( あるいは音節) でもよく、複数モーラの例については後述する。単位のピッチの主観的な高低に関する情報の生成には、上記の「単位テキスト情報」から、「ピッチの主観的な高低」への対応関係を記述した変換規則が用いられる。単位ピッチ高低情報は、発声単位のピッチが「高」か「低」かを表す2種類のカテゴリのいずれか、あるいはその発声単位がそれぞれのカテゴリに該当する確率とする。なお、上記の単位テキスト情報には、発声単位の所属する解析単位およびその前後の解析単位のテキスト属性( 品詞、活用、アクセント型など) や、解析単位のアクセント核に対する当該単位の相対的な位置、当該およびその前後の単位の音韻種別( 撥音、促音などの特殊な音韻か、否かなど) などが含まれる。単位ピッチ情報生成部3で生成された、各単位のピッチの高低に関する情報は、テキスト解析部2から送られた解析単位の各種情報と共に、ピッチパタン生成部4に送られる。
【0033】
前記単位ピッチ高低情報でのピッチ高低のカテゴリは、「高」「低」の2種類以外にも、副次アクセントと呼ばれるような弱いアクセントのつく発声単位を「中」とするなど、3種類以上になってもよい。
【0034】
また、前記の単位ピッチ高低情報は、発声単位内で主観的なピッチが「高」から「低」に転じる確度、すなわち発声単位がアクセント核になる確度でも良い。
【0035】
前記の単位テキスト情報として、当該発声単位より入力テキスト内で前方に位置する発声単位に対して生成された単位ピッチ高低情報を用いることも可能である。図2には、単位ピッチ高低情報が、発声単位の主観的ピッチが「高」「低」それぞれのカテゴリに該当する確率である場合での1例を示している。まず、「高」「低」それぞれのカテゴリに該当する確率の初期値P( =H) 、P( =L) を0.5 と設定し、単位番号i を初期化する( S1 ,S2)。次にi 番目の単位に関する単位テキスト情報を生成する( S3)。S3 で生成された単位テキスト情報に、前方の発声単位のピッチが「高」( i−1 =H)という情報を追加し、この単位テキスト情報を、(「単位テキスト情報」から、「ピッチの主観的な高低」への対応関係を記述した)変換規則に入力することによって、 i−1 =Hの場合の単位ピッチ情報P(A =H i−1 =H)P(A =L i−1 =H)を生成する(S4)。同様に、前方の発声単位のピッチが「低」という情報を追加した単位テキスト情報を用いることにより、 i−1 =Lの場合の単位ピッチ情報を生成する(S5)。次に以下の式に従って、i 番目の単位に対する単位ピッチ情報を生成する(S6)。
【0036】
P( =H) = P( =H│ i−1 =H) * A( i−1 =H) + P( i−1 ) * A(Ai−1=L)
P( =L) = P( i−1 ) * A( i−1 =H) + P( i−1 =L│ =L) * A( i−1 =L)
i が最終単位の番号( N) であれば終了し、そうでなければi をi+1 に更新してS3 からステップを繰り返す。このように前方の発声単位に対して生成された単位ピッチ情報を用いることによって、前方の発声単位のピッチ高低が当該単位のピッチ高低に対して大きな影響を及ぼすような場合に、単位ピッチ高低情報を生成する。
【0037】
上記の単位ピッチ高低情報の生成に用いる変換規則は、さまざまなテキストに対する各発声単位のテキスト情報を記述した「単位テキスト情報リスト」(図3)、それらの発声単位の主観的なピッチの高低を記述した「単位ピッチリスト」(図4)から、決定木などの手法を用いることによって、「単位テキスト情報」から「単位ピッチ高低」へ対応付ける規則を自動的に構築することが可能である(図5)。例えば、規則の構築に決定木の手法を用いる場合、発声単位のピッチ高低がそれぞれのカテゴリに該当する確率としては、決定木の末端(葉)の分類条件に当てはまるデータ数のうち正しい推定値が与えられたデータの割合から得ることができる。ただし、発声単位のピッチ高低がそれぞれのカテゴリに該当する確率は、上記の例に限らず、データから得られる適切な統計量であって当該確率を表現するようなものであれば何でもよい。また、上記の2つのリストを統計処理することによって、発声単位のピッチ高低がそれぞれのカテゴリに該当する確率を、「単位テキスト情報」から推定するような統計モデルを構築し、この統計モデルを変換規則として用いてもよい。
【0038】
ピッチパタン生成部4では、単位ピッチ情報生成部3から送られた単位ピッチ高低情報と解析単位の各種情報に従って、ピッチパタンを生成する。単位ピッチ情報生成部3から送られた単位ピッチ高低情報からピッチパタンを生成するための、ピッチパタン生成部4の具体的な構成の1例を図6を用いて説明する。
【0039】
図6はピッチパタン生成部の1形態を示すブロック図で、アクセント句分割部41、最適アクセント型設定部42、ピッチパタン生成処理部43から構成されている。アクセント句分割部41では、単位ピッチ情報生成部3から送られた単位ピッチ高低情報および解析単位の各種情報を元に、入力テキスト中の各解析単位の境界がアクセント句の境界に該当するか否かを順次決定した後、こうして決定されたアクセント句境界にしたがって入力テキストを分割する。この際、各解析単位の境界がアクセント句の境界に該当するか否かの決定は、隣接した解析単位の品詞や解析単位の境界の直前・直後のモーラのピッチの高低から、その形態素境界がアクセント句境界に該当するか否かを決定するような規則を作成することによって容易に実現できる。また、アクセント句分割部41では、アクセント句を構成する形態素の情報に従って、それぞれのアクセント句に対する品詞、モーラ数などの付与も行う。次に、最適アクセント型設定部42では、アクセント句中の各単位ピッチ高低情報を用いることによって、図7に示すように可能なすべてのアクセント型の実現する確度を計算し、その中で最大の確度となったアクセント型を選択することによって、アクセント句に対して最適なアクセント型を設定する。ここでは、各発声単位のピッチが「高」「低」のそれぞれのカテゴリに該当する確率をもとにそれぞれのアクセント型の実現する確度を計算している。単位ピッチ情報生成部3から送られた各単位ピッチ高低情報を「高」か「低」のいずれかのカテゴリとする場合では、そのカテゴリが「高」の場合、ピッチが「高」「低」のカテゴリに該当する確率はそれぞれ 0.8 0.2 などになり、カテゴリが「低」である場合にはそれぞれ0.2 、0.8 などとなる。このように、各モーラでのピッチが「高」「低」のそれぞれのカテゴリに該当する確率に基づいて設定されたアクセント型では、低いピッチになり得ないモーラで低いピッチになったり、高いピッチになり得ないモーラで高いピッチになるようなことは起こりにくい。ピッチパタン生成処理部43では最適アクセント型設定部42で設定されたアクセント型および品詞、モーラ数などの情報から適切なピッチパタンを生成する。ここでのピッチパタン生成は、従来からよく知られている、点ピッチモデルや藤崎モデルを用いた方法、HMMを用いた方法( 宮崎etc. 「多空間上の確率分布に基づいたHMMによるピッチパタン生成」、日本音響学会講演論文集、1−7−18、Mar 、1998) などのいずれの方法を用いても実現できる。
【0040】
図8は請求項9に記載の別の実施例を説明するブロック図である。図1との違いを中心に説明をする。図8では、単位ピッチ情報生成部3の前にアクセント句分割部5が挿入されているのが特徴である。この場合、アクセント句分割部5では、解析単位の各種情報のみを用いてアクセント句への分割を行う。一方、単位ピッチ情報生成部3では、単位ピッチ情報の決定要因として、アクセント句分割部5で得られたアクセント句の情報(例えば該当モーラのアクセント句中での位置)も用いることができる。この構成においては、アクセント句分割の性能は上述の方法に劣る可能性があるが、一方で単位ピッチの情報の生成に関しては性能の向上が期待できる。ピッチパタン生成部4では、最適アクセント型選択部42において、上述した第一の実施例の場合と同様の方法で、アクセント句分割部5で決められたアクセント句に対する最適なアクセント型を設定した後、ピッチパタン生成処理部43においてアクセント型や形態素の情報を用いてピッチパタンを生成する。アクセント句分割部5において、複数の分割候補が出力できる場合は、図9のように各分割候補の中からもっとも妥当な分割候補を選択することもできる。
【0041】
具体的には、まず最適分割候補のスコア(Score) と分割候補番号( j) および最適候補番号( jbest) に初期値を設定する(S1,S2) 。次に分割候補jを選択し(S3)、j 番目の分割候補のアクセント句に関する情報を用いて各モーラのピッチ高低とその確度を推定する(S4) 。次にS4で推定された各モーラのピッチ高低と確度を用いて、各アクセント句に対して最適なアクセント型を設定し、設定されたそれぞれのアクセント型の確度を算出する(S5)。次に設定された各最適アクセント型の確度を積算することによって、j番目の分割候補での各アクセント句にそれぞれ最適アクセント型が設定される確度(Pj)を計算する(S6)。PjとScore を比較し(S7)、Pjの方が大きければScore をPjに、jbestをjに更新する(S8)。jが分割候補の総数(N) と一致していたら終了し、そうでなければ、jをj+1に更新してS3からステップを繰り返す。ステップが終了したら、jbest番目の分割候補を最適な分割候補として選択し、jbest番目の分割候補での各アクセント句に設定された最適アクセント型をピッチパタンの生成に用いる。
【0042】
図10、図11は設定されたアクセント型の確度を用いて、アクセント句に対して生成されたピッチパタンを変形する方法を示している。
図10は、設定されたアクセント型の確度が小さい( 例えば、確度<0.25) 場合の変形の例である。例えば、まず確度に応じて定数α(0< α<1) を決め、ピッチパタン変形の基準となる関数 0_base (t) を用いて以下の式によって変形する。
【0043】
0’ (t) 0_base (t) (f (t) 0_base (t)) α (F 0’ (t) :変形後の時刻 のピッチ、 (t) :変形前の時刻 のピッチ
なお、図10では、 0_base (t) は次の式で表される直線としている。
【0044】
0_base (t) (t (t (t 基準点の時刻、 a: 直線の傾き いずれも設定されたアクセント型によって決まる定数 ))
基準点の時刻tは、設定されたアクセント型が0のときは先頭モーラの中心時刻、それ以外のときは最終モーラの中心時刻とし、傾きa も設定されたアクセント型によって適当な値を設定する( 一般的には0または負の値) 。この変形によって、設定されたアクセント型が誤っている可能性が高い場合は、アクセントの目立たない読み方を行うことができる。なお、ここで用いられる、設定されたアクセント型の確度の計算方法は、図の方法だけではなく、図3のように計算された確度をアクセント句のモーラ数に応じて補正する方法など、異なった方法を用いてもよく、ピッチパタンの変形を行う式は上記のものに限らず、さまざまなものを用いることができる。
【0045】
図11は、設定されたアクセント型の第一候補と第二候補の確度が近い場合の変形の例である。第一候補の確度が 、第二候補の確度を で、例えば *2である場合、第一候補に対して生成されるピッチパタンと第二候補に対して生成されるピッチパタンを確度に応じて重みを付けて加算して、このピッチパタンを用いる。例えば以下の式によって加算する。
【0046】
0’ (t) 0_1 (t) +P 0_2 (t) +P 0’ (t) :加算後の時刻tのピッチ、 0_1 (t) :第一候補のアクセント型に対する時刻tのピッチ、 0_2 (t) :第二候補のアクセント型に対する時刻tのピッチ)
複数候補のアクセント型が有り得るアクセント句を実際に発声する際には、しばしばどちらとも取れるアクセントで読み上げられる。上述のような方法で加算して作られたピッチパタンを用いて、第一候補、第二候補のアクセント型のどちらとも取れるアクセント型で読み上げることによって、より実際の発声に近いアクセントでの読み上げが可能となる。ピッチパタンの加算に用いる式は上記のものに限らず、さまざまなものを用いることができる。
【0047】
以上に述べた実施例では、単位ピッチ情報生成部3においてピッチの高低に関する情報を生成する単位を1モーラ( あるいは1音節) として説明したが、この単位は、隣りあった2モーラなど、複数のモーラ( あるいは音節) でもよい。隣り合った2モーラを単位とする場合に生成されるピッチの高低に関する情報は、「低→高」「高→低」および「変化なし」といったピッチの高低の変化を表す複数の値あるいはそれぞれの値をとる確度となる。このようにピッチの高低の変化を考慮する方法では、「変化なし」という値を設けることによって、助詞の「は」や「が」など前の語のピッチ高低に依存してピッチ高低が決まり、それ自体のピッチの高低を求めることが重要でない単位に関する規則がシンプルになることが期待される。また、ピッチの高低に関する情報が、ピッチの高低の変化を表す複数の値のそれぞれをとる確度である場合には、その確度からピッチ高低の変化の程度に関する手がかりを得ることができるので、確度に応じた高低変化をするピッチパタンを生成することが可能となる。
【0048】
また以上の実施例では、単位ピッチ情報生成部3で得られた単位のピッチの高低に関する情報に対して適切なアクセント型を設定し、そのアクセント型を用いてピッチパタンを生成する方法を説明したが、ピッチパタン生成部4において、アクセント型を設定することなく、単位のピッチ高低に関する情報と、解析単位の各種情報から直接ピッチパタンを生成することもできる。例えば、2モーラを単位とする代表的なピッチパタンを複数個用意し、隣りあう2モーラに関するピッチ高低に関する情報とその2モーラの属する解析単位の各種情報に対して適切なピッチパタンを順次選択し、それらをつなぎあわせていくことによって、ピッチパタンを生成することが可能である( 図12) 。単位ピッチ情報生成部3で生成される情報が、ピッチの高低あるいはその変化を表す複数の値のそれぞれをとる確度であれば、その確度に応じてピッチの変化の程度が異なるピッチパタンが選択される。なお、用意するピッチパタンの単位は3モーラなど、単位ピッチ情報生成部3で情報を生成する単位より短くなければ何でもよい。また、ピッチパタンを生成する方法は、上記の代表的なピッチパタンを選択して接続していく方法に限らず、単位のピッチ高低に関する情報と解析単位の各種情報に対して、適切なピッチパタンが生成できる方法であれば、どんな方法でもよい。
【0049】
【発明の効果】
以上説明したように、本発明によると、モーラあるいは音節を発声単位とよぶ場合の、発声単位のピッチの高低に関する情報を単位ごとに生成し、これらの単位ピッチ高低情報を用いてピッチパタンを生成するので、全く有り得ない不自然なアクセントが付与されることが少なくなり、たとえ誤ったアクセントが付与されても、合成される音声が不自然になりにくい。
【0050】
また本発明によれば、前記単位ピッチ高低情報を生成する規則は、データから自動的に生成できるので、規則の構築が容易であり、方言などの様々な読み上げ への適用が可能である。
【0051】
また本発明によれば、発声単位ごとに単位ピッチ高低情報を生成し、この単位ピッチ高低情報を用いてピッチパタンを生成するので、テキストを構成する語の諸性質に加えて音韻の種類も同時に考慮したアクセント付与を行うことが可能である。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声情報処理装置を示すブロック図。
【図2】図1に示した単位ピッチ情報生成部3で、前方の発声単位のピッチ高低情報を用いる場合の処理方法を説明するフローチャート。
【図3】単位ピッチリストを説明するための図。
【図4】単位テキスト情報リストを説明するための図。
【図5】「単位テキスト情報」から「単位ピッチ高低情報」への変換規則を作成する方法を説明するための図。
【図6】図1に示したピッチパタン生成部4の構成の1例を示すブロック図。
【図7】図6に示した最適アクセント型選択部でのアクセント型選択方法を説明するための図。
【図8】本発明の別の一実施形態に係る音声情報処理装置を示すブロック図。
【図9】図8に示したアクセント句分割部5で複数分割候補が出力できる場合の処理方法を説明するフローチャート。
【図10】設定されたアクセント型に応じてピッチパタンを変形する方法を説明するための図。
【図11】設定されたアクセント型に応じてピッチパタンを変形する方法を説明するための図。
【図12】単位ピッチ高低情報と解析単位の各種情報から直接ピッチパタンを生成する方法を説明するための図。
【符号の説明】
1 テキスト入力部
2 テキスト解析部
3 単位ピッチ情報生成部
4 ピッチパタン生成部
5 アクセント句分割部
41 アクセント句分割
42 最適アクセント型設定部
43 ピッチパタン生成処理部

Claims (11)

  1. テキストを入力するテキスト入力手段と、
    この手段に入力されたテキストを解析するテキスト解析手段と、
    当該テキスト解析手段で得られたテキスト解析結果に従って、モーラあるいは音節を発声単位とよぶ場合の、発声単位のピッチの高低に関する確率情報である単位ピッチ高低情報を発声単位ごとに生成する単位ピッチ情報生成手段と、
    当該単位ピッチ情報生成手段で得られた前記単位ピッチ高低情報を用いてピッチパタンを生成するピッチパタン生成手段を有することを特徴とする音声情報処理装置。
  2. 前記発声単位におけるピッチの主観的かつ相対的な高低を単位主観ピッチ高低とよび、この単位主観ピッチ高低が複数のカテゴリを持つとき、
    前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低のカテゴリのどれに該当するかの情報から単位ピッチの高低へ対応付ける規則により得た確率であることを特徴とする請求項1に記載の音声情報処理装置。
  3. 前記発声単位におけるピッチの主観的かつ相対的な高低を単位主観ピッチ高低とよび、この単位主観ピッチ高低が複数のカテゴリを持つとき、
    前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低の各カテゴリに該当する確率であることを特徴とする請求項1に記載の音声情報処理装置。
  4. 前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が複数のカテゴリを持つとき、
    前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化のカテゴリのどれに該当するかの情報から単位ピッチの高低へ対応付ける規則により得た確率であることを特徴とする請求項1に記載の音声情報処理装置。
  5. 前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が複数のカテゴリを持つとき、
    前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化の各カテゴリに該当する確率であることを特徴とする請求項1に記載の音声情報処理装置。
  6. 前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が高から低への変化を有するとき、
    前記単位ピッチ高低情報は、前記発声単位内で主観的かつ相対的なピッチが高から低に転じる確率であることを特徴とする請求項1に記載の音声情報処理装置。
  7. 前記単位ピッチ情報生成手段において、前記単位ピッチ高低情報は前記入力テキスト中での前記発声単位の現れる順番で順次生成され、前記それぞれの単位ピッチ高低情報の生成においては、該当する発声単位以前の発声単位に対して生成された前記単位ピッチ高低情報を用いることを特徴とする請求項1〜6のいずれか1項に記載の音声情報処理装置。
  8. 前記ピッチパタン生成手段においては、前記単位ピッチ情報生成手段で生成された単位ピッチ高低情報を用いて、前記入力テキストをアクセント句に分割するとともにこのアクセント句に対してアクセント型を設定することを特徴とした請求項1〜7のいずれか1項に記載の音声情報処理装置。
  9. 前記テキスト解析手段で得られたテキスト解析結果の属性に従って、前記入力テキストをアクセント句に分割するとともにそれぞれのアクセント句に対してアクセント句情報を生成するアクセント句分割手段を具備し、
    前記単位ピッチ情報生成手段においては、前記アクセント句分割手段で生成された前記アクセント句情報を用いて前記単位ピッチ高低情報を生成し、前記ピッチパタン生成手段においては、この単位ピッチ高低情報を用いて、前記それぞれのアクセント句に対するアクセント型を設定することを特徴とした請求項1〜7のいずれか1項に記載の音声情報処理装置。
  10. 前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低の各カテゴリに該当する確率であり、前記ピッチパタン生成手段においては、前記確率を用いて前記アクセント句に対して設定されるアクセント型の確度を算出し、当該確度に応 じたピッチパタンを生成することを特徴とした請求項8あるいは9のいずれか1項に記載の音声情報処理装置。
  11. 前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化の各カテゴリに該当する確率であり、前記ピッチパタン生成手段においては、前記確率を用いて前記アクセント句に対して設定されるアクセント型の確度を算出し、当該確度に応じたピッチパタンを生成することを特徴とした請求項8あるいは9のいずれか1項に記載の音声情報処理装置。
JP21136098A 1998-07-27 1998-07-27 音声情報処理装置 Expired - Fee Related JP3571925B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21136098A JP3571925B2 (ja) 1998-07-27 1998-07-27 音声情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21136098A JP3571925B2 (ja) 1998-07-27 1998-07-27 音声情報処理装置

Publications (2)

Publication Number Publication Date
JP2000047680A JP2000047680A (ja) 2000-02-18
JP3571925B2 true JP3571925B2 (ja) 2004-09-29

Family

ID=16604690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21136098A Expired - Fee Related JP3571925B2 (ja) 1998-07-27 1998-07-27 音声情報処理装置

Country Status (1)

Country Link
JP (1) JP3571925B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4054507B2 (ja) 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
JP3681111B2 (ja) * 2001-04-05 2005-08-10 シャープ株式会社 音声合成装置、音声合成方法および音声合成プログラム

Also Published As

Publication number Publication date
JP2000047680A (ja) 2000-02-18

Similar Documents

Publication Publication Date Title
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
US7418389B2 (en) Defining atom units between phone and syllable for TTS systems
EP1221693B1 (en) Prosody template matching for text-to-speech systems
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
Kuligowska et al. Speech synthesis systems: disadvantages and limitations
US8942983B2 (en) Method of speech synthesis
Watts Unsupervised learning for text-to-speech synthesis
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
JP5198046B2 (ja) 音声処理装置及びそのプログラム
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP3346671B2 (ja) 音声素片選択方法および音声合成装置
JP3571925B2 (ja) 音声情報処理装置
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
Chen et al. A Mandarin Text-to-Speech System
Dong et al. A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese.
Gu et al. A system framework for integrated synthesis of Mandarin, Min-nan, and Hakka speech
JP2002268672A (ja) 音声データベース用文セットの選択方法
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Nitisaroj et al. The Lessac Technologies system for Blizzard Challenge 2010
Morais et al. Data-driven text-to-speech synthesis
Khalil et al. Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040625

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080702

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090702

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090702

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100702

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110702

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees