JP3571925B2

JP3571925B2 - 音声情報処理装置

Info

Publication number: JP3571925B2
Application number: JP21136098A
Authority: JP
Inventors: 眞弘森田; 重宣瀬戸; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-07-27
Filing date: 1998-07-27
Publication date: 2004-09-29
Anticipated expiration: 2018-07-27
Also published as: JP2000047680A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストから所望の音声を合成するためのピッチパタンを生成する音声情報処理装置に係り、特に合成音のアクセントが不自然になりにくいピッチパタンを生成することが可能な音声情報処理装置に関する。
【０００２】
【従来の技術】
任意のテキストから自然でかつ正しく理解される合成音声を生成するためには、生成しようとする音声に正しいアクセントを付与してやる必要がある。しかし、現状の技術では、このアクセントの付与に誤りが残存している上、この誤りが、生成される合成音声に大きく影響するために、不自然で正しく理解されない合成音声を生成することがある。
【０００３】
また、音声合成の品質の向上に伴い、方言別や世代別などの読み上げも求められるようになってくると考えられるが、基準としている共通語アクセントとアクセントの付与の仕方が異なるこのような読み上げを実現するためには、アクセントを付与するための規則を容易に再構築できる技術が必要になってくる。
【０００４】
一般に、合成音声へのアクセントの付与は次のような手順で行われる。まず入力されたテキストに対して形態素解析を施すことによって、テキストを形態素の単位に分割し、それぞれの形態素に読み、品詞、アクセント型などの情報を付与する。ここで、アクセント型とは、語の読みのどこにアクセントがあるかを示す情報で、語頭からアクセント核（基本周波数が急激に下がり始める位置）までのモーラ（拍）の個数と定義されている。
【０００５】
実際に読み上げにおいては、形態素のアクセント型が決まっても自然なアクセントが付与できるわけではない。連接する形態素の組み合わせによって、形態素固有のアクセント型が変形したり、消失し、新たなアクセント型が生起するからである。よって、次に、いくつかの形態素をまとめてアクセント核を最大一つ持つようなアクセント句を作り、それぞれのアクセント句に対してアクセント型が付与される。
【０００６】
こうして付与されたアクセント型に対応するようなピッチパタンを生成し、このピッチパタンに従って音声波形を生成することによって、合成音声にアクセントが付与される。
【０００７】
以上のような手順でアクセントの付与を行う場合、アクセント句に対するアクセント型を付与する部分での性能がとりわけ重要である。一般的に、アクセント句に対するアクセント型の付与は、アクセント句を構成する形態素の性質に基づいてアクセント型を決定する規則を言語解析の熟練者が作成し、この作成された規則を用いて行われる（匂坂、佐藤：「日本語単語連鎖のアクセント規則」電気情報学会論文誌Ｖｏｌ．Ｊ６６−Ｄ、Ｎｏ７、ｐｐ．８４９−８５６参照）
【０００８】
【発明が解決しようとする課題】
上述のような、熟練者によって作成された規則を用いてアクセント型を設定する方法の場合、規則で考慮しきれていない語が出現した場合、全く有り得ないアクセント型を設定する場合がある。また、規則の構築に非常な労力を要するため、方言別・世代別の読み上げを実現するのが容易でないという問題点がある。
【０００９】
また、アクセント句のアクセント型を決める際には、アクセント句を構成するの形態素の性質だけではなく、音韻的な性質によるアクセント核の移動も考慮する必要がある。例えば、「仙台市（せんだいし）」は形態素の「仙台」と「市」から構成され、それらの形態素の性質から考えて最も起こりやすいアクセント核位置は「い」であるが、実際には一つ前のモーラの「だ」にアクセント核を置いて発声される。これは、二重母音の「い」にはアクセント核が来にくく、前のモーラにアクセント核が移るためと考えられている。
【００１０】
アクセント辞典などに記載されている一般的なアクセント規則では、アクセント句を構成する単語の性質からアクセント核の位置を決める規則と、アクセント核位置の音韻の種類によってアクセント核を移動する規則が別々に記述されており、従来法などにおいても、アクセント句を構成する形態素の性質からアクセント核の位置を決めた後、音韻的な性質によるアクセント核の移動を行っている。しかしこの方法では、形態素の性質からアクセント核の位置を決める規則を作るためには、音韻の種類によるアクセント核の移動の影響を取り除いたアクセント型が抽出されたデータを用意する必要がある（「仙台市」の場合、「い」にアクセント核が来るというデータ）が、実際の発声でのアクセント型が、音韻の種類によってアクセント核の移動があった結果なのか否かを区別するのが容易ではない。
【００１１】
また、従来の方法では、一つのアクセント句に対してアクセント型を一つ与え、それに従ってピッチパタンを生成するので、与えられたアクセント型の確からしさが低くても、確からしさが高い場合と同様の音声を合成する。よって、与えられたアクセント型が誤っていれば、合成された音声は大変不自然なものになる。
【００１２】
本発明は、上記事情を考慮してなされたものでその目的は、合成される音声に有り得ないアクセントを付与することが少ない音声情報処理装置を提供することにある。
【００１３】
本発明の他の目的は、アクセントの付与のために必要な規則を、データベースから自動的に構築できる音声情報処理装置を提供することにある。
【００１４】
本発明の更に他の目的は、テキストを構成する語の諸性質と同時に、音韻の種類も同時に考慮して、アクセント付与のために必要な情報を生成できる、音声情報処理装置を提供することにある。
【００１５】
【課題を解決するための手段】
本発明の第一の観点に係る音声情報処理装置は、
テキストを入力するテキスト入力手段と、この手段に入力されたテキストを解析するテキスト解析手段と、当該テキスト解析手段で得られたテキスト解析結果に従って、モーラあるいは音節を発声単位とよぶ場合の、発声単位のピッチの高低に関する確率情報である単位ピッチ高低情報を発声単位ごとに生成する単位ピッチ情報生成手段と、当該単位ピッチ情報生成手段で得られた前記単位ピッチ高低情報を用いてピッチパタンを生成するピッチパタン生成手段を有することを特徴とする。
【００１６】
本発明の第二の観点に係る音声情報処理装置は、
前記発声単位におけるピッチの主観的かつ相対的な高低を単位主観ピッチ高低とよび、この単位主観ピッチ高低が複数のカテゴリを持つとき、前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低のカテゴリのどれに該当するかの情報から単位ピッチの高低へ対応付ける規則により得た確率であることを特徴とする。
【００１７】
本発明の第三の観点に係る音声情報処理装置は、
前記発声単位におけるピッチの主観的かつ相対的な高低を単位主観ピッチ高低とよび、この単位主観ピッチ高低が複数のカテゴリを持つとき、前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低の各カテゴリに該当する確率であることを特徴とする。
【００１８】
本発明の第四の観点に係る音声情報処理装置は、
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が複数のカテゴリを持つとき、前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化のカテゴリのどれに該当するかの情報から単位ピッチの高低へ対応付ける規則により得た確率であることを特徴とする。
【００１９】
本発明の第五の観点に係る音声情報処理装置は、
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が複数のカテゴリを持つとき、前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化の各カテゴリに該当する確率であることを特徴とする。
【００２０】
本発明の第六の観点に係る音声情報処理装置は、
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が高から低への変化を有するとき、前記単位ピッチ高低情報は、前記発声単位内で主観的かつ相対的なピッチが高から低に転じる確率であることを特徴とする。
【００２１】
本発明の第七の観点に係る音声情報処理装置は、
前記単位ピッチ情報生成手段において、前記単位ピッチ高低情報は前記入力テキスト中での前記発声単位の現れる順番で順次生成され、それぞれの単位ピッチ高低情報の生成においては、該当する発声単位以前の発声単位に対して生成された前記単位ピッチ高低情報を用いることを特徴とする。
【００２２】
本発明の第八の観点に係る音声情報処理方法は、
前記ピッチパタン生成手段において、前記単位ピッチ情報生成手段で生成された単位ピッチ高低情報を用いて、前記入力テキストをアクセント句に分割するとともにこのアクセント句に対してアクセント型を設定することを特徴とする。
【００２３】
本発明の第九の観点に係る音声情報処理方法は、
前記テキスト解析手段で得られたテキスト解析結果の属性に従って、前記入力テキストをアクセント句に分割するとともにそれぞれのアクセント句に対してアクセント句情報を生成するアクセント句分割手段を具備し、前記単位ピッチ情報生成手段においては、前記アクセント句分割手段で生成された前記アクセント句情報を用いて前記単位ピッチ高低情報を生成し、前記ピッチパタン生成手段においては、この単位ピッチ高低情報を用いて、前記それぞれのアクセント句に対するアクセント型を設定することを特徴とする。
【００２６】
本発明の第十の観点に係る音声情報処理方法は、
前記単位ピッチ高低情報は、当該発声単位が、主観的なピッチの高低を表す複数種類の値のそれぞれをとる確度であり、
前記ピッチパタン生成手段においては、前記確度を用いてアクセント句に対して設定されるアクセント型の確度を算出し、当該確度に応じたピッチパタンを生成すること、を特徴とする。
【００２７】
本発明の第十一の観点に係る音声情報処理方法は、
前記単位ピッチ高低情報は、当該発声単位が、主観的なピッチの高低の変化を表す複数種類の値のそれぞれをとる確度であり、
前記ピッチパタン生成手段においては、前記確度を用いてアクセント句に対して設定されるアクセント型の確度を算出し、当該確度に応じたピッチパタンを生成すること、を特徴とする。
【００２８】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【００２９】
図１は本発明の１形態を実施するために必要な構成を示すブロック図である。１はテキスト入力部、２はテキスト解析部、３は単位ピッチ情報生成部、４はピッチパタン生成部である。以下、テキストが入力されてからピッチパタンが生成されるまでの処理について説明する。
【００３０】
まず、テキスト入力部１に音声合成の対象となるテキスト（例えば、漢字カナ混じり文）が入力される。このテキスト入力部１では音声合成の可能な任意のテキストを受け付けることができる。テキスト入力部１に入力されたテキストはテキスト解析部２に送られる。
【００３１】
テキスト解析部２では、入力されたテキストに対して、形態素解析などのテキスト解析を行うことによって、テキストを形態素などの解析単位に分割するとともに、それぞれの解析単位に対して、読み、その解析単位に固有のアクセント型、品詞などの各種情報を付与する。これらの各種情報は、単位ピッチ情報生成部３に送られる。
【００３２】
単位ピッチ情報生成部３では、テキスト解析部２から送られた解析結果から、モーラあるいは音節などの発声単位のテキスト情報（以下、単位テキスト情報とよぶ）を生成し、この単位テキスト情報を元に、主観的かつ相対的なピッチ高低に関する情報（以下、単位ピッチ高低情報とよぶ）を各発声単位ごとに生成する。ここで、ピッチの主観的な高低とは、語を発声する際の音の高さの相対的な高低のことで、例えば、共通語アクセントにおいてアクセント型が１型の語である「音声（おんせい）」では、第一モーラが「高」で、第二モーラ以降が「低」である。なお、ピッチの高低に関する情報を生成する単位は、ここでは１モーラ（あるいは音節）とするが、隣り合った２モーラなどの複数モーラ（あるいは音節）でもよく、複数モーラの例については後述する。単位のピッチの主観的な高低に関する情報の生成には、上記の「単位テキスト情報」から、「ピッチの主観的な高低」への対応関係を記述した変換規則が用いられる。単位ピッチ高低情報は、発声単位のピッチが「高」か「低」かを表す２種類のカテゴリのいずれか、あるいはその発声単位がそれぞれのカテゴリに該当する確率とする。なお、上記の単位テキスト情報には、発声単位の所属する解析単位およびその前後の解析単位のテキスト属性（品詞、活用、アクセント型など）や、解析単位のアクセント核に対する当該単位の相対的な位置、当該およびその前後の単位の音韻種別（撥音、促音などの特殊な音韻か、否かなど）などが含まれる。単位ピッチ情報生成部３で生成された、各単位のピッチの高低に関する情報は、テキスト解析部２から送られた解析単位の各種情報と共に、ピッチパタン生成部４に送られる。
【００３３】
前記単位ピッチ高低情報でのピッチ高低のカテゴリは、「高」「低」の２種類以外にも、副次アクセントと呼ばれるような弱いアクセントのつく発声単位を「中」とするなど、３種類以上になってもよい。
【００３４】
また、前記の単位ピッチ高低情報は、発声単位内で主観的なピッチが「高」から「低」に転じる確度、すなわち発声単位がアクセント核になる確度でも良い。
【００３５】
前記の単位テキスト情報として、当該発声単位より入力テキスト内で前方に位置する発声単位に対して生成された単位ピッチ高低情報を用いることも可能である。図２には、単位ピッチ高低情報が、発声単位の主観的ピッチが「高」「低」それぞれのカテゴリに該当する確率である場合での１例を示している。まず、「高」「低」それぞれのカテゴリに該当する確率の初期値Ｐ（Ａ _０＝Ｈ）、Ｐ（Ａ _０＝Ｌ）を０．５と設定し、単位番号ｉを初期化する（Ｓ１，Ｓ２）。次にｉ番目の単位に関する単位テキスト情報を生成する（Ｓ３）。Ｓ３で生成された単位テキスト情報に、前方の発声単位のピッチが「高」（Ａ _ｉ−１＝Ｈ）という情報を追加し、この単位テキスト情報を、（「単位テキスト情報」から、「ピッチの主観的な高低」への対応関係を記述した）変換規則に入力することによって、Ａ _ｉ−１＝Ｈの場合の単位ピッチ情報Ｐ（Ａ _ｉ＝Ｈ│Ａ _ｉ−１＝Ｈ）、Ｐ（Ａ _ｉ＝Ｌ│Ａ _ｉ−１＝Ｈ）を生成する（Ｓ４）。同様に、前方の発声単位のピッチが「低」という情報を追加した単位テキスト情報を用いることにより、Ａ _ｉ−１＝Ｌの場合の単位ピッチ情報を生成する（Ｓ５）。次に以下の式に従って、ｉ番目の単位に対する単位ピッチ情報を生成する（Ｓ６）。
【００３６】
Ｐ（Ａ _ｉ＝Ｈ）＝Ｐ（Ａ _ｉ＝Ｈ│Ａ _ｉ−１＝Ｈ）＊Ａ（Ａ _ｉ−１＝Ｈ）＋Ｐ（Ａ _ｉ＝Ｈ│Ａ _ｉ−１＝Ｌ）＊Ａ（Ａｉ−１＝Ｌ）
Ｐ（Ａ _ｉ＝Ｌ）＝Ｐ（Ａ _ｉ−１＝Ｌ│Ａ _ｉ＝Ｈ）＊Ａ（Ａ _ｉ−１＝Ｈ）＋Ｐ（Ａ _ｉ−１＝Ｌ│Ａ _ｉ＝Ｌ）＊Ａ（Ａ _ｉ−１＝Ｌ）
ｉが最終単位の番号（Ｎ）であれば終了し、そうでなければｉをｉ＋１に更新してＳ３からステップを繰り返す。このように前方の発声単位に対して生成された単位ピッチ情報を用いることによって、前方の発声単位のピッチ高低が当該単位のピッチ高低に対して大きな影響を及ぼすような場合に、単位ピッチ高低情報を生成する。
【００３７】
上記の単位ピッチ高低情報の生成に用いる変換規則は、さまざまなテキストに対する各発声単位のテキスト情報を記述した「単位テキスト情報リスト」（図３）、それらの発声単位の主観的なピッチの高低を記述した「単位ピッチリスト」(図４)から、決定木などの手法を用いることによって、「単位テキスト情報」から「単位ピッチ高低」へ対応付ける規則を自動的に構築することが可能である（図５）。例えば、規則の構築に決定木の手法を用いる場合、発声単位のピッチ高低がそれぞれのカテゴリに該当する確率としては、決定木の末端（葉）の分類条件に当てはまるデータ数のうち正しい推定値が与えられたデータの割合から得ることができる。ただし、発声単位のピッチ高低がそれぞれのカテゴリに該当する確率は、上記の例に限らず、データから得られる適切な統計量であって当該確率を表現するようなものであれば何でもよい。また、上記の２つのリストを統計処理することによって、発声単位のピッチ高低がそれぞれのカテゴリに該当する確率を、「単位テキスト情報」から推定するような統計モデルを構築し、この統計モデルを変換規則として用いてもよい。
【００３８】
ピッチパタン生成部４では、単位ピッチ情報生成部３から送られた単位ピッチ高低情報と解析単位の各種情報に従って、ピッチパタンを生成する。単位ピッチ情報生成部３から送られた単位ピッチ高低情報からピッチパタンを生成するための、ピッチパタン生成部４の具体的な構成の１例を図６を用いて説明する。
【００３９】
図６はピッチパタン生成部の１形態を示すブロック図で、アクセント句分割部４１、最適アクセント型設定部４２、ピッチパタン生成処理部４３から構成されている。アクセント句分割部４１では、単位ピッチ情報生成部３から送られた単位ピッチ高低情報および解析単位の各種情報を元に、入力テキスト中の各解析単位の境界がアクセント句の境界に該当するか否かを順次決定した後、こうして決定されたアクセント句境界にしたがって入力テキストを分割する。この際、各解析単位の境界がアクセント句の境界に該当するか否かの決定は、隣接した解析単位の品詞や解析単位の境界の直前・直後のモーラのピッチの高低から、その形態素境界がアクセント句境界に該当するか否かを決定するような規則を作成することによって容易に実現できる。また、アクセント句分割部４１では、アクセント句を構成する形態素の情報に従って、それぞれのアクセント句に対する品詞、モーラ数などの付与も行う。次に、最適アクセント型設定部４２では、アクセント句中の各単位ピッチ高低情報を用いることによって、図７に示すように可能なすべてのアクセント型の実現する確度を計算し、その中で最大の確度となったアクセント型を選択することによって、アクセント句に対して最適なアクセント型を設定する。ここでは、各発声単位のピッチが「高」「低」のそれぞれのカテゴリに該当する確率をもとにそれぞれのアクセント型の実現する確度を計算している。単位ピッチ情報生成部３から送られた各単位ピッチ高低情報を「高」か「低」のいずれかのカテゴリとする場合では、そのカテゴリが「高」の場合、ピッチが「高」「低」のカテゴリに該当する確率はそれぞれ０．８、０．２などになり、カテゴリが「低」である場合にはそれぞれ０．２、０．８などとなる。このように、各モーラでのピッチが「高」「低」のそれぞれのカテゴリに該当する確率に基づいて設定されたアクセント型では、低いピッチになり得ないモーラで低いピッチになったり、高いピッチになり得ないモーラで高いピッチになるようなことは起こりにくい。ピッチパタン生成処理部４３では最適アクセント型設定部４２で設定されたアクセント型および品詞、モーラ数などの情報から適切なピッチパタンを生成する。ここでのピッチパタン生成は、従来からよく知られている、点ピッチモデルや藤崎モデルを用いた方法、ＨＭＭを用いた方法（宮崎ｅｔｃ．「多空間上の確率分布に基づいたＨＭＭによるピッチパタン生成」、日本音響学会講演論文集、１−７−１８、Ｍａｒ、１９９８）などのいずれの方法を用いても実現できる。
【００４０】
図８は請求項９に記載の別の実施例を説明するブロック図である。図１との違いを中心に説明をする。図８では、単位ピッチ情報生成部３の前にアクセント句分割部５が挿入されているのが特徴である。この場合、アクセント句分割部５では、解析単位の各種情報のみを用いてアクセント句への分割を行う。一方、単位ピッチ情報生成部３では、単位ピッチ情報の決定要因として、アクセント句分割部５で得られたアクセント句の情報（例えば該当モーラのアクセント句中での位置）も用いることができる。この構成においては、アクセント句分割の性能は上述の方法に劣る可能性があるが、一方で単位ピッチの情報の生成に関しては性能の向上が期待できる。ピッチパタン生成部４では、最適アクセント型選択部４２において、上述した第一の実施例の場合と同様の方法で、アクセント句分割部５で決められたアクセント句に対する最適なアクセント型を設定した後、ピッチパタン生成処理部４３においてアクセント型や形態素の情報を用いてピッチパタンを生成する。アクセント句分割部５において、複数の分割候補が出力できる場合は、図９のように各分割候補の中からもっとも妥当な分割候補を選択することもできる。
【００４１】
具体的には、まず最適分割候補のスコア（Ｓｃｏｒｅ）と分割候補番号（ｊ）および最適候補番号（ｊｂｅｓｔ）に初期値を設定する（Ｓ１，Ｓ２）。次に分割候補ｊを選択し（Ｓ３）、ｊ番目の分割候補のアクセント句に関する情報を用いて各モーラのピッチ高低とその確度を推定する（Ｓ４）。次にＳ４で推定された各モーラのピッチ高低と確度を用いて、各アクセント句に対して最適なアクセント型を設定し、設定されたそれぞれのアクセント型の確度を算出する（Ｓ５）。次に設定された各最適アクセント型の確度を積算することによって、ｊ番目の分割候補での各アクセント句にそれぞれ最適アクセント型が設定される確度（Ｐｊ）を計算する（Ｓ６）。ＰｊとＳｃｏｒｅを比較し（Ｓ７）、Ｐｊの方が大きければＳｃｏｒｅをＰｊに、ｊｂｅｓｔをｊに更新する（Ｓ８）。ｊが分割候補の総数（Ｎ）と一致していたら終了し、そうでなければ、ｊをｊ＋１に更新してＳ３からステップを繰り返す。ステップが終了したら、ｊｂｅｓｔ番目の分割候補を最適な分割候補として選択し、ｊｂｅｓｔ番目の分割候補での各アクセント句に設定された最適アクセント型をピッチパタンの生成に用いる。
【００４２】
図１０、図１１は設定されたアクセント型の確度を用いて、アクセント句に対して生成されたピッチパタンを変形する方法を示している。
図１０は、設定されたアクセント型の確度が小さい（例えば、確度＜０．２５）場合の変形の例である。例えば、まず確度に応じて定数α（０＜ α＜１）を決め、ピッチパタン変形の基準となる関数Ｆ _{０＿ｂａｓｅ} （ｔ）を用いて以下の式によって変形する。
【００４３】
Ｆ _０’ （ｔ）＝Ｆ _{０＿ｂａｓｅ} （ｔ）＋（ｆ _０（ｔ） − ｆ _{０＿ｂａｓｅ} （ｔ））＊ α （Ｆ _０’ （ｔ）：変形後の時刻ｔのピッチ、Ｆ _０（ｔ）：変形前の時刻ｔのピッチ）
なお、図１０では、Ｆ _{０＿ｂａｓｅ} （ｔ）は次の式で表される直線としている。
【００４４】
Ｆ _{０＿ｂａｓｅ} （ｔ）＝Ｆ _０（ｔ _０）＋（ｔ − ｔ _０）＊ａ（ｔ _０：基準点の時刻、ａ：直線の傾き（いずれも設定されたアクセント型によって決まる定数））
基準点の時刻ｔ_０は、設定されたアクセント型が０のときは先頭モーラの中心時刻、それ以外のときは最終モーラの中心時刻とし、傾きａも設定されたアクセント型によって適当な値を設定する（一般的には０または負の値）。この変形によって、設定されたアクセント型が誤っている可能性が高い場合は、アクセントの目立たない読み方を行うことができる。なお、ここで用いられる、設定されたアクセント型の確度の計算方法は、図の方法だけではなく、図３のように計算された確度をアクセント句のモーラ数に応じて補正する方法など、異なった方法を用いてもよく、ピッチパタンの変形を行う式は上記のものに限らず、さまざまなものを用いることができる。
【００４５】
図１１は、設定されたアクセント型の第一候補と第二候補の確度が近い場合の変形の例である。第一候補の確度がＰ _１、第二候補の確度をＰ _２で、例えばＰ _１＜Ｐ _２＊２である場合、第一候補に対して生成されるピッチパタンと第二候補に対して生成されるピッチパタンを確度に応じて重みを付けて加算して、このピッチパタンを用いる。例えば以下の式によって加算する。
【００４６】
Ｆ _０’ （ｔ）＝Ｆ _０＿１（ｔ）＊Ｐ _１／（Ｐ _１＋Ｐ _２）＋Ｆ _０＿２（ｔ）＊Ｐ _２／（Ｐ _１＋Ｐ _２）（Ｆ _０’ （ｔ）：加算後の時刻ｔのピッチ、Ｆ _０＿１（ｔ）：第一候補のアクセント型に対する時刻ｔのピッチ、Ｆ _０＿２（ｔ）：第二候補のアクセント型に対する時刻ｔのピッチ）
複数候補のアクセント型が有り得るアクセント句を実際に発声する際には、しばしばどちらとも取れるアクセントで読み上げられる。上述のような方法で加算して作られたピッチパタンを用いて、第一候補、第二候補のアクセント型のどちらとも取れるアクセント型で読み上げることによって、より実際の発声に近いアクセントでの読み上げが可能となる。ピッチパタンの加算に用いる式は上記のものに限らず、さまざまなものを用いることができる。
【００４７】
以上に述べた実施例では、単位ピッチ情報生成部３においてピッチの高低に関する情報を生成する単位を１モーラ（あるいは１音節）として説明したが、この単位は、隣りあった２モーラなど、複数のモーラ（あるいは音節）でもよい。隣り合った２モーラを単位とする場合に生成されるピッチの高低に関する情報は、「低→高」「高→低」および「変化なし」といったピッチの高低の変化を表す複数の値あるいはそれぞれの値をとる確度となる。このようにピッチの高低の変化を考慮する方法では、「変化なし」という値を設けることによって、助詞の「は」や「が」など前の語のピッチ高低に依存してピッチ高低が決まり、それ自体のピッチの高低を求めることが重要でない単位に関する規則がシンプルになることが期待される。また、ピッチの高低に関する情報が、ピッチの高低の変化を表す複数の値のそれぞれをとる確度である場合には、その確度からピッチ高低の変化の程度に関する手がかりを得ることができるので、確度に応じた高低変化をするピッチパタンを生成することが可能となる。
【００４８】
また以上の実施例では、単位ピッチ情報生成部３で得られた単位のピッチの高低に関する情報に対して適切なアクセント型を設定し、そのアクセント型を用いてピッチパタンを生成する方法を説明したが、ピッチパタン生成部４において、アクセント型を設定することなく、単位のピッチ高低に関する情報と、解析単位の各種情報から直接ピッチパタンを生成することもできる。例えば、２モーラを単位とする代表的なピッチパタンを複数個用意し、隣りあう２モーラに関するピッチ高低に関する情報とその２モーラの属する解析単位の各種情報に対して適切なピッチパタンを順次選択し、それらをつなぎあわせていくことによって、ピッチパタンを生成することが可能である（図１２）。単位ピッチ情報生成部３で生成される情報が、ピッチの高低あるいはその変化を表す複数の値のそれぞれをとる確度であれば、その確度に応じてピッチの変化の程度が異なるピッチパタンが選択される。なお、用意するピッチパタンの単位は３モーラなど、単位ピッチ情報生成部３で情報を生成する単位より短くなければ何でもよい。また、ピッチパタンを生成する方法は、上記の代表的なピッチパタンを選択して接続していく方法に限らず、単位のピッチ高低に関する情報と解析単位の各種情報に対して、適切なピッチパタンが生成できる方法であれば、どんな方法でもよい。
【００４９】
【発明の効果】
以上説明したように、本発明によると、モーラあるいは音節を発声単位とよぶ場合の、発声単位のピッチの高低に関する情報を単位ごとに生成し、これらの単位ピッチ高低情報を用いてピッチパタンを生成するので、全く有り得ない不自然なアクセントが付与されることが少なくなり、たとえ誤ったアクセントが付与されても、合成される音声が不自然になりにくい。
【００５０】
また本発明によれば、前記単位ピッチ高低情報を生成する規則は、データから自動的に生成できるので、規則の構築が容易であり、方言などの様々な読み上げへの適用が可能である。
【００５１】
また本発明によれば、発声単位ごとに単位ピッチ高低情報を生成し、この単位ピッチ高低情報を用いてピッチパタンを生成するので、テキストを構成する語の諸性質に加えて音韻の種類も同時に考慮したアクセント付与を行うことが可能である。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声情報処理装置を示すブロック図。
【図２】図１に示した単位ピッチ情報生成部３で、前方の発声単位のピッチ高低情報を用いる場合の処理方法を説明するフローチャート。
【図３】単位ピッチリストを説明するための図。
【図４】単位テキスト情報リストを説明するための図。
【図５】「単位テキスト情報」から「単位ピッチ高低情報」への変換規則を作成する方法を説明するための図。
【図６】図１に示したピッチパタン生成部４の構成の１例を示すブロック図。
【図７】図６に示した最適アクセント型選択部でのアクセント型選択方法を説明するための図。
【図８】本発明の別の一実施形態に係る音声情報処理装置を示すブロック図。
【図９】図８に示したアクセント句分割部５で複数分割候補が出力できる場合の処理方法を説明するフローチャート。
【図１０】設定されたアクセント型に応じてピッチパタンを変形する方法を説明するための図。
【図１１】設定されたアクセント型に応じてピッチパタンを変形する方法を説明するための図。
【図１２】単位ピッチ高低情報と解析単位の各種情報から直接ピッチパタンを生成する方法を説明するための図。
【符号の説明】
１テキスト入力部
２テキスト解析部
３単位ピッチ情報生成部
４ピッチパタン生成部
５アクセント句分割部
４１アクセント句分割
４２最適アクセント型設定部
４３ピッチパタン生成処理部

Claims

テキストを入力するテキスト入力手段と、
この手段に入力されたテキストを解析するテキスト解析手段と、
当該テキスト解析手段で得られたテキスト解析結果に従って、モーラあるいは音節を発声単位とよぶ場合の、発声単位のピッチの高低に関する確率情報である単位ピッチ高低情報を発声単位ごとに生成する単位ピッチ情報生成手段と、
当該単位ピッチ情報生成手段で得られた前記単位ピッチ高低情報を用いてピッチパタンを生成するピッチパタン生成手段を有することを特徴とする音声情報処理装置。
前記発声単位におけるピッチの主観的かつ相対的な高低を単位主観ピッチ高低とよび、この単位主観ピッチ高低が複数のカテゴリを持つとき、
前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低のカテゴリのどれに該当するかの情報から単位ピッチの高低へ対応付ける規則により得た確率であることを特徴とする請求項１に記載の音声情報処理装置。
前記発声単位におけるピッチの主観的かつ相対的な高低を単位主観ピッチ高低とよび、この単位主観ピッチ高低が複数のカテゴリを持つとき、
前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低の各カテゴリに該当する確率であることを特徴とする請求項１に記載の音声情報処理装置。
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が複数のカテゴリを持つとき、
前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化のカテゴリのどれに該当するかの情報から単位ピッチの高低へ対応付ける規則により得た確率であることを特徴とする請求項１に記載の音声情報処理装置。
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が複数のカテゴリを持つとき、
前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化の各カテゴリに該当する確率であることを特徴とする請求項１に記載の音声情報処理装置。
前記発声単位でのピッチの主観的かつ相対的な高低の変化を単位主観ピッチ変化とよび、この単位主観ピッチ変化が高から低への変化を有するとき、
前記単位ピッチ高低情報は、前記発声単位内で主観的かつ相対的なピッチが高から低に転じる確率であることを特徴とする請求項１に記載の音声情報処理装置。
前記単位ピッチ情報生成手段において、前記単位ピッチ高低情報は前記入力テキスト中での前記発声単位の現れる順番で順次生成され、前記それぞれの単位ピッチ高低情報の生成においては、該当する発声単位以前の発声単位に対して生成された前記単位ピッチ高低情報を用いることを特徴とする請求項１〜６のいずれか１項に記載の音声情報処理装置。
前記ピッチパタン生成手段においては、前記単位ピッチ情報生成手段で生成された単位ピッチ高低情報を用いて、前記入力テキストをアクセント句に分割するとともにこのアクセント句に対してアクセント型を設定することを特徴とした請求項１〜７のいずれか１項に記載の音声情報処理装置。
前記テキスト解析手段で得られたテキスト解析結果の属性に従って、前記入力テキストをアクセント句に分割するとともにそれぞれのアクセント句に対してアクセント句情報を生成するアクセント句分割手段を具備し、
前記単位ピッチ情報生成手段においては、前記アクセント句分割手段で生成された前記アクセント句情報を用いて前記単位ピッチ高低情報を生成し、前記ピッチパタン生成手段においては、この単位ピッチ高低情報を用いて、前記それぞれのアクセント句に対するアクセント型を設定することを特徴とした請求項１〜７のいずれか１項に記載の音声情報処理装置。
前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ高低の各カテゴリに該当する確率であり、前記ピッチパタン生成手段においては、前記確率を用いて前記アクセント句に対して設定されるアクセント型の確度を算出し、当該確度に応じたピッチパタンを生成することを特徴とした請求項８あるいは９のいずれか１項に記載の音声情報処理装置。
前記単位ピッチ高低情報は、前記発声単位が前記単位主観ピッチ変化の各カテゴリに該当する確率であり、前記ピッチパタン生成手段においては、前記確率を用いて前記アクセント句に対して設定されるアクセント型の確度を算出し、当該確度に応じたピッチパタンを生成することを特徴とした請求項８あるいは９のいずれか１項に記載の音声情報処理装置。