JP3616250B2

JP3616250B2 - 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体

Info

Publication number: JP3616250B2
Application number: JP13932398A
Authority: JP
Inventors: 理水野; 信弥中嶌
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-05-21
Filing date: 1998-05-21
Publication date: 2005-02-02
Anticipated expiration: 2018-05-21
Also published as: JPH11202884A

Description

【０００１】
【発明の属する技術分野】
この発明は合成音声メッセージ編集、作成方法、及びその方法を実施する装置とその方法を記録した記録媒体に関し、特に、所望の韻律特性を有する音声メッセージを容易に、かつ短時間に合成する編集、作成方法に関する。
【０００２】
【従来の技術】
会話における発声者の音声からは、話された言葉の言語上の意味だけでなく、発声者の感情、意志、等が感じられる。音声に含まれる言語上の意味以外のこのような情報を言語外情報と呼ぶ。聞き手はこれらの言語外情報を、発声される音声の抑揚、アクセント、継続時間長などから感じ取ることができる。従来、ＴＴＳ（Ｔｅｘｔ−Ｔｏ−Ｓｐｅｅｃｈ）と呼ばれるテキストからの音声メッセージ合成方法としては、テキストを音声に変換する「規則による音声合成方法」が研究開発されている。この方法は、録音された音声を編集、合成する場合とは異なり、出力音声に制限がないことや、後でメッセージの一部を変更する場合に、原発声者の声質と同じにするため、変更する部分について原発声者の音声を必要とするという問題は解決される。しかしながら、韻律生成規則が朗読調音声の韻律特性を基準としているため、合成音声が朗読調で単調な音声になってしまう。実際の会話においては、会話音声の韻律特性は話者の感情、意志により大きく変化する場合が多い。
【０００３】
【発明が解決しようとする課題】
そこで、規則による合成音声を、より自然な音声に近づけるため、韻律特性を編集することが試みられているが、そのような編集を自動化することが難しく、利用者が経験と知識に基づいて編集を行う必要がある。その編集においては、イントネーション、合成しようする単位音声の基本周波数（ピッチ）、振幅値（パワー）、継続時間長、その他の韻律パラメータを任意に修正する構成を取り入れることが難しく、合成された音声中の単調な朗読調に聞こえる箇所の韻律パラメータを任意に修正して所望の韻律特性を有する音声メッセージを得ることが困難であった。
【０００４】
また、韻律パラメータの修正を容易にするため、合成により得られた韻律パラメータをディスプレイ上に図形の形に表示し、マウス、その他のポインティングツールにより視覚的に修正変更作業を行い、合成音声の出力による確認を行いながら、所望の言語外情報を有した音声メッセージを合成するというＧＵＩ（グラフィックユーザインタフェース）を使った方法も提案されている。しかしながら、この方法は韻律パラメータに視覚的に修正を加えるというものであるため、実際の修正作業に経験と音声学的な知見とが必要とされ、通常のオペレータには困難な作業である。
【０００５】
米国特許４，９０７，２７９、日本国特許出願公開５−３０７３９６、３−１８９６９７及び５−１９７８０にはいずれも、テキスト中にアクセント、ポーズなどの韻律制御コードを挿入し、それに基づいて合成音声の編集を行うことが示されているが、言語外情報と韻律制御による効果の関係の知識を有しない者にも容易に、かつ自由に言語外情報の編集ができるようにすることは困難である。
【０００６】
この発明の第１の目的は、音声メッセージを合成するオペレータが、所望の韻律パラメータを有する音声メッセージを容易に合成することができる合成音声メッセージ作成、編集方法、及びその方法を実施する装置を提供することである。
この発明の第２の目的は、感情、態度、理解の度合いなどの言語情報には含まれない情報（言語外情報）を多様に表現できる合成音声メッセージ作成、編集方法、及びその方法を実施する装置を提供することである。
【０００７】
この発明の第３の目的は、合成音声メッセージの言語外情報を編集する際に、韻律パラメータの制御による効果が視覚的に把握し易い合成音声メッセージ作成、編集方法、及びその方法を実施する装置を提供することである。
【０００８】
【課題を解決するための手段】
この発明の第１の観点によれば、テキストに対応して規則により合成された音声メッセージの言語外情報を編集する方法は、以下のステップを含む：
（ａ）入力テキスト中の、言語外情報を与えるべき文字又は文字列の位置に、上記言語外情報に対応する韻律制御のために、セマンティック層（Ｓ層と呼ぶ）とインタープリテーション層（Ｉ層と呼ぶ）とパラメータ層（Ｐ層と呼ぶ）とからなる階層形記述言語による上記Ｓ層及び／又はＩ層の韻律制御コマンドを挿入し、上記Ｐ層は少なくともピッチ及びパワーを含む制御可能な韻律パラメータのグループであり、上記Ｉ層は上記Ｐ層の韻律パラメータに対する制御の詳細を指定する韻律制御コマンドのグループであり、上記Ｓ層は言語外情報をそれらの意味を表す語句又は単語で表し、上記Ｉ層のそれぞれ少なくとも１つの韻律制御コマンドからなるコマンドのセットを実行させる韻律制御コマンドのグループであり、上記Ｓ層の各韻律制御コマンドに対応する上記Ｉ層のセットの韻律制御コマンドの関係と、上記Ｉ層の韻律制御コマンドの、上記Ｐ層の韻律パラメータに対する制御の詳細を表す韻律制御規則が予め韻律特性規則データベースに格納されており、
（ｂ）上記テキストから規則による合成音声の韻律パラメータ列を求め、
（ｃ）上記韻律パラメータ列中の上記言語外情報を与えるべき文字又は文字列に対応する韻律パラメータを上記韻律制御コマンドにより上記韻律特性規則データベースの韻律制御規則を参照して制御し、
（ｄ）上記制御された韻律パラメータを含む上記韻律パラメータ列から音声を合成し、合成音声メッセージを出力する。
【０００９】
この発明の第１の観点による合成音声メッセージの編集装置は、
入力されたテキスト中に挿入する韻律制御コマンドを、セマンティック層とインタープリテーション層とパラメータ層とからなる階層形記述言語により記述して入力するテキスト・韻律制御コマンド入力部と、上記Ｐ層は少なくともピッチ及びパワーを含む制御可能な韻律パラメータのグループであり、上記Ｉ層は上記Ｐ層の韻律パラメータに対する制御の詳細を指定する韻律制御コマンドのグループであり、上記Ｓ層は言語外情報をそれらの意味を表す語句又は単語で表し、上記Ｉ層のそれぞれ少なくとも１つの韻律制御コマンドからなるコマンドのセットを実行させる韻律制御コマンドのグループであり、
上記テキストから上記韻律制御コマンドを分離するテキスト・韻律制御コマンド分離部と、
分離された上記テキストから「規則による合成」方法に基づいて韻律パラメータ列を生成する音声合成情報変換部と、
分離された上記韻律制御コマンドからその韻律制御コマンドのテキスト中における位置情報を抽出する韻律制御コマンド解析部と、
上記テキスト中の位置情報および分離された上記韻律制御コマンドに基づいて韻律パラメータ列を制御修正する韻律特性制御部と、
上記韻律特性制御部からの修正された上記韻律パラメータ列に基づいて合成音声を生成する音声合成部、
とを含む。
【００１０】
この発明の第２の観点によれば、テキストに対応して規則により合成された音声メッセージの言語外情報を編集する方法は、以下のステップを含む：
（ａ）上記テキストから規則による合成音声の韻律パラメータ列を求め、
（ｂ）複数の予め決めた言語外情報を特徴付ける韻律特性をそれぞれ基本韻律制御規則とし、上記韻律パラメータ列中の、言語外情報を与えるべき文字又は文字列に対応する韻律パラメータを上記基本韻律制御規則の少なくとも１つにより修正し、
（ｃ）上記修正された韻律パラメータを含む上記韻律パラメータ列から音声を合成し、合成音声メッセージを出力する。
【００１１】
この発明の第２の観点による合成音声メッセージの編集装置は：
上記テキストから規則による合成音声の韻律パラメータ列を求める構文解析手段と、
複数の予め決めた言語外情報を特徴付ける韻律特性をそれぞれ基本韻律制御規則とし、上記韻律パラメータ列中の、言語外情報を与えるべき文字又は文字列に対応する韻律パラメータを上記基本韻律制御規則の少なくとも１つにより修正する韻律特性制御手段と、
上記修正された韻律パラメータを含む上記韻律パラメータ列から音声を合成し、合成音声メッセージを出力する合成音声生成手段、
とを含む。
【００１２】
この発明の第３の観点によれば、入力されたテキストに対応し、規則により合成される音声の言語外情報を編集する方法は、以下のステップを含む：
（ａ）テキストを分析し、規則による音声合成に基づいて韻律パラメータ列を得て、
（ｂ）上記韻律パラメータ列中の、言語外情報を与えるべき文字又は文字列に対応する韻律パラメータを、上記言語外情報の特徴的な韻律パラメータによる変形情報により修正し、
（ｃ）上記修正された韻律パラメータにより音声を合成し、
（ｄ）上記韻律パラメータの変形情報を、上記テキストの文字の位置、大きさ、書体、表示色などの文字変換情報に変換し、
（ｅ）上記文字変換情報にもとづき、上記テキストの文字を変換して表示する。
【００１３】
この発明の第３の観点による合成音声の編集装置は、
合成音声制御記述言語情報を入力する入力手段と、
上記入力された合成音声制御記述言語情報を、テキストと、韻律制御コマンドに分離する分離手段と、
上記分離された韻律制御コマンドの内容と、そのテキスト上の位置情報とを解析するコマンド解析手段と、
音声の合成規則が格納された第１データベースと、
上記テキストに対し、上記第１データベースを参照して音声を規則合成するための韻律パラメータを生成する構文解析手段と、
上記韻律制御コマンドの韻律特性規則が格納された第２データベースと、
上記第２データベースを参照して上記解析された韻律制御コマンド及び位置情報にもとづき、上記韻律パラメータを変形する韻律特性制御手段と、
上記変形された韻律パラメータにもとづき、上記テキストを音声合成する合成音声生成手段と、
上記韻律パラメータと文字変換特性規則を格納した第３データベースと、
上記変形された韻律パラメータを、上記第３データベースを参照して、文字の位置、大きさ、書体、表示色などの文字変換情報に変換する文字変換情報生成手段と、
上記文字変換情報により上記テキストの文字を変換する文字変換手段と、
上記変換されたテキストを表示する表示器と、
を含む。
【００１４】
上記第３の観点による編集装置において、上記第３データベースに上記韻律制御コマンドと文字変換特性規則を格納し、上記文字変換情報生成手段により、上記韻律制御コマンドに基づき上記第３データベースを参照して上記テキストを文字変換情報に変換してもよい。
上記第１、第２お呼びだ３の観点による編集方法を実施する手順を記録した記録媒体もそれぞれこの発明に含まれる。
【００１５】
【発明の実施の形態】
第１実施例
実音声による対話において、話者は感情、態度、理解など言語情報に含まれてない様々な情報、ニュアンスを表現するため、発声する言語音声に強さ、速度、ピッチの変化を与え、それにより会話の表現力を高めており、それが自然な会話音声であると認識される。そこで、テキストからの規則による音声合成においても、所望の言語外情報を付加することが試みられている。それらはいずれも特定な種類の音韻情報を制御するコマンドをテキスト中に挿入するため、ユーザは言語情報に付いての知識を要求される。
【００１６】
日常対話の有する情報或はニュアンスをテキスト音声合成装置を使用して伝えようとする場合、合成音声の韻律パラメータを詳細に制御することが必要となる。一方において、音声合成或はテキスト音声合成装置に関する知識を有しないユーザにとっては、ピッチ或は持続時間というものが音声の情報或はニュアンスの伝達にどの様に影響するのか見当がつかない。そこで、ユーザの使い勝手を考慮したこの発明による階層型音声合成制御記述言語ＭＳＣＬ（Ｍｕｌｔｉ−ｌａｙｅｒｅｄＳｐｅｅｃｈ／ＳｏｕｎｄＳｙｎｔｈｅｓｉｓＣｏｎｔｒｏｌＬａｎｇｕａｇｅ）をまず説明する。
【００１７】
先のユーザの使い勝手とは大きく分けて二つある。一つは、テキスト音声合成装置に入力されるテキストを簡単に記述することができ、専門的知識がなくても利用目的だけを考慮して記述することができるという初心者向けの使い易さである。インターネットにおいて文字の大きさと位置関係を規定するＨＴＭＬにおいては、例えばタグと呼ばれる＜Ｈ１＞と＜／Ｈ１＞でテキストの文字列を囲むことにより、章立ての大きさで文字を表示することができ、誰にでも同じホームページを作成することができる。この様なデフォルトのルールは初心者に好都合であるばかりではなく、記述作業量の軽減にもつながる。もう一つのユーザの使い勝手とは、詳細な制御の記述をすることができるという熟練者向けの使い易さである。先に述べた方法は文字の形状の変更及び向きを変えたりすることはできない。より目立つホームページを作成したい場合、文字列一つについてみても、様々な変化をつけたいというニーズが生ずる。専門の知識が必要であっても、より完成度の高いものの実現が望まれる場合がある。
【００１８】
この発明の第１実施例では、音声の言語外情報を制御するという立場に立ち、使い勝手の前者を実現するものとして、様々な言語外情報をそれぞれ直接的に表す単語又は語句が意味的な韻律制御コマンドとして集められたＳｅｍａｎｔｉｃ層（以下、Ｓ層と称す）を設け、使い勝手の後者を実現するものとしてＳ層の各韻律制御コマンドを解釈し、音声の韻律パラメータに対する直接的な制御を規定するための韻律制御コマンドの集合であるＩｎｔｅｒｐｒｅｔａｔｉｏｎ層（以下、Ｉ層と称す）を設ける。更に、Ｉ層の各制御コマンドによる制御の対象となる韻律パラメータの集合をＰａｒａｍｅｔｅｒ層（以下、Ｐ層と称す）とする。この第１実施例は、図１に示すように、これら３層を階層構造として有する韻律制御記述体系を使用して、テキストに韻律制御コマンドを挿入する。
【００１９】
Ｐ層は主として次に述べるＩ層の韻律制御コマンドにより選択、制御される韻律パラメータの集まりであり、これらの韻律パラメータは、音声合成システムで用いられる音韻毎のピッチ、パワー、継続時間、音韻情報などの制御対象となる韻律特性のパラメータである。韻律パラメータはＭＳＣＬによる韻律制御の最終的制御対象であり、このパラメータを基に合成音声を制御する。Ｐ層の韻律パラメータは音声の基本的パラメータであり、同様の韻律パラメータを使用する他の様々な音声合成システムや音声符号化システムにこの発明の合成音声編集技法を適用可能にするインタフェース的性格を有している。Ｐ層の韻律パラメータは既存の音声合成装置を使用しているところから、その音声合成装置のスペックに依存している。
【００２０】
Ｉ層はＰ層の韻律パラメータに対し、各パラメータの値やパラメータの時間変化パターン（韻律特性）、アクセントなどの制御を行うコマンドで構成される。Ｉ層のコマンドにより音韻レベルにおける韻律パラメータの詳細な物理量の制御を行って、図１のＩ層コマンドグループ内に示すような、例えば「ビブラート」、「鼻濁音化」、「ダイナミックレンジ大」、「ゆっくり」、「ピッチを高く」などのコマンドを実現することができる。それらを実現するために、Ｐ層の対応する韻律パラメータのパターンを制御する記号による記述をＩ層の韻律制御コマンドとして使用する。Ｉ層の韻律制御コマンドからＰ層の韻律パラメータへのマッピングは、それぞれ予め決めたデフォルトの制御規則によって行われる。Ｉ層は次に述べるＳ層の韻律制御コマンドを解釈してＰ層に制御方法を送る層でもある。即ち、Ｉ層のコマンドはＰ層における制御対象となる各韻律パラメータ（１つ又は複数）に対する制御を指定する記号をセットとして有する。また、各韻律の時間変化パターンの指定、その補間方法の指定もすることができる。Ｓ層にある各コマンドは全てＩ層のコマンドのセットに変換され、更に詳細な韻律制御をすることができるに到る。Ｉ層のコマンド例とその制御対象としている韻律パラメータ及びその制御内容を表１に示す。
【００２１】
【表１】

選択されたＳ層の１つの韻律制御コマンドに対応するＩ層の韻律制御コマンドは１つとは限らず、同時に複数あってもよい。ここで使用されているＩ層のコマンドを記述する記号に付いては後述するが、｛｝内のＸＸＸＸは制御対象であるテキストの文字又は文字列を表す。
【００２２】
Ｉ層の韻律制御コマンドの英語テキストへの適用例を次ぎに示す。
Ｗｉｌｌｙｏｕｄｏ［Ｆ０ｄ］（２．０）｛ｍｅ｝ａ［〜／］｛ｆａｖｏｒ｝
コマンド［Ｆ０ｄ］はピッチのダイナミックレンジを次ぎに続く（２．０）で指定される２倍に設定する。このコマンドの制御対象はすぐ後に続く｛ｍｅ｝である。次のコマンド［〜／］は最終母音のピッチパターンを上昇させるコマンドであり、制御対象はすぐ後に続く｛ｆａｖｏｒ｝である。
【００２３】
Ｓ層は意味的に韻律制御を行う。Ｓ層は、感情、気分、意志、性格、性別、老若など、表現しようとする言語外情報を具体的に表す言葉、例えば図１のＳ層に示す ”怒り”、”喜び”、”弱い”、”泣き”、”Ｉｔｅｍｉｚｅ”、”疑い”などの集合である。これらの単語の先頭にマーク”＠” が着けられて、Ｓ層の韻律制御コマンドとして使用され、これらのコマンドの後に続く｛｝内の文字列に対する韻律制御を指定する。例えば、 ”怒り” の発声を担うコマンドはピッチ、パワーのダイナミックレンジを大きくとり、 ”泣き” の発声を担うコマンドは各音韻毎のピッチパターンを揺らし、特徴的な文末ピッチパターンを持たせる。”Ｉｔｅｍｉｚｅ” は箇条項目の読み上げ調を指定するコマンドであり、疑問文であっても文末のピッチパターンを降下させる。コマンド ”弱い” はピッチ、パワーのダイナミックレンジを小さくし、コマンド ”疑い” は語尾のピッチを上昇させる。これらの制御例はこれらのコマンドが日本語音声の編集に適用される場合の例である。この様に、Ｓ層のそれぞれのコマンドはＩ層の１つ又は複数の韻律制御コマンドを予め決めたパターンに従って実行させる。Ｓ層は韻律その他の音声学的な知識を必要とせずに感情、文章構造という様な直観に依存する制御記述をすることができる。また、ＨＴＭＬ、ＬａＴｅＸその他のコマンドと対応することもできる。
表２はＳ層の韻律制御コマンドの用例を示す。
【００２４】
【表２】

上述のＭＳＣＬを使った音声合成の実施例を図２のフローチャートと図３の合成音声編集装置を参照して次に説明する。ただし、ここでは、挿入する制御コマンドがＳ層の韻律制御コマンドである場合に付いて説明する。
Ｓ１：合成編集しようとする音声メッセージに対応する日本語テキストをキーボードその他の入力装置を介して入力する。
【００２５】
Ｓ２：韻律特性の修正を行う文字あるいは文字列に対し、それらを指定して韻律制御コマンドを入力し、テキスト中に挿入する。
Ｓ３：テキストと韻律制御コマンドを一括してテキスト・韻律制御コマンド分離部１２に入力し、テキストと韻律制御コマンドを分離する。その時、テキスト中における韻律制御コマンドの位置情報も得る。
【００２６】
Ｓ４：分離された韻律制御コマンドから韻律制御コマンド解析部１５において韻律制御コマンドの制御手順を抽出をする。
Ｓ５：構文解析部１３において音声合成規則データベース１４を参照してテキスト文字列を意味のある単語列に分解する。次いで、それらの各単語における文字列に対する韻律パラメータを得る。
Ｓ６：韻律特性制御部１７は韻律制御コマンド、位置情報及び制御手順を参照し、制御対象となっている文字列に対応する韻律パラメータ列を、韻律特性規則データベース１６に規定されている個別に指定されたＩ層の韻律制御コマンドに対応する韻律制御規則あるいはＳ層の韻律制御コマンドで指定されたＩ層の韻律制御コマンドのセットに対応する韻律制御規則に従って韻律パラメータを制御する。
【００２７】
Ｓ７：合成音声生成部１８は制御された韻律パラメータをもとに合成音声を生成する。
次に、図３を参照して編集装置の実施例を具体的に説明する。テキスト・韻律制御コマンド入力部１１に対して、キーボードその他のエディタを介して、テキスト中に韻律制御コマンドを含む日本語テキストが入力される。例えば、「わたしのなまえはナカジマです。」という日本語テキストについてはＭＳＣＬのＩ層とＳ層による記述法により次の如き記述がなされる。

ここで、［Ｌ］は継続時間長を表し、対応する中括弧｛｝内のフレーズの発声時間を指定する。［＞］はピッチのフレーズ成分（あるいは指定）を表し、｛｝内の文字列の発声基本周波数を１５０Ｈｚから８０Ｈｚに変化させることを指定する。［／−＼］はピッチの局所変化を示している。／、−、＼は、それぞれ基本周波数の時間変化を上昇、平坦、下降に指定する。これによりパラメータの時間変化が記述できる。ところで、｛わたしのなまえは｝については、基本周波数を１５０Ｈｚから８０Ｈｚに変化させることを指定する［＞］（１５０，８０）という韻律制御コマンドの中に、更に、ピッチを局所変化させる［／−＼］（１２０）という韻律制御コマンドが挿入されていて、韻律制御コマンドが入れ子の状態になっている。［＃］は合成音声に無音区間を挿入することを指定する。この場合の無音区間は１ｍｏｒａである。 ”ｍｏｒａ” は平均的１音節の長さを単位とする。［＠Ｏｎｅｇａｉ］はＳ層の韻律制御コマンドであり、ここでは「祈願」する様な場合の音声の韻律パラメータとして韻律制御コマンドを組み合わせたものをもっていることになる。
【００２８】
以上の入力情報は、テキスト・韻律制御コマンド分離部１２に入力され、ここにおいてテキストと韻律制御コマンド情報とに分離され、構文解析部１３と韻律制御コマンド解析部１５に送り込まれる。構文解析部１３に送り込まれたテキストは音声合成規則データベース１４を参照して周知の「規則による合成」方法に基づいて文節の区切り情報、発音列情報、アクセント情報に変換され、韻律パラメータに変換される。韻律制御コマンド解析部１５に送り込まれた韻律制御コマンド情報から韻律制御コマンドとテキストの位置情報が抽出される。韻律制御コマンド及び位置情報は、韻律特性制御部１７に与えられる。韻律特性制御部１７は韻律特性規則データベース１６を参照し、与えられたＩ層及び／又はＳ層のコマンドの規則により、制御対象としているテキスト中のどの韻律パラメータをどの様に制御するかの指定を得て、それに従って韻律パラメータを変化、修正する。この規則による制御は、音声の振幅値、基本周波数、継続時間長、その他の韻律パラメータの値を指定し、あるいはこれに加えて韻律パラメータの時間変化パターン（韻律パターン）の形状も指定する。韻律パラメータの値の指定は、テキストから「規則による合成」により得られる韻律パラメータ列に変化の割合又は差分を与える相対制御と、パラメータのとるべき絶対的な値を指定する絶対制御の二通りがある。例えば前述のピッチレンジを２倍にするコマンド［Ｆ０ｄ］（２．０）は前者の例であり、ピッチを１５０Ｈｚから８０Ｈｚに変化させるコマンド［＞］（１５０，８０）は後者の例である。
【００２９】
韻律特性規則データベース１６には、各韻律制御コマンドに対応して韻律パラメータをどのように変化、修正するかを決めた規則が格納されている。韻律特性制御部１７で制御されたテキストの韻律パラメータは合成音声生成部１８に与えられて合成音声信号とされ、スピーカ１９に与えられる。
予め、Ｓ層の韻律制御コマンドで表される様々な言語外情報を含む音声、即ち、Ｓ層の韻律制御コマンドに対応する恐れ、怒り、否定、等様々な表情を含む音声を入力音声分析部２２で分析し、それによって得られるそれぞれの種類毎に共通な韻律特性の組み合わせ（ピッチ、パワー、継続時間長のパターンの組み合わせであり、その組み合わせを韻律制御規則あるいは韻律特性規則と呼ぶ）が韻律特性／制御コマンド変換部２３により、各Ｓ層のコマンドに対応するＩ層の韻律制御コマンドのセットとして得られており、それらＳ層のコマンドとそれぞれ対応するＩ層のコマンドセットが韻律特性規則として韻律特性規則データベース１６に蓄積されている。
【００３０】
更に、一旦、韻律特性規則データベース１６に蓄積された韻律特性パターンは、表示形合成音声編集部２１により必要に応じてＳ層のコマンドを指定することにより選択して韻律特性／制御コマンド変換部２３に読みだし、その韻律特性パターンを表示形合成音声編集部２１に表示し、その表示画面上でＧＵＩにより韻律パラメータに対し修正を加え、韻律特性制御コマンド変換部２３から韻律特性規則データベース１６に書き込むことにより対応する韻律特性パターンを更新することもできる。韻律特性／韻律制御コマンド変換部２３により得られた韻律制御コマンドを韻律特性規則データベース１６に蓄積する場合、この発明の合成音声編集装置の利用者はＩ層の頻繁に使われる韻律制御コマンドの組み合わせを、Ｓ層の１つの新しいコマンドとして所望の名称を付けて登録してもよい。この登録機能は、ユーザが、既に登録されているＳ層の韻律制御コマンドでは得られないある言語外情報を必要とする毎に、Ｉ層の多くの韻律制御コマンドを駆使してその言語外情報を含む合成音声を得たりする無駄をなくしてくれる。
【００３１】
上述したこの発明による階層形音声合成制御記述言語による合成音声に対する言語外情報の付与は、どの様な種類の母国語による音声でも有している基本的な韻律パラメータを制御することにより実現しており、また、どの様な言語においても話者の感情や意志などがその人の音声の韻律特性に変化を与えることは共通の事実である。従って、この発明による階層形音声合成制御記述言語をどの様な種類の言語における合成音声の編集にも適用できることは明かである。
【００３２】
この様に、Ｓｅｍａｎｔｉｃ層、Ｉｎｔｅｒｉｔａｔｉｏｎ層、及びＰａｒａｍｅｔｅｒ層による階層形音声合成制御記述言語を使用してテキストに韻律制御コマンドを書き込むので、一般のオペレータもＳ層の韻律制御コマンドの記述により容易に合成音声の言語外情報の編集を行うことができ、一方、高度な知識を有するオペレータは、Ｓ層とＩ層の韻律制御コマンドを使って記述することにより、より詳細な編集を行うことができる。
【００３３】
上述のＭＳＣＬで扱う声質には、男女声の性別の音声の他に、ピッチの高い声から低い声までのいくつかの声質を指定できるようになっている。これは、単純にピッチ周波数の高低を変えるだけでなく、高い声質あるいは低い声質の周波数スペクトルに合わせてスペクトル全体を変化させることであり、この機能により複数の話者を実現できる。また、ＭＳＣＬでは音楽、環境雑音、肉声などの音データファイルの入力が可能である。より効果的なコンテンツ作成には、音声の他に音楽や肉声などの音情報が不可欠であるためである。ＭＳＣＬにおいて、これら音情報のデータは合成音声の付加情報として扱う。
【００３４】
図２で説明したこの第１実施例による合成音声編集方法は、その処理手順をプログラム（ソフトウエア）として構築し、音声合成装置や韻律編集装置のコンピュータに接続されるディスク装置や、フロッピーディスクやＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、合成音声編集作成を行う際にインストールする事により、容易に言語外情報を合成音声に付与する編集が可能である。
【００３５】
上述では、実施例を主に日本語を例に説明し、幾つかの英語への適用例を示したが、一般に日本語の場合、テキストを仮名で表記すると、ほとんどの文字は１音節となるので、テキストにおける文字位置と音節の対応が比較的簡単に決められる。従って、韻律制御対象の音節の位置と対応する文字の位置から判定するのは比較的容易である。しかしながら、英語の場合のように、日本語以外の言語においては単語内の音節の位置がその単語の文字列内の位置と単純に対応しない場合が多くある。そのような言語にこの発明を適用するには、その言語によるテキスト中の各単語に対し、発音が記載されたその言語による辞書を参照して、その単語の文字列に対する音韻位置を検出すればよい。
第２実施例
第２実施例による合成音声編集方法を実施する装置としては図３に示すものを使用することができるので、以下の第２実施例の説明は図３を参照して説明する。前述のように、図３の韻律特性規則データベース１６には、Ｉ層の韻律制御コマンドに対応した韻律パラメータに対する制御規則のみならず、Ｓ層の各韻律制御コマンドに対応してそれらを解釈したＩ層の韻律制御コマンドの組が格納されている。ここで、Ｉ層のコマンドによる韻律パラメータの制御として、単語音声に関するピッチパターン及び継続時間長に関するいくつかの制御例を述べ、各制御による合成音声の心的な傾向を調べることでＳ層のコマンドの作成を行う例を説明する。
【００３６】
まず、ピッチパターンの制御方法は、アクセントの変化などの聴覚的な違和感がない範囲を制御の基準として、パターンを図４に示すように、単語音声の韻律パターンの始端（第１音節の母音の始端）からピッチのピークまでの区間Ｔ１と、ピークから最終母音の開始までの区間Ｔ２と、最終母音区間Ｔ３の３つに分割し、以下に示すような６種類の変形操作（ａ）〜（ｆ）をすることが可能であり、それらを図中に破線のパターンａ，ｂ，ｃ，ｄ，ｅ，ｆで示す。実線は変形しない原ピッチパターン（例えば構文解析により音声合成規則データベース１４から得られた標準ピッチパターン）を示す。
【００３７】
（ａ）ピッチパターンのダイナミックレンジを大きくする。
（ｂ）ピッチパターンのダイナミックレンジを小さくする。
（ｃ）語尾の母音のパターンを単調に下降するパターンにする。
（ｄ）語尾の母音のパターンを単調に上昇するパターンにする。
（ｅ）第１音節の母音の始端からパターンのピークまでを上に凸のパターンにする。
【００３８】
（ｆ）第１音節の母音の始端からパターンのピークまでを下に凸のパターンにする。
継続時間長の制御方法は、（ｇ）各音素を均一に縮めるか、あるいは（ｈ）伸ばす場合の２種類の操作が可能である。
各制御方法による心的な影響を調べた結果を以下に述べる。日本語単語音声に上記の制御方法（ａ）〜（ｆ）によりピッチパターンの変形操作を行い、各合成音声を聴取して感じ取られる心情（言語外情報）は以下のようである。
【００３９】
（１）強さや積極的な姿勢が感じられる。
（２）弱々しさや消極的な姿勢が感じられる。
（３）了解を示している状態が感じられる。
（４）疑問を示している状態が感じられる。
（５）安心感や穏やかさが感じられる。
【００４０】
（６）不安感や嫌々感が感じられる。
被験者７名に日本語単語音声 ”仕方ない” のピッチパターンを前述の方法（ａ）〜（ｆ）により変形操作を行った場合の合成音声を聴取し、それぞれ感じ取られた上記心情（１）〜（６）に対する回答率を図５に示す。この実験結果から、図４に示したピッチパターンに対する６種類の変形（ａ）〜（ｆ）は、かなり高い割合で上記心情（１）〜（６）と認識されていることがわかる。そこで、この第２実施例では、これらのピッチパターンの変形をそれぞれの心情（１）〜（６）に対応するものと決め、基本韻律制御規則として使用する。
【００４１】
同様に、単語音声に継続時間長の伸縮操作を行い、各合成音声を聴取し、合成音声から感じる発声者の心情は以下のようである。

【００４２】
（１０）せかしている。
被験者７名に日本語単語音声 ”青い” の韻律パターンに対する継続時間長のｇ）伸長、（ｈ）短縮変形操作を行い、合成音声に対し感じ取られた上記心情（７）〜１０）の回答率を図６に示す。この実験結果も、継続時間長を伸ばすことは、はっきり話そうとする意志が感じられ、縮めることは、あわてて話していると感じられることを示している。従って、継続時間長の伸縮もこれらの心情に対応した基本韻律制御規則として使用する。
【００４３】
以上の結果に基づいて、ピッチパターンの変形操作と継続時間長の伸縮操作を組み合わせることにより、感じる発声者の心情を調べた。
前述の日本語単語音声”仕方ない”を用いて被験者７名に聴取させ、連想する心情を自由に表記させた。その結果を図７に示す。この結果から、基本韻律制御規則の組み合わせによって様々な心情を表現でき、かつ、回答率からこれらの心情は、高い共通性を持って感じられることがわかった。また、これらの心情は、韻律特性パターンの持つ言語外情報の影響の相互作用によってなされる結果であるといえる。
【００４４】
以上のように、ピッチパターンの変形（ダイナミックレンジの変形及びエンベロープの変形）と継続時間長の伸縮を組み合わせることで多種多様な言語外情報を合成音声に付与できることがわかる。基本操作の心的な影響を考慮し、組み合わせ操作を行うことで、所望の言語外情報を容易に生成できる可能性もあり、これをそれぞれの心情に対応する韻律特性規則として図３の韻律特性規則データベース１６に蓄積することが可能である。これらの韻律特性規則はＧＵＩを用いた韻律編集装置のための操作基準としても有効であると考えられる。また、韻律特性パターンとしてピッチパターンと継続時間長のみならず、振幅パターン（パワーパターン）の変形も基本韻律制御規則として組み合わせることにより、更に多様な表情を合成音声に付加することができる。
【００４５】
そこで、この発明の第２の実施例においては、図３において、予め表現可能なそれぞれの心情に対応する基本韻律制御規則であるピッチパターンの変形と、パワーパターンの変形と、継続時間の伸縮の少なくとも１つ以上の組み合わせを韻律特性規則として予め韻律特性規則データベース１６に蓄積しておく。テキストから音声を合成する際に、テキスト中の単語音声毎に、表現しようとする心情に対応する韻律特性規則（即ち、ピッチパターンの変形と、パワーパターンの変形と、継続時間長の伸縮との組み合わせ）を韻律特性規則データベース１６から読みだし、韻律特性制御部１７でテキスト音声単語の韻律パターンに適用することにより、合成音声に所望の表情（言語外情報）を付加することができる。
【００４６】
上述の第２実施例の説明から明らかなように、第２実施例では、テキストに対する韻律制御のコマンド記述法としてＩ層レベルだけでの記述でもよいが、勿論、第２実施例で示した多様な表現が可能なそれぞれの心情を実現する韻律特性規則をＭＳＣＬ記述法のＳ層における韻律制御コマンドとして規定し、第１実施例と同様にＭＳＣＬ記述に基づいて図３の装置により音声合成を実施してもよい。その場合の記述例を次の表３に示す。
【００４７】
【表３】

表３はこの第２実施例の実験結果により作成したＳ層の５つのコマンド例と、それらに対するＩ層のコマンドでの解釈を示す。｛｝内の ”ほんと” はコマンドの制御対象の語句例である。表３中、［Ｌ］は、継続時間長の指定を行い、その数値は、伸縮の倍率を示している。［Ｆ０ｄ］は、ピッチパターンのダイナミックレンジの指定を行い、その数値は、レンジの倍率を示している。［／Ｖ］は、始端からピークまでのピッチパターンを下に凸に変形する指定を行い、その数値は変形の度合いを示している。
【００４８】
以上説明したように、この発明の第２実施例では、入力されるテキスト中に韻律パラメータを修正する韻律制御コマンドを記述し、そのコマンドに対応する韻律特性規則が指定する韻律特性パターンの変形組み合わせによりテキストの韻律パラメータを修正する。韻律特性規則は、音声のパワーパターン変化、ピッチパターン変化、継続時間長変化の組み合わせを指定し、或はこれに加えて韻律パラメータの時間変化パターンの形状をも指定する。
【００４９】
韻律パラメータの値の指定の仕方として、「規則による合成」により得られた韻律パラメータに基づいてパラメータに変化修正を与える相対制御と、パラメータの絶対的な修正を行なう絶対制御の２種類を有する。また、頻繁に使われる韻律制御コマンドの組み合わせ集約は韻律制御コマンドを韻律特性規則データベース１６に蓄積するに際して実施され、新しい韻律制御コマンドとして韻律パラメータの指定に使用する。更に、集約した韻律制御コマンドの組み合わせを合成音声の韻律パラメータの修正に使用する。例えば、ＭＳＣＬにおけるＳ層の各韻律制御コマンドに対応して基本制御規則の組合せを決め、予め韻律特性規則データベース１６に格納しておく。あるいは、韻律特性規則データベース１６には基本韻律制御規則のみを格納しておき、Ｓ層の各韻律制御コマンドに対応するＩ層の１つ又は複数の韻律制御コマンドにより基本韻律制御規則の組合せを指定し、データベース１６から読み出しても良い。上述の第２実施例では、テキストに対する韻律制御の記述方としてＭＳＣＬ記述方を使用する場合で説明したが、他の記述方を使用しても良い。
【００５０】
上述した第２実施例は特定な韻律特性の組み合わせを韻律特性規則とみなすことに基づいており、日本語以外の様々な母国語における韻律パラメータの制御にもこの第２実施例を適用することができることは明かである。
上述したこの第２実施例による合成音声編集方法は、その処理手順をプログラム（ソフトウエア）として構築し、音声合成装置や韻律編集装置のコンピュータに接続されるディスク装置や、フロッピーディスクやＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、合成音声編集作成を行う際にインストールする事により、容易に言語外情報を合成音声に付与する編集が可能である。
第３実施例
ところで、図３のテキスト・韻律制御コマンド入力部１１により、この発明のＭＳＣＬ記法を使ってテキストに韻律制御コマンドを挿入した場合に、それぞれのコマンドによりテキストの合成音声の継続時間長、ピッチパターン、振幅パターンなどがどのように制御されるかを視覚的に確認できると都合がよい。ここでは、コマンドで制御されたテキストの韻律特性パターンの表示例と、その表示を実現するための構成について以下に説明する。
【００５１】
まず、継続時間長の韻律特性に関して調べた実験結果について示す。この継続時間長を操作した場合、時間長が長い場合はゆっくりとした音声に、また短い場合には早口の音声に聞こえる。実験として、日本語単語 ”うらやましい” の表記文字列の間隔を変えることにより長さを変えた同じ単語を複数並べて表記し、上記単語の合成音を、その継続時間長を普通、長い、短いの３種類に変化させて生成し、１４人の被験者に聞かせ、表記されたどの長さの単語にマッチするかを投票させた結果、次のようなほぼ予測された結果が得られた。
【００５２】
継続時間長が短い：文字間隔が狭い（８６％）
継続時間長が長い：文字間隔が広い（１００％）
次に、基本周波数（ピッチ）及び振幅値（パワー）の韻律特性に関して調べた実験結果について示す。前記と同じ単語音声 ”うらやましい” に対し、その合成音声のピッチ及びパワーを以下のように設定した９つの合成音声を生成し、それぞれの合成音声に対し、図８に示す９種類の表記（ａ）〜（ｉ）のうちどの表記がマッチするか、アンケート用紙を用いて１４人の被験者に投票させた（複数投票可）。その結果を次表４に示す。
【００５３】
【表４】

次に、抑揚の強弱について調べた実験結果を示す。抑揚とはピッチの単語内での変化の大きさ（ダイナミックレンジ）を示し、抑揚が大きければ「強め、積極性」を感じ、小さければ「弱め、消極性」を感じる。単語音声 ”うらやましい” に対し、その合成音声の抑揚を普通、強、弱の３種類に変化させ、図９に示す単語表記のどれにマッチするか評価実験を行った結果、次のように結論できた。
【００５４】
抑揚が強→ピッチパターン（変化時系列）に合わせて文字位置を変化させ、更に傾きを加える（７１％）
抑揚が弱→語頭及び語尾の文字位置を高くする（４３％）
次に、合成音声を生成するために入力する日本語文章と、その入力テキストに対し、ＭＳＣＬ記法による韻律制御コマンドを挿入した混合記述と、その挿入した韻律制御コマンドに対し上述の実験結果を適用した場合の表示例をそれぞれ図１０Ａ，１０Ｂ，１０Ｃに示す。
【００５５】
図１０Ｂ中の［Ｌ］は、音声の継続時間長の制御コマンドであり、次の時間は８５００ｍｓで全文章を終了させるという指示を与える。［／−｜＼］はピッチパターンを制御するコマンドであり、各記号は順にピッチパターンの上昇（／）、平坦（−）、アンカー（｜）、下降（＼）を示している。次の数値（２０）は１音韻当り２０Ｈｚの変化率で周波数を変化させることを示し、アンカー ”｜” によって最後の文字の音節のピッチパターンを降下させることを示している。［＃］はポーズを挿入するコマンドであり、１モーラ程度の無音区間を挿入する。［Ａ］は振幅値を制御するコマンドであり、振幅値をこれまでより、つまり ”この鳥” に対しては１．８倍にする。以上はＩ層のコマンドである。また、［＠ｎａｋｉ］は、嘆きの感情をもつ音声を生成するためのＳ層のコマンドである。
【００５６】
この記述例に対し、この実験に基づく記述法を適用した表示例を図１０Ｃを参照して説明する。入力した日本語の文字列が横方向に配列されるが、その各行の始めに表示される ”−” なる表示１は、編集操作以前の合成結果のピッチ周波数の位置を示す。つまり、ピッチ周波数に関する編集操作を行なわない場合、各行の文字列は［−］の位置を各文字の中心の高さとして一列に並ぶ。ピッチ周波数の変更を行った場合は、その周波数の高低に従い各文字中心の表示の高さが”−”に対して変わる。
【００５７】
各行の文章の下部にこれに沿って記されている参照番号２で示す点 ”．” は、その間隔によって各文字の平均的な継続時間長Ｔ_ｍ（日本語の場合１音節長、即ち１ｍｏｒａ）を示す。継続時間長の操作が行われない場合、表示される文字列の各文字はその文字の有する音節数と同じｍｏｒａ数が与えられる。継続時間長の変更を行った場合は、その時間伸縮に合せて文字列の文字の表示間隔が変化する。各行の終りに記されている参照番号３で示す記号 ”。” は、各行の終点を示している。その位置まで音韻が継続していることを示す。
【００５８】
図１０Ｃ中の最初の行の参照番号４で示す３つの文字が参照番号１で示す記号”−”の位置から線形に上昇している。これは、入力されたＭＳＣＬのコマンドの「２０Ｈｚ毎のピッチパターンの上昇」に基づいていることを示している。同様に参照番号５で示す４つの文字は平坦のピッチパターンを、参照番号６で示す２つの文字は降下のピッチパターンを示している。
【００５９】
参照番号７で示す記号 ”＃” はポーズの挿入されている事を示す。参照番号８で示す３つの文字はその前後の文字と比べてサイズの大きな文字になっている。これは振幅値が増大していることを示している。
第２行目の参照番号９で示す２モーラの空白は、継続時間長を制御するコマンドに従い、その直前の文字がＴ_１（３ｍｏｒａ＝３Ｔ_ｍ）だけ継続することを示している。
【００６０】
最終行の参照番号１０で示す５つの文字はフォントが他のものと比べ異なっている。この例では文字列１０以外はゴシック体であるが文字列１０は線の細いフォントとしている。このフォントはＳ層のコマンドを導入していることを示している。文字の高さは、Ｓ層のコマンドに従って変化した結果を示している。
以上の全体の処理手順の例を図１１に示す。まず音声合成すべき日本語テキスト、例えば図１０Ａに示した文章を入力し（Ｓ１）、この文章を表示器に表示し、これを見ながら、通常（従来）の規則合成により得られる韻律特性の修正を行なう文字に対し、その修正を行うべき韻律制御コマンドを入力し、例えば図１０Ｂに示す情報、つまり合成音声制御記述言語情報にする（Ｓ２）。
【００６１】
この情報、つまり日本語テキストに韻律制御コマンドを組込んだ情報を、この発明が適用された装置に入力する（Ｓ３）。
この入力された情報に対し、分離手段により日本語テキストと、韻律制御コマンドとを分離する（Ｓ４）。この分離は、ＭＳＣＬ記述の記述手法と、字句解析手法とから、各コードが韻律制御コマンドに属するか日本語テキストに属するかを判別して行う。
【００６２】
分離された韻律制御コマンドを解析して、その韻律制御コマンドがどのようなものであって、日本語テキスト上のどの位置（文字乃至文字部分）に対するものかの参照位置情報、更に韻律制御コマンドの実行順序を抽出する（Ｓ５）。なお、得られた順にコマンドを実行する場合は、韻律制御コマンドの実行順序の抽出は不用である。またステップＳ４で分離された日本語テキストを日本語構文解析などを行い従来の規則合成法にもとづき、韻律パラメータを求める（Ｓ６）。
【００６３】
この韻律パラメータを、ステップＳ５で求めた韻律制御コマンドとその参照位置情報を用いて文字の位置、大きさなどの情報に変換し（Ｓ７）、その変換された位置、大きさなどの情報をもとにステップＳ４で分離された日本語テキストの対応文字などを変換し（Ｓ８）、表示器へ表示し、例えば図１０Ｃに示した日本語文章表示（発音表記を除く）を得る（Ｓ９）。
【００６４】
またステップＳ５で得た韻律制御コマンド及び位置情報を参照して、ステップＳ６で得た韻律パラメータを制御し（Ｓ１０）、その制御された韻律パラメータにもとづき、ステップＳ４で分離された日本語テキストに対する音声合成信号を生成し（Ｓ１１）、その音声合成信号を音声として放音する（Ｓ１２）。ステップＳ９で表示されている状態を見ながら、ステップＳ１２で放音された音声を聴いて、目的とする表現が、つまりＭＳＣＬ記述が正しく行われたかを確認することができる。
【００６５】
この装置の機能構成は図１２に示すように、テキスト・コマンド入力部１１により、例えば図１０Ｂに示したＭＳＣＬ記述されたデータが入力され、これはテキスト・コマンド分離部１２により、日本語テキストと、韻律制御コマンドとに分離される。この日本語テキストは語構文解析部１３で音声合成規則データベース１４を参照して韻律パラメータが作られる。一方、韻律制御コマンド解析部１５により、分離された韻律制御コマンドの内容と、その文字列（テキスト）上の位置情報を抽出し、これら韻律制御コマンドとその参照位置情報とにより、ＭＳＣＬの韻律特性規則データベース１６を参照して、構文解析部１３よりの韻律パラメータに対する変更が韻律特性制御部１７により行われる。この変更された韻律パラメータを用いて前記分離された日本語テキストに対する合成音声信号の生成が、合成音声生成部１８により行われ、この合成音声信号がスピーカ１９により音声として放音される。
【００６６】
一方、韻律特性制御部１７で変更された韻律パラメータと、日本語テキストの各文字の位置、大きさなどの文字変換情報への変換規則がデータベース２４に格納されており、このデータベースを参照して、文字変換情報生成部２５により、韻律特性制御部１７よりの変更された韻律パラメータが、文字の位置、大きさなど文字変換情報に変換され、この文字変換情報により文字変換部２６において、日本語テキストの各文字に対する変換がなされ、その変換された日本語テキストが表示器２７に表示される。
【００６７】
ここに示したＭＳＣＬの制御コマンドの文字情報への変換規則は、使用者によって変更可能である。文字の高さの変化率や文字の大きさ、表示色は使用者によって設定でき、ピッチ周波数の変化を文字の大きさで表現したり ”．” や ”−” といった記号は、利用者の要求によって変更可能である。図１２に示した構成において、破線で示すように、構文解析部１３よりの日本語テキストと、韻律制御コマンド解析部１５で得られた解析結果とを文字変換情報生成部２５に入力し、データベース２４には韻律パラメータ文字変換特性規則の代わりに韻律制御コマンド文字変換特性規則を格納しておき、例えば韻律制御コマンドがピッチを変化させるものであれば、それに応じた文字高さの変更情報を、日本語テキストの対応する文字に与え、韻律制御コマンドが振幅値を増大する場合は、日本語テキストの対応する部分に文字を大きくする情報を与える。なお、日本語テキストを文字変換部２６にそのまま与えると表示器２７には例えば図１０Ａに示すように表示される。
【００６８】
前述した表示文字の大きさとそれに関連付けて感じ取られる音声の大きさの関係、及び文字の表記位置の高さとそれに関連付けられて感じ取られる音声ピッチの高さの関係は、日本語に限らず、様々な母国語に普遍的に当てはまるものと考えられる。従って、第３実施例は、日本語以外の様々な母国語に適用できることは明かである。この様な文字の大きさ、配置などによる韻律パラメータの制御の表現をそれぞれの母国語に適用する場合、第３実施例で示した表記方法を、更にその母国語の文字の特徴に合った表記方法と組み合わせて使用してもよい。
【００６９】
図１１で説明したこの発明による第３実施例の合成音声編集方法は、その処理手順をプログラム（ソフトウエア）として構築し、音声合成装置や韻律編集装置のコンピュータに接続されるディスク装置や、フロッピーディスクやＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、合成音声編集作成を行う際にインストールする事により、容易に言語外情報を合成音声に付与する編集が可能である。
【００７０】
なお、上記第３実施例では、合成音声に言語外情報を付与する方法として、ＭＳＣＬによる方法を示したが、この例に限らず、ＧＵＩによる編集装置により韻律特性を変更する、音声合成手段から出力される韻律パラメータを直接操作するなどの方法も可能である。
発明の効果
この発明の第１の実施例の合成音声メッセージ編集、作成方法及び装置によれば、「規則による合成」の発する合成音声が不自然であったり、或は朗読調であるところからユーザに単調な印象を与える場合、オペレータはＭＳＣＬ記述によりテキスト中に韻律制御コマンドを挿入することにより韻律の修正の必要な文字列に対して所望の韻律パラメータを容易に付与することができる。
【００７１】
また、相対的な制御手法により全ての合成音声を修正する必要はなく、「規則による合成」の結果について必要な箇所を必要なだけ修正するものであるので、音声メッセージ合成に必要とされる労力を大幅に軽減することができる。
更に、実際の音声或は表示型合成音声編集装置から得られた韻律パラメータに基づいて生成した韻律制御コマンドを蓄積、利用することにより、格別の音声学的専門知識を必要とせずに、一般のユーザによっても容易に所望の音声メッセージを合成することができる。
【００７２】
この発明の第２実施例による合成音声メッセージ編集作成方法、装置によれば、複数種類の韻律パターン変化の組み合わせによる制御コマンドのセットを韻律特性規則としてそれぞれの種類の言語外情報と対応させてデータベースに蓄積してあるので、入力テキストに対し、様々な言語外情報を簡単に付加することができる。
【００７３】
この発明の第３実施例による合成音声メッセージ編集作成方法、装置によれば、韻律特性の操作（編集）を施した文字の並び方によって、視覚的に操作（編集）内容を確認でき、より効率的な修正作業を行える。長い文章を編集する場合は、確認の全ての音声を聞く事なく、修正の必要な文字列を容易に見いだすことができる。
【００７４】
また、文字を印字する方法と同等であるため、格別の表示および印刷方法を必要としない。合成音声編集システムが極めて簡易なものとなるという利点も有している。
表示機構にポインティングデバイスなどを受け付ける機能を付し、文字位置などの情報を変更する機構を備えることで、使用者がＧＵＩを用いた編集と同様の効果を得られるという利点もある。
【００７５】
更にこの発明は従来の韻律特性の詳細な表示からも容易に変換できるため、詳細な制御の必要な場合にも対応できる。この発明により、一般のユーザによっても効率的に所望の音声メッセージを作成することができる。
この発明を日本語以外の言語、例えばドイツ語、フランス語、イタリア語、スペイン語、韓国語、その他に適用可能なことは明かである。
【図面の簡単な説明】
【図１】この発明の第１実施例におけるＭＳＣＬ記述法を説明するための図。
【図２】第１実施例における合成音声の編集処理手順を示すフロー図。
【図３】第１実施例の合成音声編集装置を示すブロック図。
【図４】第２実施例におけるピッチパターンの変形を説明するための図。
【図５】第２実施例におけるピッチパターンの変形による聴取結果を示す表。
【図６】第２実施例における継続時間長伸縮操作による聴取結果を示す表。
【図７】第２実施例におけるピッチパターン変形と継続時間長伸縮の組み合わせによる聴取結果を示す図。
【図８】第３実施例においてピッチとパワーの韻律特性に関する聴取実験に使用したコマンド表記例。
【図９】第３実施例においてピッチのダイナミックレンジに関する聴取実験に使用したコマンド表記例。
【図１０】Ａは第３実施例における入力日本語文章例を示す図、ＢはそのＭＳＣＬ記述例を示す図、Ｃは第３実施例によるコマンドの効果の表示例を示す図。
【図１１】第３実施例による編集と表示の処理手順を示すフロー図。
【図１２】第３実施例による合成音声編集装置を示すブロック図。

Claims

ニュアンスを表現する言語外情報を直接的に表す単語又は語句が意味的な韻律制御コマンドとして集められた集合をセマンティック層（Ｓ層と呼ぶ）とし、
上記言語外情報を実現するための韻律パラメータを制御し、記号により記述された韻律制御コマンドが集められた集合をインタープリテーション層（Ｉ層と呼ぶ）とし、
韻律特性のパラメータ（韻律パラメータ）が集められた集合をパラメータ層（Ｐ層と呼ぶ）とし、
韻律制御コマンドが文字又は文字列に付されたテキストに対応する合成音声メッセージを作成する方法であり、
Ｓ層の各韻律制御コマンドと、上記Ｓ層の韻律制御コマンドによって実行するＩ層の韻律制御コマンドのセットとの関係と、上記Ｉ層の韻律制御コマンドの韻律パラメータに対する制御の詳細を表す韻律制御規則とが格納された韻律特性規則データベースを用い、以下のステップを含む
（ａ）上記テキストを文字列と、韻律制御コマンド及びその韻律制御コマンドが付けられた文字又は文字列の文字列中における位置情報とに分離し、
（ｂ）分離された文字列を、規則による合成音声の韻律パラメータ列に変換し、
（ｃ）韻律特性規則データベースを参照して、分離された韻律制御コマンド中のＳ層のものに対し指定されたＩ層中の韻律制御コマンドを求め、その指定された韻律制御コマンドに対し指定された韻律パラメータに対する制御を求め、
（ｄ）その指定された韻律パラメータに対する制御を、上記韻律パラメータ列中の、Ｓ層中の韻律制御コマンドの位置情報と対応する韻律パラメータに対して行い、
（ｅ）上記制御された韻律パラメータを含む上記韻律パラメータ列から音声を合成し、合成音声メッセージを出力する。
請求項１記載の合成音声メッセージ作成方法において、上記ステップ（ｄ) における韻律パラメータの制御は、上記ステップ（ｂ) で得られた上記韻律パラメータ列に対し、パラメータの値を相対的に変化させる制御である。
請求項１記載の合成音声メッセージ作成方法において、上記ステップ（ｄ）における韻律パラメータの制御は、上記ステップ（ｂ) で得られた上記韻律パラメータ列に対し、パラメータの絶対的値を指定して変化させる制御である。
請求項１乃至３のいずれかに記載の合成音声メッセージ作成方法において、上記ステップ（ｃ）は上記テキストの言語の発音を有する辞書を参照して上記文字又は文字列に対応する音韻及び音節の位置を検出し、上記韻律制御コマンドで処理する。
ニュアンスを表現する言語外情報を直接的に表す単語又は語句が意味的な韻律制御コマンドとして集められた集合をセマンティック層（Ｓ層と呼ぶ）とし、
上記言語外情報を実現するための韻律パラメータを制御し、記号により記述された韻律制御コマンドが集められた集合をインタープリテーション層（Ｉ層と呼ぶ）とし、
韻律特性のパラメータ（韻律パラメータ）が集められた集合をパラメータ層（Ｐ層と呼ぶ）とし、
制御を行うべき文字又は文字列に対応してＳ層とＩ層とＰ層とからなる階層形記述言語による韻律制御コマンドが挿入されたテキストを入力するテキスト・韻律制御コマンド入力部と、
言語外情報に対応する韻律制御のためのＳ層の各韻律制御コマンドと、上記Ｓ層の韻律制御コマンドによって実行するＩ層の韻律制御コマンドのセットとの関係と、上記Ｉ層の韻律制御コマンドの韻律パラメータに対する制御の詳細を表す韻律制御規則とが格納された韻律特性規則データベースと、
上記テキストから上記韻律制御コマンドを分離するテキスト・韻律制御コマンド分離部と、
分離された上記テキストから「規則による合成」方法に基づいて韻律パラメータ列を生成する音声合成情報変換部と、
分離された上記韻律制御コマンドからその韻律制御コマンドのテキスト中における位置情報を抽出する韻律制御コマンド解析部と、
上記テキスト中の位置情報および分離された上記S層の韻律制御コマンドにより、韻律特性規則データベースの韻律制御規則を参照して言語外情報を与えるべき文字又は文字列に対応する韻律パラメータを制御し、上記I層の韻律制御コマンドにより、韻律特性規則データベースの韻律制御規則を参照して言語外情報を与えるべき文字又は文字列に対応する韻律パラメータまたは韻律パラメータの時間変化またはアクセントの制御を行う韻律パラメータを制御する韻律特性制御部と、
上記韻律特性制御部からの修正された上記韻律パラメータ列に基づいて合成音声を生成する音声合成部、
とを含む合成音声メッセージ作成装置。
請求項５記載の合成音声メッセージ作成装置において、
言語外情報を含む入力音声を分析して韻律パラメータを得る入力音声分析部と、
上記入力音声の韻律パラメータを韻律制御コマンドのセットに変換する韻律特性／韻律制御コマンド変換部と、
その変換された韻律制御コマンドのセットを上記言語外情報と対応して格納する韻律特性データベースと、
を更に含む。
請求項５記載の合成音声メッセージ作成装置において、更に表示画面とＧＵＩ手段を有する表示型合成音声編集部が設けられ、上記表示型合成音声編集部は、上記韻律特性データベースから所望の言語外情報に対応する韻律制御コマンドのセットを上記韻律特性／韻律制御コマンド変換部に読みだし、上記表示画面に表示し、上記ＧＵＩ手段により上記韻律制御コマンドのセットを修正し、上記韻律特性データベースの対応する韻律制御コマンドセットを更新するものである。
請求項１〜４のいずれかに記載した合成音声メッセージ作成方法の各処理手順をコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。