JP2007086316A

JP2007086316A - 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2007086316A
Application number: JP2005274064A
Authority: JP
Inventors: Satoshi Furuta; 訓古田; Takahiro Otsuka; 貴弘大塚; Isamu Ogawa; 勇小川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-09-21
Filing date: 2005-09-21
Publication date: 2007-04-05

Abstract

【課題】従来、音声を主な出力情報とする機器で、ユーザが音楽等を聴取中に、電子メール等の音声情報を出力する時、聴取中の音楽の曲調に応じたテキスト音声合成が為されなかったり、曲の重要な部分等に合成音声が被ったりすることで、音楽聴取を妨げる。
【解決手段】「明るい」「暗い」「速い」という曲調情報を音楽情報から抽出し、この曲調情報を参照して韻律制御パラメータと素片制御パラメータを曲調合成制御手段で算出し、韻律制御パラメータから韻律設定手段で求めた入力テキストの解析結果の韻律情報と素片制御パラメータにより、曲調に合わせ入力テキストの曲調合成音声信号を音声合成手段で生成して、ユーザの音楽聴取を妨げない曲調に応じた品質の高い合成音声を生成する。
【選択図】図１

Description

この発明は、音楽情報の再生機能を有し、音声を主な出力情報とする携帯電話装置やＰＤＡ（Personal Digital Assistance）等の情報通信端末装置に適用されるテキスト音声合成装置およびその方法、ならびにその方法をコンピュータに実現させるプログラムおよびプログラムを記憶したコンピュータ読み取り可能な記憶媒体に関するものである。

任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部（テキスト解析）、音韻処理部（韻律設定）、音声合成部の３つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音韻処理部においてアクセントやイントネーションの処理が行われて、音韻記号、ピッチ長、継続時間長などの音素環境情報が出力される。そして音素環境情報を根拠に、音声素片辞書に登録された音声素片を選択する。最後に、音声合成部で音韻記号、ピッチ長、継続時間長などの情報から音声を合成する。

ここで、音声素片とは、母音をＶ、子音をＣと表すと、ＣＶ、ＶＣ、ＶＣＶ等の音声合成単位や、複数の音声合成単位から成る音素列単位、あるいは単語単位や短文章単位で音声信号中から切り出される素片であり、切り出された音声波形またはその波形から何らかの方法で抽出されたパラメータ系列を表している。音素環境は、当該音声素片の環境要因であり、例えば、当該音声素片の音素名、先行する音素、後続する音素、ピッチ周期、ピッチパターン、継続時間長、ＣとＶの音素境界位置、パワー、モーラ数、アクセント位置等の要素が挙げられる。

音声を主な出力情報とする情報通信端末装置において、テキスト音声合成を用いて、音楽聴取時の雰囲気を壊したりせずに音楽に合わせて任意の文字列を読み上げる技術として、特開２００１−１４５１６７号公報（特許文献１）及び特開２００３−５８１７８号公報（特許文献２）に記載の技術がある。

特開２００１−１４５１６７号公報（特許文献１）では、再生している音楽からそのテンポおよび音程を抽出して、前記音楽のテンポに対応したクロックを生成し、テキスト音声合成出力を前記クロックに同期させて出力したり、テキスト音声合成出力の音程を、前記抽出した音程に合致するように、ピッチコンバータを用いて合成音声のピッチを補正して出力する技術が開示されている。
この特許文献１の技術は、音声のテンポや音程に合わせて音声合成を行うことができるものの、「落ち着いた（暗い）」「明るい」といったような曲の雰囲気（以下、曲調と称する）に応じて、韻律（イントネーション）や音声素片等を制御して音声合成を行っておらず、また、合成音声の音程の制御は、音声合成出力後の信号に対して行うので、不自然な合成音になる。

また、特開２００３−５８１７８号公報（特許文献２）では、再生している音楽の曲と曲の切れ間を検出して、テキスト音声合成出力を前記切れ間に再生したり、テキスト情報の優先度によっては直ちにテキスト合成音声を曲に重畳して再生するという技術が開示されている。
この特許文献２の技術は、曲と曲の切れ間で音声合成を行うために、現在聴いている曲が終了するまで合成音声が出力されない一方、テキスト情報の優先度が高い場合には直ちに曲に重畳して音声合成されてしまうため、場合によっては曲の重要な部分、例えば、曲のサビ部分や、歌い出し部分に合成音声が被ってしまい音楽聴取を妨げてしまう。

特開２００１−１４５１６７号公報（第１７頁〜２１頁、第９図）特開２００３−５８１７８号公報（第５頁〜１０頁、第８図）

上述のように、従来の技術では、音声を主な出力情報とする機器において、ユーザが音楽等を聴取している際に、電子メール等の音声情報を出力する場合、聴いている音楽の曲調に応じたテキスト音声合成が為されなかったり、曲の重要な部分等に合成音声が被ったりすることにより、音楽聴取を妨げてしまうという問題がある。

この発明は、上記問題点を解決するためになされたもので、音楽聴取を妨げずに音声読み上げするように、曲調に応じたテキスト音声合成（以下、曲調合成と称する）を行う音声合成方法およびその装置を得ることを目的とする。
またこの発明は、曲の重要な部分などを避けて音声合成を行う音声合成方法及びその装置を得ることを目的とする。

この発明に係る楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置に適用されるテキストの音声合成装置は、
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段とを具備する。

この発明によれば、「明るい」「暗い」「速い」といったような楽曲の様態を表現する曲調情報に適合した韻律制御パラメータと入力テキストの解析結果に基づく韻律情報と曲調情報に適合した素片制御パラメータにより、曲調に合わせ入力テキストの曲調合成音声信号を生成するので、ユーザの音楽聴取を妨げない曲調に応じた品質の高い合成音声を生成することができる。

以下、図面を参照してこの発明の実施の形態を説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音声合成装置の構成を示すブロック図である。図１において、１はテキスト入力端子、２は音楽情報入力端子、３は言語処理手段、４は言語辞書、５は曲調合成制御手段、６は韻律設定手段、７は音声合成手段、８は出力端子である。
図１において、言語処理手段３は、テキスト入力端子１から入力された入力テキスト１０１に対して言語辞書４を相互参照して形態素解析、構文解析を行い、入力テキスト１００１の読みや品詞情報等のテキスト解析結果１０２を出力する。

曲調合成制御手段５は、音楽情報入力端子２から入力された音楽情報１０３、例えば、音楽波形信号や、MIDI (Musical Instrument Digital Interface)データやMP3(MPEG Audio Layer-3)などの音響信号圧縮アルゴリズムで圧縮された符号化データなどの、音楽波形信号を表現する符号パラメータ等から曲調の分析を行い、曲調情報として、例えば、曲の明暗を表す「明るさ」や曲の速度を表す「テンポ」「リズム」等を算出すると共に、韻律制御パラメータ１０４および素片制御パラメータ１０６を出力する。なお、曲調合成制御手段５の詳細は後述する。

韻律設定手段６は、言語処理手段３が出力するテキスト解析結果１０２と、曲調合成制御手段５が出力する韻律制御パラメータ１０４を元に、音韻系列、アクセントならびにイントネーションの制御情報である韻律情報１０５を出力する。なお、韻律設定手段６の詳細も後述する。

音声合成手段７は、韻律設定手段６が出力する韻律情報１０５と、曲調合成制御手段５が出力する素片制御パラメータ１０６に従って、曲調に合わせた曲調合成音声信号１０７を生成し、出力端子８から出力する。なお、音声合成手段７の詳細もまた後述する。

次に、この発明の特徴をなす曲調合成制御手段５の処理の詳細について具体的に説明する。
図２は、曲調合成制御手段５の内部ブロック構成図である。音楽情報入力端子２から入力された音楽情報１０３は、曲調分析手段２０により、曲の明暗状態を表す「曲の明るさ」や、曲のテンポを表す「曲の速さ」を分析し、曲調情報２０１を出力する。ここで、音楽情報１０３は前述した音楽波形信号や音楽波形信号を表現する符号パラメータの他、ＣＤＤＢ（CD DataBase）等の音楽データベース情報等を合わせて入力しても良く、また、曲調情報２０１としては、上記音楽データベース情報から得られた曲名、音楽ジャンル情報やアーティスト情報を併せて出力しても良い。
なお、曲調を分析する方法としては公知の手法（例えば、後藤真孝、平田圭二「音楽情報処理の最近の研究」、日本音響学会誌、Vol．60、No．11(2004)、pp．675-681にて述べられている）を用いることができる。上記データベース情報が入力されない場合には、この公知の曲調を分析する方法により、音楽ジャンル分けを行っても良い。また、人手（試聴）により大量の音楽に対して予め曲調を分類しておいてデータベース化し、その分析結果を元に曲調を分析しても良い。

韻律制御パラメータ設定手段２１は、韻律制御パラメータテーブル２２を参照して、曲調情報２０１に適合する韻律制御パラメータ１０４を出力する。なお、上記韻律制御パラメータテーブル２２中にリストが無い音楽が入力された場合には、例えば、曲の印象に最も近い韻律制御パラメータを設定する。

図３は、韻律制御パラメータテーブル２２の一例であり、曲調情報２０１と韻律制御パラメータ１０４の関係を表し、例えばＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などの記憶媒体に記憶されている。図３において、曲調情報２０１は、曲名、ジャンル、ボーカル情報、曲の明るさ、曲の速さ等が設定されており、韻律制御パラメータ１０４は、話者、平均話速、平均の声の高さ、抑揚、スタイルが設定されている。ここで、曲調情報２０１における曲の明るさと曲の速さは、例えば、−５〜０〜＋５の範囲の１１段階で設定される定数であり、０が基本（普通）、マイナス値であれば暗く、プラス値であれば明るい曲であることを表している。

韻律制御パラメータ１０４における平均話速は、例えば、基本を120(msec/Mora：１モーラあたりの平均時間長)としたときの値であり、値が小さい程読み上げスピードが速くなる。同じく平均の声の高さは、例えば、基本、すなわち通常の発声時を女声で240(Hz)、男声で180(Hz)としたときの値であり、値が大きいほど声の高さが高くなる。同じく抑揚は、例えば、基本、即ち通常の発声時を100(%)としたときの値であり、値が大きいほどイントネーションがダイナミックに変動して躍動感豊かな音声となり、値が小さいほどイントネーションが平坦となって、ロボットのような感情が少ない冷たい音声となる。

また、韻律制御パラメータ１０４における話者は、性別等で大まかに韻律制御方法を変更するために用いられる。なお、ボーカルが無い音楽については、図３の例では女声に固定する制御を行っているが、女声に限定されることはなく男声でも良い。また、スタイルは、曲調情報２０１から導出される韻律の制御形態を表しており、例えば、図３中の曲Ａでは、“明るさ＝４”、“速さ＝４”なので「元気良く」が設定されており、曲Ｂでは“明るさ＝−２”、“速さ＝−２”なので「悲しげに」が設定されている。このスタイル制御は公知の手法（例えば、武田昌一ほか、「感情を含む案内文音声の韻律的特徴の解析」、日本音響学会誌、Vol．60、No．11(2004)、pp．629-638）を用いて分類することができる。

素片制御パラメータ設定手段２３は、素片制御パラメータテーブル２４を参照して、曲調情報２０１に適合する素片制御パラメータ１０６を出力する。なお、上記素片制御パラメータテーブル２４中にリストが無い音楽が入力された場合には、曲の印象に最も近い素片制御パラメータを設定する。

図４は、素片制御パラメータテーブル２４の一例であり、曲調情報２０１と素片制御パラメータ１０６の関係を表し、前述の韻律制御パラメータテーブル２２と同様に、例えばＲＯＭ、ＲＡＭなどの記憶媒体に記憶されている。
図４において、曲調情報２０１は、韻律制御パラメータテーブル２２にて挙げられている内容と同じであるので説明は省略する。素片制御パラメータ１０６における素片辞書は、図６にその構成ブロックを示す音声合成手段７にて用いられる音声素片辞書４１中の合成音声話者の性別を決めるパラメータであり、男声であれば男性の話者を選択し、女声であれば女性の話者を選択することを意味する。この話者性別決定には曲調情報２０１のボーカル情報を利用することができる。なお、ボーカル情報以外に、例えば、音楽信号中のボーカル即ち歌声部分の基本周波数の平均値と分散を算出することでも男声・女声の判別が可能である。

音響効果は、出力される合成音声信号ないしは、後述する音声合成手段７中の処理である素片選択手段４０中にて用いられる音声素片に対し、例えば、エコー付加処理等を施すことを意味している。
信号加工は出力される合成音声信号ないしは、後述する音声合成手段７中の処理である素片選択手段４０、素片接続手段４２および信号加工手段４３において、例えば、雑音付加処理やスペクトル加工処理などを施すことを意味している。

次に、韻律設定手段６の処理の詳細を図５により説明する。韻律制御手段３０は、言語処理手段３によるテキスト解析結果１０２と、曲調合成制御手段５からの韻律制御パラメータ１０４と、複数の韻律制御形態を記憶する韻律辞書３１を参照して、音韻系列、アクセントならびにイントネーションの制御処理を行い、音響的特徴のパラメータ、例えば、音韻記号列、音声素片のピッチパターン、ピッチ周期、ピッチマーク、継続時間長または韻律のパラメータである韻律情報１０５を出力する。
なお、複数の韻律制御形態を記憶する韻律辞書３１は、女声の韻律辞書部と男性の韻律辞書部を備えており、ここで、韻律制御パラメータ１０４の話者パラメータが女声の指定であれば、女声の韻律辞書部を選択し、男声の指定であれば男性の韻律辞書部を選択する。
また、韻律辞書３１には、例えば「元気な」「落ち着いた」「悲しげに」などの韻律制御スタイルを決定するパラメータについても、例えばＲＯＭ、ＲＡＭなどの記憶媒体に記憶されている。このパラメータの抽出方法として、「落ち着いた」韻律の場合には、例えば、ナレータなどに「落ち着いた感じで」大量の文章を発声してもらい、その文章データからイントネーションなどの韻律情報を例えば、数量化Ｉ類などの統計的モデルで学習することで得ることができる。

続いて、音声合成手段７の処理の詳細を図６を用いて説明する。素片選択手段４０は、韻律設定手段６が出力した韻律情報１０５と、複数の話者の複数の音声素片を記憶する音声素片辞書４１を参照して、音声合成に用いる音声素片である音声素片列４０１を出力する。音声素片辞書４１は女声の音声素片辞書部と男性の音声素片辞書部を備えており、ここで、素片制御パラメータ１０６の音声素片辞書の指定が女声であれば女声の音声素片辞書部を選択し、男声の指定であれば男性の音声素片辞書部を選択する。なお、素片制御パラメータ１０６の音声素片辞書４１の指定は、男声・女声以外の話者、例えば子供や老人などの話者も設定することが可能である。
また、素片制御パラメータ１０６の音響効果パラメータや信号加工パラメータに従って、例えば、音声素片にエコーを付加する処理や、雑音付加処理、音声素片波形のスペクトル加工処理、位相加工処理、パワー加工処理、周波数変換処理などを行うことができる。

素片接続手段４２は、素片選択手段４０から出力された音声素片列４０１に対して、ピッチ周期および音韻継続時間長を変更するとともに、素片の接続を行って合成音声信号４０２を出力する。ここで、素片制御パラメータ１０６の音響加工パラメータや信号加工パラメータに従って、例えば、音声素片波形のスペクトル加工処理、位相加工処理、パワー加工処理、周波数変換処理などを行うことができる。
なお、ピッチ周期および音韻継続時間長を変更し、音声を合成する方法としては、たとえばＬＰＣ（Linear Predictive Coding）パラメータ上で合成するＬＰＣ残差駆動方法、スペクトルパラメータ上で合成するＭＢＥ（Multi Band Excitation）方法、２ピッチ長波形を重畳合成するピッチ波形重畳方法、音素列単位や単語単位等の信号波形を接続合成する波形編集方法、コーパスベース方法など公知の手法を用いることができる。

信号加工手段４３は、素片接続手段４２がから出力された合成音声信号４０２に対して、素片制御パラメータ１０６の音響効果パラメータや信号加工パラメータに従って、例えば、音声信号にエコーを付加する処理や、雑音付加処理、スペクトル加工処理、位相加工処理、パワー加工処理、周波数変換処理などを行い、曲調に応じた音声合成信号、すなわち、曲調合成音声信号１０７として出力端子８から出力する。

なお、この実施の形態１における韻律制御パラメータテーブル２２、および素片制御パラメータテーブル２４中において、説明の簡略化のために曲調情報、韻律制御パラメータ、素片制御パラメータを定数で表現しているが、これら数値は定数である必要はなく、全てあるいは一部分については、例えば曲調情報を入力とし、韻律制御パラメータを出力とする関数で表現しても構わない。このように関数で表現された場合には、韻律制御パラメータでの話速や声の高さなどは離散値ではなく連続値であっても構わない。

以上説明したようにこの実施の形態１の構成をとることにより、「明るい」「暗い」「速い」といったような曲調に対応して、「元気な」「悲しげに」といったような話者スタイルを選択し、更にそのスタイルに応じて韻律や音声素片等を制御することができるので、品質が高く、ユーザの音楽聴取を妨げない曲調に応じた合成音声を生成することができる。

実施の形態２．
上記実施の形態１では、曲調に応じたキャラクタや韻律等で曲調合成をおこなっているが、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。

例えば、入力テキスト１０１に添付されたフラグや、この音声合成装置の外部から与えられる制御信号などの何らかの制御手段により、曲調合成制御手段５に対して逆の曲調で曲調合成する指示が与えられると、曲調合成制御手段５内部の韻律制御パラメータ設定手段２１、および素片制御パラメータ設定手段２３はそれぞれの韻律制御パラメータテーブル２２、素片制御パラメータテーブル２４を参照し、入力された音楽情報１０３の曲調情報２０１とは逆の曲調の韻律制御パラメータ１０４と素片制御パラメータ１０６を出力する。
ここで、逆の曲調とは、現在聴いている楽曲の曲調が例えば「落ち着いた」であれば、逆の曲調は「元気良く」等に相当し、また、曲の速度が「速い」であれば「遅い」等に相当する。さらに上記の曲調に加え、話者の性別を「女声」であれば「男声」へと変更しても良い。

現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となるためにユーザの注意を大きく喚起する効果がある。この効果は、例えば、カーナビ、カーオーディオ等で音楽を聴きながらの、自動車など運転中における危険告知や、ＤＳＲＣ（Dedicated Short Range Communication）による路車間通信を利用したハイウェイラジオにおける音声合成による緊急放送、テレビ・ラジオ放送における緊急放送、携帯電話の緊急度が高いメール文の読み上げなどに有効である。

この実施の形態によれば、現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となるため、ユーザの注意を大きく喚起する効果がある。

実施の形態３．
上記実施の形態１の構成に加えて、音楽情報を元に曲の重要部を検出して、曲の重要部を避けて曲調合成を行うことも可能である。

図７は、この発明の実施の形態３に係る音声合成装置の構成を示すブロック図である。図１と同一部分については同一の参照符号を付し、相違点についてのみ説明する。この実施の形態は、曲重要部検出手段５０および出力制御手段５１が追加されていることが、図１に示す実施の形態１と異なる点である。

曲重要部検出手段５０は、音楽情報入力端子２より入力された音楽情報１０３から、曲の重要部分と非重要部分を検出し、その重要部分情報と非重要部分情報を出力制御信号５０１の一部として出力する。
ここで、曲の重要部分とは、例えば、曲のサビ部分や歌い出し部分、イントロ部分、特定ボーカル歌唱部分などであり、重要部分の情報とは、例えば、サビ部分、歌い出し部分の曲全体に対する時間位置や継続時間などである。
また、曲の非重要部分とは、例えば、曲の始まりや終わりの伴奏部分や、曲の１番と２番の間の伴奏部分などであり、非重要部分の情報とは、例えば、前記伴奏部分の時間位置や継続時間などである。
これらの重要・非重要部分の検出方法として、曲調分析と同様に公知の手法（例えば、後藤真孝、平田圭二「音楽情報処理の最近の研究」、日本音響学会誌、Vol．60、No．11(2004)、pp．675-681にて述べられている）を用いることができる。

出力制御信号５０１は、例えば、曲の重要・非重要部分の情報であるサビ部分や伴奏部分の時間位置や継続時間と、これに併せて、曲の重要部分であるサビ部分などで、音声合成信号の生成を韻律設定手段６で一時停止したり、音声合成信号あるいは音楽信号の出力を一時停止するフラグ情報や、音声出力信号レベルあるいは音楽信号レベルを制御する振幅制御情報を保持している。

韻律設定手段６は、出力制御信号５０１のフラグ情報に従って、韻律情報１０５の生成を一時停止したり再開する。また、出力制御信号５０１の継続時間情報から、例えば、伴奏部分の時間内に文章読み上げが終了するように韻律を変更して、読み上げ速度や抑揚などを変更することも可能である。このとき、後述の出力制御手段５１にて、現在聴いている曲を一時中断せずに、振幅レベルを小さくしてＢＧＭ(Back Ground Music)とし、合成音声をＢＧＭに重畳して読み上げることも可能である。

音声合成手段７は、出力制御信号５０１のフラグ情報に従って、曲調合成音声信号１０７の生成を一時停止したり再開する。

出力制御手段５１は、出力制御信号５０１のフラグ情報や振幅制御情報に従って、曲調合成音声信号１０７の出力を一時停止・再開したり、振幅レベルを徐々に小さく（フェードアウト）あるいは大きく（フェードイン）したり、音楽情報１０３中の音楽波形信号の振幅レベルを合成音声出力より小さくしＢＧＭ化として曲調合成音声信号１０７に重畳したりして、出力制御された曲調合成音声信号５０２を出力端子８より出力する。

この実施の形態によれば、曲の重要部分であるサビ部分等を避けて、曲調に応じた音声合成を行うことで、曲の重要なフレーズを妨げることなくメール等を確認できるので、ユーザの使い勝手を損なわず、かつ、音楽聴取を妨げるのを最小限にすることができる上、品質が高く、ユーザの音楽聴取を妨げない曲調に応じた合成音声を生成することができる相乗効果がある。

実施の形態４．
上記実施の形態３においても、上記実施の形態２と同様に、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。また、曲の重要部分に対して逆の曲調で曲調合成を行って出力しても良い。

現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となり、さらに、曲の重要部に対して逆の曲調で曲調合成を行うことで、曲のサビ部分などユーザの興味が集中している区間での音声合成になるので、ユーザの注意を更に大きく喚起する効果がある。

この実施の形態によれば、現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となり、さらに、曲の重要部に対して逆の曲調で曲調合成を行うことで、曲のサビ部分などユーザの興味が集中している区間で音声合成できるので、ユーザの注意を更に大きく喚起する相乗効果がある。

実施の形態５．
実施の形態３では、実施の形態１の構成に加え、曲重要部検出手段５０と出力制御手段５１とを備え、曲重要部検出手段５０で曲の重要部分と非重要部分を検出し、この重要部分・非重要部分と韻律設定手段６での韻律情報１０５生成の一時停止・再開及び音声合成手段７での曲調合成音声信号１０７生成の一時停止・再開による曲調合成との組み合わせ、さらには出力制御手段５１で、曲調合成音声信号１０７の出力を一時停止・再開したり、振幅レベルを徐々に小さく（フェードアウト）あるいは大きく（フェードイン）したり、音楽情報１０３中の音楽波形信号の振幅レベルを合成音声出力より小さくしＢＧＭ化として曲調合成音声信号１０７に重畳したりして出力制御し、出力制御された曲調合成音声信号５０２を出力端子８より出力するものについて説明した。
しかし、曲重要部検出手段５０のみを動作させ、出力制御信号５０１を出力させて、出力制御手段５１は動作を停止することでも、例えば、サビ部などを避けて音声合成したり、曲の伴奏中に曲をＢＧＭとして音声合成することも可能である。
なお、この様な動作をさせる場合は出力制御手段５１を省いてもよい。

この実施の形態においても曲のサビ部分などを避けて音声合成を行うことで、曲の重要なフレーズを妨げることなくメール等を確認できるので、ユーザの使い勝手を損なわず、かつ、音楽聴取を妨げるのを最小限にすることができる。

実施の形態６．
上記実施の形態５においても、上記実施の形態４と同様に、現在聴いている楽曲の重要部分に対して逆の曲調で曲調合成を行っても良い。

実施の形態７．
図７に示した上記実施の形態３における曲調合成を行う際に、例えば、メール文の前後に曲調に応じた定型文を追加することも可能である。

図８はこの発明の実施の形態７に係る音声合成方法の動作を表すフローチャートである。ここでは、曲演奏ステップＳＴ１１で曲を演奏中に、例えばメールが着信する場合を例にとって説明する。まず、メール着信確認ステップＳＴ１２でメール着信を確認し、メールが着信しているならば、図７の入力端子１よりメール文に相当するテキストを入力する。続いて、図７中の曲重要部検出手段５０の処理手順である曲重要部確認ステップＳＴ１３において、例えば、現在演奏中の曲が、例えばサビ部であるかどうかの検出を行う。サビ部でないならば、出力制御手段５１の処理手順である曲フェードアウトステップＳＴ１４で、現在演奏中の音楽信号の振幅を徐々に小さくする。
ここで、曲演奏ステップＳＴ１１およびメール着信ステップＳＴ１２に関しては、例えば、曲重要部検出手段５０にて処理しても良いし、外部で適宜処理した後、出力制御手段５１や入力端子１に各々の信号処理結果が与えられる構成であっても良い。

韻律設定手段６の処理手順である第１定型文読み上げステップＳＴ１５では、曲調合成制御手段５からの韻律制御パラメータ１０４に応じた定型文をメールの文頭に接続する。この定型文は韻律辞書３１に格納してあり、曲調に応じて適宜選択する。図８は「落ち着いた」曲の場合の一例であり、女性の声の落ち着いたディスクジョッキー（ＤＪ）風に「ただ今、○○さんからのお便り（メール）が届いております。早速読んでみたいと思います。」と読み上げている。なお、「○○さん」の部分には、例えば、「“山田さん”からのお便りが。。。」とメールの差出人の名前を挿入することもできる。

第１定型文読み上げステップＳＴ１５にて第１定型文をメールに接続した後、メール本文読み上げステップＳＴ１６でメール本文を読み上げる。本処理手順は言語処理手段３、曲調合成制御手段５、韻律設定手段６、音声合成手段７を逐次実行することで実現できる。

続いて、メール本文を読み上げた後、第２定型文読み上げステップＳＴ１７で第２定型文を読み上げる。第１定型文と同様に、女性の声で落ち着いたＤＪ風に「引き続き、△△をお楽しみください。」と読み上げている。なお、「△△」の部分には、例えば、「引き続き、“ショパンの別れの曲”をお楽しみください。」と、今聴いている音楽の曲名などを挿入することができる。本処理手順については、曲調合成制御手段５、韻律設定手段６、音声合成手段７を逐次実行することで実現できる。

第２定型文を読み上げた後、出力制御手段５１の処理手順である、曲フェードイン・曲演奏再開ステップＳＴ１８にて、演奏中の音楽信号の振幅レベルを徐々に大きく（フェードイン）して演奏再開する。

この実施の形態では、現在演奏中の曲が例えば伴奏中など、曲の非重要部である時に振幅レベルを小さくしてＢＧＭとし、合成音声をＢＧＭに重畳して読み上げているが、このとき、出力制御信号５０１の継続時間情報から、伴奏時間内に読み上げが終了するように、韻律設定手段６にて韻律を変更して、読み上げ速度や抑揚などを変更することも可能である。
また、曲フェードアウトステップＳＴ１４で、現在演奏中の音楽の出力を一時停止して
第１定型文読み上げステップＳＴ１５にて第１定型文を読み上げ後、メール本文読み上げステップＳＴ１６でメール本文を読み上げ、続いて第２定型文読み上げステップＳＴ１７で第２定型文を読み上げる。第２定型文を読み上げた後、出力制御手段５１の処理手順である、曲フェードイン・曲演奏再開ステップＳＴ１８にて、演奏中断中の音楽の一時停止を解除し演奏を再開するようにしてもよい。

この実施の形態では「落ち着いた」曲の場合について図を用いて説明したが、別の曲調、例えば、「激しい」曲の場合についてももちろん可能であり、定型文を予め複数用意しておいて、例えば「（男声）今、○○からメールが来てるゼ！」などと切り替えることも可能である。さらに、定型文については、ユーザの好みとなるように文体や文章内容を書き換えたり、特定の曲調には特定の定型文をユーザが割り当てることも可能である。

また、この実施の形態ではメール文の読み上げについて説明したが、例えば、電話着信メッセージや時刻読み上げなどの場合について適用してもかまわない。

この実施の形態のように、曲調合成を行う際に、メール文の前後に曲調に応じた定型文を追加することで、更に音声読み上げ時の雰囲気が増して娯楽性が高まるという効果がある。

また、この実施の形態によれば、曲調に応じた音声合成を行う際に、メール文の前後に曲調に応じた定型文を追加することで、更に音声読み上げ時の雰囲気が増して娯楽性が高まるという効果がある。

実施の形態８．
上記実施の形態７においても、上記実施の形態４と同様に、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。また、実施の形態７においては曲の重要部分に対して曲調合成を行わない態様について説明したが、曲の重要部分に対して楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で曲調合成を行っても良い

この実施の形態によれば、曲調に応じた音声合成を行う際に、メール文の前後に逆の曲調に応じた定型文を追加することで、更に音声読み上げ時の雰囲気が増して娯楽性が高まるという効果がある。

現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となり、さらに、曲の重要部に対して逆の曲調で曲調合成を行うことで、曲のサビ部分などユーザの興味が集中している区間で音声合成できるので、ユーザの注意を更に大きく喚起する相乗効果がある。

上記実施の形態では、テキストに日本語を用いて説明したが、この発明は日本語に限定されることはなく、例えば、英語、ドイツ語、中国語などの外国語にも適用することが可能である。

上記実施の形態では、音楽のみの聴取において例示しているが、これに限られることは無く、例えば、ビデオやテレビなど画像と音楽が組み合わさったマルチメディアソース視聴時にもこの発明は適用可能である。

また、上記実施の形態において曲調合成に用いられる音声素片は、例えば、動物の鳴き声などに置き換えても良い。例えば、入力されるテキストを「こんにちは」として音声素片をネコの鳴き声にした場合、出力される合成音声信号は「ニャン/ニャ/ニャ/ニャン」と擬人化される。これはネコキャラクタなどの発声に有効であり、娯楽性が高まる効果がある。

上記実施の形態における、形態素解析、構文解析、ならびに韻律設定の全てまたは一部については、予め処理を行っておいてその解析結果を例えばＲＯＭ、ＲＡＭ、FlashROM等の不揮発メモリ、磁気ディスク、ＣＤのデータトラック等の記憶手段に蓄えておき、音声合成時に解析結果を記憶手段から読み出すことで省略することも可能である。また、例えばLAN(Local Area Network)、インターネット、赤外線通信、携帯電話パケット通信等の無線・優先通信手段やネットワーク手段経由で、サーバコンピュータ等の処理手段で解析された解析結果や韻律情報、あるいはサーバコンピュータ上のハードディスク等の記憶手段に記憶されている解析結果や韻律情報を読み出すことでも省略可能である。

さらに、解析結果や韻律情報を例えば、コンピュータのＧＵＩ(Graphical User Interface)、キーボード、押しボタン、１次元／２次元バーコードリーダ、ＯＣＲ(Optical Character Reader)等の入力手段から直接入力してもかまわない。これはカーナビゲーションシステム、携帯電話、ＰＤＡ、ビデオレコーダ、ゲーム機器、オーディオ機器等において決まった文章、例えばカーナビやカーオーディオ、あるいは携帯オーディオ機器などで、再生している音楽の曲名や操作案内（ガイダンス）文を読み上げたり、ゲームのキャラクタ合成音を再生したりする場合に有効である。

また、上記実施の形態における、韻律制御パラメータテーブルや素片制御パラメータテーブルについては、ＲＡＭ等の書き込み・消去可能な記憶手段に記憶されているので、エディタ等でデータを修正・追加したりすることもできる。さらに、例えば、LAN(Local Area Network)、インターネット、赤外線通信、携帯電話パケット通信等の無線・有線通信手段やネットワーク手段経由で、サーバコンピュータ上のハードディスク等の記憶手段に記憶されているパラメータテーブルをダウンロードしたり、例えば、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ(Digital Versatile Disk)、ＭＯディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体から、当該媒体を読み込む機器、例えばカードリーダなどを用いて読み込むことにより追加・更新することができる。

上記実施の形態における曲調情報や曲の重要部情報などは、曲調分析手段あるいは曲重要部検出手段で算出されたもの以外を用いても良い。例えば、予めコンピュータなどの計算手段にて得られた曲調情報や曲重要部情報等、あるいは、予め人手にて設定・調整された曲調情報や曲重要部情報等である。これら情報等は、例えば、LAN、インターネット、赤外線通信、Bluetooth、携帯電話パケット通信等の無線・有線通信手段やネットワーク手段経由で、サーバコンピュータ上のハードディスク等の記憶手段からダウンロードすることができる。また、例えば、上記情報等が記憶されたＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ、ＭＯディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体から、当該媒体を読み込む機器、例えばカードリーダなどを用いて読み込むこともできる。

上記述べた実施の形態において、上記の全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラム実行したり、ＣＰＵ等の組み込みソフトウエアやファームウエアとしてプログラム実行することで達成できるものである。また、同様の動作をする回路、例えばＬＳＩ（Large Scale IC）、ＦＰＧＡ（Field Programmable Gate Array）、論理IC等の集積回路で実現しても良いし、あるいはディスクリート素子を組み合わせて実現しても良い。

また、上記のソフトウエア等は、例えばＲＯＭ、磁気ディスク（ハードディスクやリムーバブルディスク等）、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、ＬＡＮ、赤外線通信、Bluetooth、携帯電話のパケット通信等の有線・無線通信手段を用いてサーバコンピュータ上の記憶手段からダウンロードしたり、例えば、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ、ＭＯディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された上記ソフトウエアのプログラムコードが、上記実施の形態の機能を実現することとなり、これら記憶媒体等はこの発明を構成するものとなる。

上記実施の形態においては、各部を同一の計算機上で構成する場合について説明したが、この発明はこれに限定されるものではなく、例えば、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。

また、この発明は、１つ以上の複数の機器から構成されるシステムに適用しても良い。サーバコンピュータがこの発明の実施の形態を実現するプログラム等をネットワーク等の通信手段を用いて配信し、複数のクライアントコンピュータや、携帯電話、ＰＤＡ等の携帯端末機器が配信されたプログラムを実行することができる。

この発明は、携帯電話、ＰＤＡ（Personal Digital Assistant)、パーソナルコンピュータ等の情報機器や、カーナビゲーションシステム、ＥＴＣ（Electronic Toll Collection System）等の車載機器などに適用が可能である。

実施の形態１の音声合成装置のブロック構成図である。曲調合成制御手段の内部ブロック構成図である。韻律制御パラメータテーブルの一例を示す説明図である。素片制御パラメータテーブルの一例を示す説明図である。韻律設定手段の内部ブロック構成図である。音声合成手段の内部ブロック構成図である。実施の形態３の音声合成装置のブロック構成図である。実施の形態７に係る音声合成方法の動作を表すフローチャート図である。

符号の説明

１テキスト入力端子、２音楽情報入力端子、３言語処理手段、４言語辞書、５曲調合成制御手段、６韻律設定手段、７音声合成手段、８出力端子、２０曲調分析手段、２１韻律制御パラメータ設定手段、２２韻律制御パラメータテーブル、２３素片制御パラメータ設定手段、２４素片制御パラメータテーブル、３０韻律制御手段、３１韻律辞書、４０素片選択手段、４１音声素片辞書、４２素片接続手段、４３信号加工手段、５０曲重要部検出手段、５１出力制御手段、１０１入力テキスト、１０２テキスト解析結果、１０３音楽情報、１０４韻律制御パラメータ、１０５韻律情報、１０６素片制御パラメータ、１０７曲調合成音声信号、２０１曲調情報、４０１音声素片列、４０２合成音声信号、５０１出力制御信号、５０２出力制御された曲調合成音声信号。

Claims

楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置に適用されるテキストの音声合成装置において、
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段とを具備することを特徴とする音声合成装置。
韻律設定手段は入力テキストの韻律情報を出力する際、入力テキストの文頭に第１の定型文を、入力テキストの文末に第２の定型文を加えた韻律情報を出力する構成にされたことを特徴とする請求項１記載の音声合成装置。
韻律設定手段は、楽曲の重要部分情報により入力テキストの韻律情報の出力を一時停止する構成にされたことを特徴とする請求項１または請求項２記載の音声合成装置。
音声合成手段は、楽曲の重要部分情報により入力テキストの曲調合成音声信号を生成し出力する処理を一時停止する構成にされたことを特徴とする請求項１または請求項２記載の音声合成装置。
音声合成手段からの曲調合成音声信号または楽曲の音楽信号の出力を一時停止するフラグ情報、または音声合成手段からの曲調合成音声信号の音声出力信号レベルまたは楽曲の音楽信号レベルを制御する振幅制御情報に従い、曲調合成音声信号の出力を一時停止する、または振幅レベルを徐々に小さく、または大きくする、または音楽情報中の音楽波形信号の振幅レベルを合成音声出力より小さくしＢＧＭ(Back Ground Music)化して曲調合成音声信号に重畳する少なくとも何れか一の処理をした曲調合成音声信号を出力する出力制御手段を
備えることを特徴とする請求項１乃至４の何れかに記載の音声合成装置。
楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置におけるテキストの音声合成方法において、
入力テキストが言語処理された解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定ステップと、
韻律設定ステップが出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成ステップとを備えることを特徴とする音声合成方法。
楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置に適用されるテキストの音声合成をするためにコンピュータを、
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段として機能させるための音声合成プログラム。
楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置に適用されるテキストの音声合成をするためにコンピュータを、
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段として機能させるための音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体。