JP2007086316A - 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 - Google Patents
音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP2007086316A JP2007086316A JP2005274064A JP2005274064A JP2007086316A JP 2007086316 A JP2007086316 A JP 2007086316A JP 2005274064 A JP2005274064 A JP 2005274064A JP 2005274064 A JP2005274064 A JP 2005274064A JP 2007086316 A JP2007086316 A JP 2007086316A
- Authority
- JP
- Japan
- Prior art keywords
- music
- information
- speech
- prosody
- tune
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】従来、音声を主な出力情報とする機器で、ユーザが音楽等を聴取中に、電子メール等の音声情報を出力する時、聴取中の音楽の曲調に応じたテキスト音声合成が為されなかったり、曲の重要な部分等に合成音声が被ったりすることで、音楽聴取を妨げる。
【解決手段】「明るい」「暗い」「速い」という曲調情報を音楽情報から抽出し、この曲調情報を参照して韻律制御パラメータと素片制御パラメータを曲調合成制御手段で算出し、韻律制御パラメータから韻律設定手段で求めた入力テキストの解析結果の韻律情報と素片制御パラメータにより、曲調に合わせ入力テキストの曲調合成音声信号を音声合成手段で生成して、ユーザの音楽聴取を妨げない曲調に応じた品質の高い合成音声を生成する。
【選択図】図1
【解決手段】「明るい」「暗い」「速い」という曲調情報を音楽情報から抽出し、この曲調情報を参照して韻律制御パラメータと素片制御パラメータを曲調合成制御手段で算出し、韻律制御パラメータから韻律設定手段で求めた入力テキストの解析結果の韻律情報と素片制御パラメータにより、曲調に合わせ入力テキストの曲調合成音声信号を音声合成手段で生成して、ユーザの音楽聴取を妨げない曲調に応じた品質の高い合成音声を生成する。
【選択図】図1
Description
この発明は、音楽情報の再生機能を有し、音声を主な出力情報とする携帯電話装置やPDA(Personal Digital Assistance)等の情報通信端末装置に適用されるテキスト音声合成装置およびその方法、ならびにその方法をコンピュータに実現させるプログラムおよびプログラムを記憶したコンピュータ読み取り可能な記憶媒体に関するものである。
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部(テキスト解析)、音韻処理部(韻律設定)、音声合成部の3つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音韻処理部においてアクセントやイントネーションの処理が行われて、音韻記号、ピッチ長、継続時間長などの音素環境情報が出力される。そして音素環境情報を根拠に、音声素片辞書に登録された音声素片を選択する。最後に、音声合成部で音韻記号、ピッチ長、継続時間長などの情報から音声を合成する。
ここで、音声素片とは、母音をV、子音をCと表すと、CV、VC、VCV等の音声合成単位や、複数の音声合成単位から成る音素列単位、あるいは単語単位や短文章単位で音声信号中から切り出される素片であり、切り出された音声波形またはその波形から何らかの方法で抽出されたパラメータ系列を表している。音素環境は、当該音声素片の環境要因であり、例えば、当該音声素片の音素名、先行する音素、後続する音素、ピッチ周期、ピッチパターン、継続時間長、CとVの音素境界位置、パワー、モーラ数、アクセント位置等の要素が挙げられる。
音声を主な出力情報とする情報通信端末装置において、テキスト音声合成を用いて、音楽聴取時の雰囲気を壊したりせずに音楽に合わせて任意の文字列を読み上げる技術として、特開2001−145167号公報(特許文献1)及び特開2003−58178号公報(特許文献2)に記載の技術がある。
特開2001−145167号公報(特許文献1)では、再生している音楽からそのテンポおよび音程を抽出して、前記音楽のテンポに対応したクロックを生成し、テキスト音声合成出力を前記クロックに同期させて出力したり、テキスト音声合成出力の音程を、前記抽出した音程に合致するように、ピッチコンバータを用いて合成音声のピッチを補正して出力する技術が開示されている。
この特許文献1の技術は、音声のテンポや音程に合わせて音声合成を行うことができるものの、「落ち着いた(暗い)」「明るい」といったような曲の雰囲気(以下、曲調と称する)に応じて、韻律(イントネーション)や音声素片等を制御して音声合成を行っておらず、また、合成音声の音程の制御は、音声合成出力後の信号に対して行うので、不自然な合成音になる。
この特許文献1の技術は、音声のテンポや音程に合わせて音声合成を行うことができるものの、「落ち着いた(暗い)」「明るい」といったような曲の雰囲気(以下、曲調と称する)に応じて、韻律(イントネーション)や音声素片等を制御して音声合成を行っておらず、また、合成音声の音程の制御は、音声合成出力後の信号に対して行うので、不自然な合成音になる。
また、特開2003−58178号公報(特許文献2)では、再生している音楽の曲と曲の切れ間を検出して、テキスト音声合成出力を前記切れ間に再生したり、テキスト情報の優先度によっては直ちにテキスト合成音声を曲に重畳して再生するという技術が開示されている。
この特許文献2の技術は、曲と曲の切れ間で音声合成を行うために、現在聴いている曲が終了するまで合成音声が出力されない一方、テキスト情報の優先度が高い場合には直ちに曲に重畳して音声合成されてしまうため、場合によっては曲の重要な部分、例えば、曲のサビ部分や、歌い出し部分に合成音声が被ってしまい音楽聴取を妨げてしまう。
この特許文献2の技術は、曲と曲の切れ間で音声合成を行うために、現在聴いている曲が終了するまで合成音声が出力されない一方、テキスト情報の優先度が高い場合には直ちに曲に重畳して音声合成されてしまうため、場合によっては曲の重要な部分、例えば、曲のサビ部分や、歌い出し部分に合成音声が被ってしまい音楽聴取を妨げてしまう。
上述のように、従来の技術では、音声を主な出力情報とする機器において、ユーザが音楽等を聴取している際に、電子メール等の音声情報を出力する場合、聴いている音楽の曲調に応じたテキスト音声合成が為されなかったり、曲の重要な部分等に合成音声が被ったりすることにより、音楽聴取を妨げてしまうという問題がある。
この発明は、上記問題点を解決するためになされたもので、音楽聴取を妨げずに音声読み上げするように、曲調に応じたテキスト音声合成(以下、曲調合成と称する)を行う音声合成方法およびその装置を得ることを目的とする。
またこの発明は、曲の重要な部分などを避けて音声合成を行う音声合成方法及びその装置を得ることを目的とする。
またこの発明は、曲の重要な部分などを避けて音声合成を行う音声合成方法及びその装置を得ることを目的とする。
この発明に係る楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置に適用されるテキストの音声合成装置は、
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段とを具備する。
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段とを具備する。
この発明によれば、「明るい」「暗い」「速い」といったような楽曲の様態を表現する曲調情報に適合した韻律制御パラメータと入力テキストの解析結果に基づく韻律情報と曲調情報に適合した素片制御パラメータにより、曲調に合わせ入力テキストの曲調合成音声信号を生成するので、ユーザの音楽聴取を妨げない曲調に応じた品質の高い合成音声を生成することができる。
以下、図面を参照してこの発明の実施の形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声合成装置の構成を示すブロック図である。図1において、1はテキスト入力端子、2は音楽情報入力端子、3は言語処理手段、4は言語辞書、5は曲調合成制御手段、6は韻律設定手段、7は音声合成手段、8は出力端子である。
図1において、言語処理手段3は、テキスト入力端子1から入力された入力テキスト101に対して言語辞書4を相互参照して形態素解析、構文解析を行い、入力テキスト1001の読みや品詞情報等のテキスト解析結果102を出力する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声合成装置の構成を示すブロック図である。図1において、1はテキスト入力端子、2は音楽情報入力端子、3は言語処理手段、4は言語辞書、5は曲調合成制御手段、6は韻律設定手段、7は音声合成手段、8は出力端子である。
図1において、言語処理手段3は、テキスト入力端子1から入力された入力テキスト101に対して言語辞書4を相互参照して形態素解析、構文解析を行い、入力テキスト1001の読みや品詞情報等のテキスト解析結果102を出力する。
曲調合成制御手段5は、音楽情報入力端子2から入力された音楽情報103、例えば、音楽波形信号や、MIDI (Musical Instrument Digital Interface)データやMP3(MPEG Audio Layer-3)などの音響信号圧縮アルゴリズムで圧縮された符号化データなどの、音楽波形信号を表現する符号パラメータ等から曲調の分析を行い、曲調情報として、例えば、曲の明暗を表す「明るさ」や曲の速度を表す「テンポ」「リズム」等を算出すると共に、韻律制御パラメータ104および素片制御パラメータ106を出力する。なお、曲調合成制御手段5の詳細は後述する。
韻律設定手段6は、言語処理手段3が出力するテキスト解析結果102と、曲調合成制御手段5が出力する韻律制御パラメータ104を元に、音韻系列、アクセントならびにイントネーションの制御情報である韻律情報105を出力する。なお、韻律設定手段6の詳細も後述する。
音声合成手段7は、韻律設定手段6が出力する韻律情報105と、曲調合成制御手段5が出力する素片制御パラメータ106に従って、曲調に合わせた曲調合成音声信号107を生成し、出力端子8から出力する。なお、音声合成手段7の詳細もまた後述する。
次に、この発明の特徴をなす曲調合成制御手段5の処理の詳細について具体的に説明する。
図2は、曲調合成制御手段5の内部ブロック構成図である。音楽情報入力端子2から入力された音楽情報103は、曲調分析手段20により、曲の明暗状態を表す「曲の明るさ」や、曲のテンポを表す「曲の速さ」を分析し、曲調情報201を出力する。ここで、音楽情報103は前述した音楽波形信号や音楽波形信号を表現する符号パラメータの他、CDDB(CD DataBase)等の音楽データベース情報等を合わせて入力しても良く、また、曲調情報201としては、上記音楽データベース情報から得られた曲名、音楽ジャンル情報やアーティスト情報を併せて出力しても良い。
なお、曲調を分析する方法としては公知の手法(例えば、後藤真孝、平田圭二「音楽情報処理の最近の研究」、日本音響学会誌、Vol.60、No.11(2004)、pp.675-681にて述べられている)を用いることができる。上記データベース情報が入力されない場合には、この公知の曲調を分析する方法により、音楽ジャンル分けを行っても良い。また、人手(試聴)により大量の音楽に対して予め曲調を分類しておいてデータベース化し、その分析結果を元に曲調を分析しても良い。
図2は、曲調合成制御手段5の内部ブロック構成図である。音楽情報入力端子2から入力された音楽情報103は、曲調分析手段20により、曲の明暗状態を表す「曲の明るさ」や、曲のテンポを表す「曲の速さ」を分析し、曲調情報201を出力する。ここで、音楽情報103は前述した音楽波形信号や音楽波形信号を表現する符号パラメータの他、CDDB(CD DataBase)等の音楽データベース情報等を合わせて入力しても良く、また、曲調情報201としては、上記音楽データベース情報から得られた曲名、音楽ジャンル情報やアーティスト情報を併せて出力しても良い。
なお、曲調を分析する方法としては公知の手法(例えば、後藤真孝、平田圭二「音楽情報処理の最近の研究」、日本音響学会誌、Vol.60、No.11(2004)、pp.675-681にて述べられている)を用いることができる。上記データベース情報が入力されない場合には、この公知の曲調を分析する方法により、音楽ジャンル分けを行っても良い。また、人手(試聴)により大量の音楽に対して予め曲調を分類しておいてデータベース化し、その分析結果を元に曲調を分析しても良い。
韻律制御パラメータ設定手段21は、韻律制御パラメータテーブル22を参照して、曲調情報201に適合する韻律制御パラメータ104を出力する。なお、上記韻律制御パラメータテーブル22中にリストが無い音楽が入力された場合には、例えば、曲の印象に最も近い韻律制御パラメータを設定する。
図3は、韻律制御パラメータテーブル22の一例であり、曲調情報201と韻律制御パラメータ104の関係を表し、例えばROM(Read Only Memory)やRAM(Random Access Memory)などの記憶媒体に記憶されている。図3において、曲調情報201は、曲名、ジャンル、ボーカル情報、曲の明るさ、曲の速さ等が設定されており、韻律制御パラメータ104は、話者、平均話速、平均の声の高さ、抑揚、スタイルが設定されている。ここで、曲調情報201における曲の明るさと曲の速さは、例えば、−5〜0〜+5の範囲の11段階で設定される定数であり、0が基本(普通)、マイナス値であれば暗く、プラス値であれば明るい曲であることを表している。
韻律制御パラメータ104における平均話速は、例えば、基本を120(msec/Mora:1モーラあたりの平均時間長)としたときの値であり、値が小さい程読み上げスピードが速くなる。同じく平均の声の高さは、例えば、基本、すなわち通常の発声時を女声で240(Hz)、男声で180(Hz)としたときの値であり、値が大きいほど声の高さが高くなる。同じく抑揚は、例えば、基本、即ち通常の発声時を100(%)としたときの値であり、値が大きいほどイントネーションがダイナミックに変動して躍動感豊かな音声となり、値が小さいほどイントネーションが平坦となって、ロボットのような感情が少ない冷たい音声となる。
また、韻律制御パラメータ104における話者は、性別等で大まかに韻律制御方法を変更するために用いられる。なお、ボーカルが無い音楽については、図3の例では女声に固定する制御を行っているが、女声に限定されることはなく男声でも良い。また、スタイルは、曲調情報201から導出される韻律の制御形態を表しており、例えば、図3中の曲Aでは、“明るさ=4”、“速さ=4”なので「元気良く」が設定されており、曲Bでは“明るさ=−2”、“速さ=−2”なので「悲しげに」が設定されている。このスタイル制御は公知の手法(例えば、武田昌一ほか、「感情を含む案内文音声の韻律的特徴の解析」、日本音響学会誌、Vol.60、No.11(2004)、pp.629-638)を用いて分類することができる。
素片制御パラメータ設定手段23は、素片制御パラメータテーブル24を参照して、曲調情報201に適合する素片制御パラメータ106を出力する。なお、上記素片制御パラメータテーブル24中にリストが無い音楽が入力された場合には、曲の印象に最も近い素片制御パラメータを設定する。
図4は、素片制御パラメータテーブル24の一例であり、曲調情報201と素片制御パラメータ106の関係を表し、前述の韻律制御パラメータテーブル22と同様に、例えばROM、RAMなどの記憶媒体に記憶されている。
図4において、曲調情報201は、韻律制御パラメータテーブル22にて挙げられている内容と同じであるので説明は省略する。素片制御パラメータ106における素片辞書は、図6にその構成ブロックを示す音声合成手段7にて用いられる音声素片辞書41中の合成音声話者の性別を決めるパラメータであり、男声であれば男性の話者を選択し、女声であれば女性の話者を選択することを意味する。この話者性別決定には曲調情報201のボーカル情報を利用することができる。なお、ボーカル情報以外に、例えば、音楽信号中のボーカル即ち歌声部分の基本周波数の平均値と分散を算出することでも男声・女声の判別が可能である。
図4において、曲調情報201は、韻律制御パラメータテーブル22にて挙げられている内容と同じであるので説明は省略する。素片制御パラメータ106における素片辞書は、図6にその構成ブロックを示す音声合成手段7にて用いられる音声素片辞書41中の合成音声話者の性別を決めるパラメータであり、男声であれば男性の話者を選択し、女声であれば女性の話者を選択することを意味する。この話者性別決定には曲調情報201のボーカル情報を利用することができる。なお、ボーカル情報以外に、例えば、音楽信号中のボーカル即ち歌声部分の基本周波数の平均値と分散を算出することでも男声・女声の判別が可能である。
音響効果は、出力される合成音声信号ないしは、後述する音声合成手段7中の処理である素片選択手段40中にて用いられる音声素片に対し、例えば、エコー付加処理等を施すことを意味している。
信号加工は出力される合成音声信号ないしは、後述する音声合成手段7中の処理である素片選択手段40、素片接続手段42および信号加工手段43において、例えば、雑音付加処理やスペクトル加工処理などを施すことを意味している。
信号加工は出力される合成音声信号ないしは、後述する音声合成手段7中の処理である素片選択手段40、素片接続手段42および信号加工手段43において、例えば、雑音付加処理やスペクトル加工処理などを施すことを意味している。
次に、韻律設定手段6の処理の詳細を図5により説明する。韻律制御手段30は、言語処理手段3によるテキスト解析結果102と、曲調合成制御手段5からの韻律制御パラメータ104と、複数の韻律制御形態を記憶する韻律辞書31を参照して、音韻系列、アクセントならびにイントネーションの制御処理を行い、音響的特徴のパラメータ、例えば、音韻記号列、音声素片のピッチパターン、ピッチ周期、ピッチマーク、継続時間長または韻律のパラメータである韻律情報105を出力する。
なお、複数の韻律制御形態を記憶する韻律辞書31は、女声の韻律辞書部と男性の韻律辞書部を備えており、ここで、韻律制御パラメータ104の話者パラメータが女声の指定であれば、女声の韻律辞書部を選択し、男声の指定であれば男性の韻律辞書部を選択する。
また、韻律辞書31には、例えば「元気な」「落ち着いた」「悲しげに」などの韻律制御スタイルを決定するパラメータについても、例えばROM、RAMなどの記憶媒体に記憶されている。このパラメータの抽出方法として、「落ち着いた」韻律の場合には、例えば、ナレータなどに「落ち着いた感じで」大量の文章を発声してもらい、その文章データからイントネーションなどの韻律情報を例えば、数量化I類などの統計的モデルで学習することで得ることができる。
なお、複数の韻律制御形態を記憶する韻律辞書31は、女声の韻律辞書部と男性の韻律辞書部を備えており、ここで、韻律制御パラメータ104の話者パラメータが女声の指定であれば、女声の韻律辞書部を選択し、男声の指定であれば男性の韻律辞書部を選択する。
また、韻律辞書31には、例えば「元気な」「落ち着いた」「悲しげに」などの韻律制御スタイルを決定するパラメータについても、例えばROM、RAMなどの記憶媒体に記憶されている。このパラメータの抽出方法として、「落ち着いた」韻律の場合には、例えば、ナレータなどに「落ち着いた感じで」大量の文章を発声してもらい、その文章データからイントネーションなどの韻律情報を例えば、数量化I類などの統計的モデルで学習することで得ることができる。
続いて、音声合成手段7の処理の詳細を図6を用いて説明する。素片選択手段40は、韻律設定手段6が出力した韻律情報105と、複数の話者の複数の音声素片を記憶する音声素片辞書41を参照して、音声合成に用いる音声素片である音声素片列401を出力する。音声素片辞書41は女声の音声素片辞書部と男性の音声素片辞書部を備えており、ここで、素片制御パラメータ106の音声素片辞書の指定が女声であれば女声の音声素片辞書部を選択し、男声の指定であれば男性の音声素片辞書部を選択する。なお、素片制御パラメータ106の音声素片辞書41の指定は、男声・女声以外の話者、例えば子供や老人などの話者も設定することが可能である。
また、素片制御パラメータ106の音響効果パラメータや信号加工パラメータに従って、例えば、音声素片にエコーを付加する処理や、雑音付加処理、音声素片波形のスペクトル加工処理、位相加工処理、パワー加工処理、周波数変換処理などを行うことができる。
また、素片制御パラメータ106の音響効果パラメータや信号加工パラメータに従って、例えば、音声素片にエコーを付加する処理や、雑音付加処理、音声素片波形のスペクトル加工処理、位相加工処理、パワー加工処理、周波数変換処理などを行うことができる。
素片接続手段42は、素片選択手段40から出力された音声素片列401に対して、ピッチ周期および音韻継続時間長を変更するとともに、素片の接続を行って合成音声信号402を出力する。ここで、素片制御パラメータ106の音響加工パラメータや信号加工パラメータに従って、例えば、音声素片波形のスペクトル加工処理、位相加工処理、パワー加工処理、周波数変換処理などを行うことができる。
なお、ピッチ周期および音韻継続時間長を変更し、音声を合成する方法としては、たとえばLPC(Linear Predictive Coding)パラメータ上で合成するLPC残差駆動方法、スペクトルパラメータ上で合成するMBE(Multi Band Excitation)方法、2ピッチ長波形を重畳合成するピッチ波形重畳方法、音素列単位や単語単位等の信号波形を接続合成する波形編集方法、コーパスベース方法など公知の手法を用いることができる。
なお、ピッチ周期および音韻継続時間長を変更し、音声を合成する方法としては、たとえばLPC(Linear Predictive Coding)パラメータ上で合成するLPC残差駆動方法、スペクトルパラメータ上で合成するMBE(Multi Band Excitation)方法、2ピッチ長波形を重畳合成するピッチ波形重畳方法、音素列単位や単語単位等の信号波形を接続合成する波形編集方法、コーパスベース方法など公知の手法を用いることができる。
信号加工手段43は、素片接続手段42がから出力された合成音声信号402に対して、素片制御パラメータ106の音響効果パラメータや信号加工パラメータに従って、例えば、音声信号にエコーを付加する処理や、雑音付加処理、スペクトル加工処理、位相加工処理、パワー加工処理、周波数変換処理などを行い、曲調に応じた音声合成信号、すなわち、曲調合成音声信号107として出力端子8から出力する。
なお、この実施の形態1における韻律制御パラメータテーブル22、および素片制御パラメータテーブル24中において、説明の簡略化のために曲調情報、韻律制御パラメータ、素片制御パラメータを定数で表現しているが、これら数値は定数である必要はなく、全てあるいは一部分については、例えば曲調情報を入力とし、韻律制御パラメータを出力とする関数で表現しても構わない。このように関数で表現された場合には、韻律制御パラメータでの話速や声の高さなどは離散値ではなく連続値であっても構わない。
以上説明したようにこの実施の形態1の構成をとることにより、「明るい」「暗い」「速い」といったような曲調に対応して、「元気な」「悲しげに」といったような話者スタイルを選択し、更にそのスタイルに応じて韻律や音声素片等を制御することができるので、品質が高く、ユーザの音楽聴取を妨げない曲調に応じた合成音声を生成することができる。
実施の形態2.
上記実施の形態1では、曲調に応じたキャラクタや韻律等で曲調合成をおこなっているが、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。
上記実施の形態1では、曲調に応じたキャラクタや韻律等で曲調合成をおこなっているが、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。
例えば、入力テキスト101に添付されたフラグや、この音声合成装置の外部から与えられる制御信号などの何らかの制御手段により、曲調合成制御手段5に対して逆の曲調で曲調合成する指示が与えられると、曲調合成制御手段5内部の韻律制御パラメータ設定手段21、および素片制御パラメータ設定手段23はそれぞれの韻律制御パラメータテーブル22、素片制御パラメータテーブル24を参照し、入力された音楽情報103の曲調情報201とは逆の曲調の韻律制御パラメータ104と素片制御パラメータ106を出力する。
ここで、逆の曲調とは、現在聴いている楽曲の曲調が例えば「落ち着いた」であれば、逆の曲調は「元気良く」等に相当し、また、曲の速度が「速い」であれば「遅い」等に相当する。さらに上記の曲調に加え、話者の性別を「女声」であれば「男声」へと変更しても良い。
ここで、逆の曲調とは、現在聴いている楽曲の曲調が例えば「落ち着いた」であれば、逆の曲調は「元気良く」等に相当し、また、曲の速度が「速い」であれば「遅い」等に相当する。さらに上記の曲調に加え、話者の性別を「女声」であれば「男声」へと変更しても良い。
現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となるためにユーザの注意を大きく喚起する効果がある。この効果は、例えば、カーナビ、カーオーディオ等で音楽を聴きながらの、自動車など運転中における危険告知や、DSRC(Dedicated Short Range Communication)による路車間通信を利用したハイウェイラジオにおける音声合成による緊急放送、テレビ・ラジオ放送における緊急放送、携帯電話の緊急度が高いメール文の読み上げなどに有効である。
この実施の形態によれば、現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となるため、ユーザの注意を大きく喚起する効果がある。
実施の形態3.
上記実施の形態1の構成に加えて、音楽情報を元に曲の重要部を検出して、曲の重要部を避けて曲調合成を行うことも可能である。
上記実施の形態1の構成に加えて、音楽情報を元に曲の重要部を検出して、曲の重要部を避けて曲調合成を行うことも可能である。
図7は、この発明の実施の形態3に係る音声合成装置の構成を示すブロック図である。図1と同一部分については同一の参照符号を付し、相違点についてのみ説明する。この実施の形態は、曲重要部検出手段50および出力制御手段51が追加されていることが、図1に示す実施の形態1と異なる点である。
曲重要部検出手段50は、音楽情報入力端子2より入力された音楽情報103から、曲の重要部分と非重要部分を検出し、その重要部分情報と非重要部分情報を出力制御信号501の一部として出力する。
ここで、曲の重要部分とは、例えば、曲のサビ部分や歌い出し部分、イントロ部分、特定ボーカル歌唱部分などであり、重要部分の情報とは、例えば、サビ部分、歌い出し部分の曲全体に対する時間位置や継続時間などである。
また、曲の非重要部分とは、例えば、曲の始まりや終わりの伴奏部分や、曲の1番と2番の間の伴奏部分などであり、非重要部分の情報とは、例えば、前記伴奏部分の時間位置や継続時間などである。
これらの重要・非重要部分の検出方法として、曲調分析と同様に公知の手法(例えば、後藤真孝、平田圭二「音楽情報処理の最近の研究」、日本音響学会誌、Vol.60、No.11(2004)、pp.675-681にて述べられている)を用いることができる。
ここで、曲の重要部分とは、例えば、曲のサビ部分や歌い出し部分、イントロ部分、特定ボーカル歌唱部分などであり、重要部分の情報とは、例えば、サビ部分、歌い出し部分の曲全体に対する時間位置や継続時間などである。
また、曲の非重要部分とは、例えば、曲の始まりや終わりの伴奏部分や、曲の1番と2番の間の伴奏部分などであり、非重要部分の情報とは、例えば、前記伴奏部分の時間位置や継続時間などである。
これらの重要・非重要部分の検出方法として、曲調分析と同様に公知の手法(例えば、後藤真孝、平田圭二「音楽情報処理の最近の研究」、日本音響学会誌、Vol.60、No.11(2004)、pp.675-681にて述べられている)を用いることができる。
出力制御信号501は、例えば、曲の重要・非重要部分の情報であるサビ部分や伴奏部分の時間位置や継続時間と、これに併せて、曲の重要部分であるサビ部分などで、音声合成信号の生成を韻律設定手段6で一時停止したり、音声合成信号あるいは音楽信号の出力を一時停止するフラグ情報や、音声出力信号レベルあるいは音楽信号レベルを制御する振幅制御情報を保持している。
韻律設定手段6は、出力制御信号501のフラグ情報に従って、韻律情報105の生成を一時停止したり再開する。また、出力制御信号501の継続時間情報から、例えば、伴奏部分の時間内に文章読み上げが終了するように韻律を変更して、読み上げ速度や抑揚などを変更することも可能である。このとき、後述の出力制御手段51にて、現在聴いている曲を一時中断せずに、振幅レベルを小さくしてBGM(Back Ground Music)とし、合成音声をBGMに重畳して読み上げることも可能である。
音声合成手段7は、出力制御信号501のフラグ情報に従って、曲調合成音声信号107の生成を一時停止したり再開する。
出力制御手段51は、出力制御信号501のフラグ情報や振幅制御情報に従って、曲調合成音声信号107の出力を一時停止・再開したり、振幅レベルを徐々に小さく(フェードアウト)あるいは大きく(フェードイン)したり、音楽情報103中の音楽波形信号の振幅レベルを合成音声出力より小さくしBGM化として曲調合成音声信号107に重畳したりして、出力制御された曲調合成音声信号502を出力端子8より出力する。
この実施の形態によれば、曲の重要部分であるサビ部分等を避けて、曲調に応じた音声合成を行うことで、曲の重要なフレーズを妨げることなくメール等を確認できるので、ユーザの使い勝手を損なわず、かつ、音楽聴取を妨げるのを最小限にすることができる上、品質が高く、ユーザの音楽聴取を妨げない曲調に応じた合成音声を生成することができる相乗効果がある。
実施の形態4.
上記実施の形態3においても、上記実施の形態2と同様に、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。また、曲の重要部分に対して逆の曲調で曲調合成を行って出力しても良い。
上記実施の形態3においても、上記実施の形態2と同様に、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。また、曲の重要部分に対して逆の曲調で曲調合成を行って出力しても良い。
現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となり、さらに、曲の重要部に対して逆の曲調で曲調合成を行うことで、曲のサビ部分などユーザの興味が集中している区間での音声合成になるので、ユーザの注意を更に大きく喚起する効果がある。
この実施の形態によれば、現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となり、さらに、曲の重要部に対して逆の曲調で曲調合成を行うことで、曲のサビ部分などユーザの興味が集中している区間で音声合成できるので、ユーザの注意を更に大きく喚起する相乗効果がある。
実施の形態5.
実施の形態3では、実施の形態1の構成に加え、曲重要部検出手段50と出力制御手段51とを備え、曲重要部検出手段50で曲の重要部分と非重要部分を検出し、この重要部分・非重要部分と韻律設定手段6での韻律情報105生成の一時停止・再開及び音声合成手段7での曲調合成音声信号107生成の一時停止・再開による曲調合成との組み合わせ、さらには出力制御手段51で、曲調合成音声信号107の出力を一時停止・再開したり、振幅レベルを徐々に小さく(フェードアウト)あるいは大きく(フェードイン)したり、音楽情報103中の音楽波形信号の振幅レベルを合成音声出力より小さくしBGM化として曲調合成音声信号107に重畳したりして出力制御し、出力制御された曲調合成音声信号502を出力端子8より出力するものについて説明した。
しかし、曲重要部検出手段50のみを動作させ、出力制御信号501を出力させて、出力制御手段51は動作を停止することでも、例えば、サビ部などを避けて音声合成したり、曲の伴奏中に曲をBGMとして音声合成することも可能である。
なお、この様な動作をさせる場合は出力制御手段51を省いてもよい。
実施の形態3では、実施の形態1の構成に加え、曲重要部検出手段50と出力制御手段51とを備え、曲重要部検出手段50で曲の重要部分と非重要部分を検出し、この重要部分・非重要部分と韻律設定手段6での韻律情報105生成の一時停止・再開及び音声合成手段7での曲調合成音声信号107生成の一時停止・再開による曲調合成との組み合わせ、さらには出力制御手段51で、曲調合成音声信号107の出力を一時停止・再開したり、振幅レベルを徐々に小さく(フェードアウト)あるいは大きく(フェードイン)したり、音楽情報103中の音楽波形信号の振幅レベルを合成音声出力より小さくしBGM化として曲調合成音声信号107に重畳したりして出力制御し、出力制御された曲調合成音声信号502を出力端子8より出力するものについて説明した。
しかし、曲重要部検出手段50のみを動作させ、出力制御信号501を出力させて、出力制御手段51は動作を停止することでも、例えば、サビ部などを避けて音声合成したり、曲の伴奏中に曲をBGMとして音声合成することも可能である。
なお、この様な動作をさせる場合は出力制御手段51を省いてもよい。
この実施の形態においても曲のサビ部分などを避けて音声合成を行うことで、曲の重要なフレーズを妨げることなくメール等を確認できるので、ユーザの使い勝手を損なわず、かつ、音楽聴取を妨げるのを最小限にすることができる。
実施の形態6.
上記実施の形態5においても、上記実施の形態4と同様に、現在聴いている楽曲の重要部分に対して逆の曲調で曲調合成を行っても良い。
上記実施の形態5においても、上記実施の形態4と同様に、現在聴いている楽曲の重要部分に対して逆の曲調で曲調合成を行っても良い。
この実施の形態によれば、現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となり、さらに、曲の重要部に対して逆の曲調で曲調合成を行うことで、曲のサビ部分などユーザの興味が集中している区間で音声合成できるので、ユーザの注意を更に大きく喚起する相乗効果がある。
実施の形態7.
図7に示した上記実施の形態3における曲調合成を行う際に、例えば、メール文の前後に曲調に応じた定型文を追加することも可能である。
図7に示した上記実施の形態3における曲調合成を行う際に、例えば、メール文の前後に曲調に応じた定型文を追加することも可能である。
図8はこの発明の実施の形態7に係る音声合成方法の動作を表すフローチャートである。ここでは、曲演奏ステップST11で曲を演奏中に、例えばメールが着信する場合を例にとって説明する。まず、メール着信確認ステップST12でメール着信を確認し、メールが着信しているならば、図7の入力端子1よりメール文に相当するテキストを入力する。続いて、図7中の曲重要部検出手段50の処理手順である曲重要部確認ステップST13において、例えば、現在演奏中の曲が、例えばサビ部であるかどうかの検出を行う。サビ部でないならば、出力制御手段51の処理手順である曲フェードアウトステップST14で、現在演奏中の音楽信号の振幅を徐々に小さくする。
ここで、曲演奏ステップST11およびメール着信ステップST12に関しては、例えば、曲重要部検出手段50にて処理しても良いし、外部で適宜処理した後、出力制御手段51や入力端子1に各々の信号処理結果が与えられる構成であっても良い。
ここで、曲演奏ステップST11およびメール着信ステップST12に関しては、例えば、曲重要部検出手段50にて処理しても良いし、外部で適宜処理した後、出力制御手段51や入力端子1に各々の信号処理結果が与えられる構成であっても良い。
韻律設定手段6の処理手順である第1定型文読み上げステップST15では、曲調合成制御手段5からの韻律制御パラメータ104に応じた定型文をメールの文頭に接続する。この定型文は韻律辞書31に格納してあり、曲調に応じて適宜選択する。図8は「落ち着いた」曲の場合の一例であり、女性の声の落ち着いたディスクジョッキー(DJ)風に「ただ今、○○さんからのお便り(メール)が届いております。早速読んでみたいと思います。」と読み上げている。なお、「○○さん」の部分には、例えば、「“山田さん”からのお便りが。。。」とメールの差出人の名前を挿入することもできる。
第1定型文読み上げステップST15にて第1定型文をメールに接続した後、メール本文読み上げステップST16でメール本文を読み上げる。本処理手順は言語処理手段3、曲調合成制御手段5、韻律設定手段6、音声合成手段7を逐次実行することで実現できる。
続いて、メール本文を読み上げた後、第2定型文読み上げステップST17で第2定型文を読み上げる。第1定型文と同様に、女性の声で落ち着いたDJ風に「引き続き、△△をお楽しみください。」と読み上げている。なお、「△△」の部分には、例えば、「引き続き、“ショパンの別れの曲”をお楽しみください。」と、今聴いている音楽の曲名などを挿入することができる。本処理手順については、曲調合成制御手段5、韻律設定手段6、音声合成手段7を逐次実行することで実現できる。
第2定型文を読み上げた後、出力制御手段51の処理手順である、曲フェードイン・曲演奏再開ステップST18にて、演奏中の音楽信号の振幅レベルを徐々に大きく(フェードイン)して演奏再開する。
この実施の形態では、現在演奏中の曲が例えば伴奏中など、曲の非重要部である時に振幅レベルを小さくしてBGMとし、合成音声をBGMに重畳して読み上げているが、このとき、出力制御信号501の継続時間情報から、伴奏時間内に読み上げが終了するように、韻律設定手段6にて韻律を変更して、読み上げ速度や抑揚などを変更することも可能である。
また、曲フェードアウトステップST14で、現在演奏中の音楽の出力を一時停止して
第1定型文読み上げステップST15にて第1定型文を読み上げ後、メール本文読み上げステップST16でメール本文を読み上げ、続いて第2定型文読み上げステップST17で第2定型文を読み上げる。第2定型文を読み上げた後、出力制御手段51の処理手順である、曲フェードイン・曲演奏再開ステップST18にて、演奏中断中の音楽の一時停止を解除し演奏を再開するようにしてもよい。
また、曲フェードアウトステップST14で、現在演奏中の音楽の出力を一時停止して
第1定型文読み上げステップST15にて第1定型文を読み上げ後、メール本文読み上げステップST16でメール本文を読み上げ、続いて第2定型文読み上げステップST17で第2定型文を読み上げる。第2定型文を読み上げた後、出力制御手段51の処理手順である、曲フェードイン・曲演奏再開ステップST18にて、演奏中断中の音楽の一時停止を解除し演奏を再開するようにしてもよい。
この実施の形態では「落ち着いた」曲の場合について図を用いて説明したが、別の曲調、例えば、「激しい」曲の場合についてももちろん可能であり、定型文を予め複数用意しておいて、例えば「(男声)今、○○からメールが来てるゼ!」などと切り替えることも可能である。さらに、定型文については、ユーザの好みとなるように文体や文章内容を書き換えたり、特定の曲調には特定の定型文をユーザが割り当てることも可能である。
また、この実施の形態ではメール文の読み上げについて説明したが、例えば、電話着信メッセージや時刻読み上げなどの場合について適用してもかまわない。
この実施の形態のように、曲調合成を行う際に、メール文の前後に曲調に応じた定型文を追加することで、更に音声読み上げ時の雰囲気が増して娯楽性が高まるという効果がある。
また、この実施の形態によれば、曲調に応じた音声合成を行う際に、メール文の前後に曲調に応じた定型文を追加することで、更に音声読み上げ時の雰囲気が増して娯楽性が高まるという効果がある。
実施の形態8.
上記実施の形態7においても、上記実施の形態4と同様に、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。また、実施の形態7においては曲の重要部分に対して曲調合成を行わない態様について説明したが、曲の重要部分に対して楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で曲調合成を行っても良い
上記実施の形態7においても、上記実施の形態4と同様に、現在聴いている楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で音声合成を行っても良い。また、実施の形態7においては曲の重要部分に対して曲調合成を行わない態様について説明したが、曲の重要部分に対して楽曲の曲調とは逆の曲調に応じたキャラクタや韻律等で曲調合成を行っても良い
この実施の形態によれば、曲調に応じた音声合成を行う際に、メール文の前後に逆の曲調に応じた定型文を追加することで、更に音声読み上げ時の雰囲気が増して娯楽性が高まるという効果がある。
現在聴いている楽曲の曲調とは逆の曲調で曲調合成することにより、合成音声は曲から浮いた存在となり、さらに、曲の重要部に対して逆の曲調で曲調合成を行うことで、曲のサビ部分などユーザの興味が集中している区間で音声合成できるので、ユーザの注意を更に大きく喚起する相乗効果がある。
上記実施の形態では、テキストに日本語を用いて説明したが、この発明は日本語に限定されることはなく、例えば、英語、ドイツ語、中国語などの外国語にも適用することが可能である。
上記実施の形態では、音楽のみの聴取において例示しているが、これに限られることは無く、例えば、ビデオやテレビなど画像と音楽が組み合わさったマルチメディアソース視聴時にもこの発明は適用可能である。
また、上記実施の形態において曲調合成に用いられる音声素片は、例えば、動物の鳴き声などに置き換えても良い。例えば、入力されるテキストを「こんにちは」として音声素片をネコの鳴き声にした場合、出力される合成音声信号は「ニャン/ニャ/ニャ/ニャン」と擬人化される。これはネコキャラクタなどの発声に有効であり、娯楽性が高まる効果がある。
上記実施の形態における、形態素解析、構文解析、ならびに韻律設定の全てまたは一部については、予め処理を行っておいてその解析結果を例えばROM、RAM、FlashROM等の不揮発メモリ、磁気ディスク、CDのデータトラック等の記憶手段に蓄えておき、音声合成時に解析結果を記憶手段から読み出すことで省略することも可能である。また、例えばLAN(Local Area Network)、インターネット、赤外線通信、携帯電話パケット通信等の無線・優先通信手段やネットワーク手段経由で、サーバコンピュータ等の処理手段で解析された解析結果や韻律情報、あるいはサーバコンピュータ上のハードディスク等の記憶手段に記憶されている解析結果や韻律情報を読み出すことでも省略可能である。
さらに、解析結果や韻律情報を例えば、コンピュータのGUI(Graphical User Interface)、キーボード、押しボタン、1次元/2次元バーコードリーダ、OCR(Optical Character Reader)等の入力手段から直接入力してもかまわない。これはカーナビゲーションシステム、携帯電話、PDA、ビデオレコーダ、ゲーム機器、オーディオ機器等において決まった文章、例えばカーナビやカーオーディオ、あるいは携帯オーディオ機器などで、再生している音楽の曲名や操作案内(ガイダンス)文を読み上げたり、ゲームのキャラクタ合成音を再生したりする場合に有効である。
また、上記実施の形態における、韻律制御パラメータテーブルや素片制御パラメータテーブルについては、RAM等の書き込み・消去可能な記憶手段に記憶されているので、エディタ等でデータを修正・追加したりすることもできる。さらに、例えば、LAN(Local Area Network)、インターネット、赤外線通信、携帯電話パケット通信等の無線・有線通信手段やネットワーク手段経由で、サーバコンピュータ上のハードディスク等の記憶手段に記憶されているパラメータテーブルをダウンロードしたり、例えば、CD−ROM、CD−R、DVD(Digital Versatile Disk)、MOディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体から、当該媒体を読み込む機器、例えばカードリーダなどを用いて読み込むことにより追加・更新することができる。
上記実施の形態における曲調情報や曲の重要部情報などは、曲調分析手段あるいは曲重要部検出手段で算出されたもの以外を用いても良い。例えば、予めコンピュータなどの計算手段にて得られた曲調情報や曲重要部情報等、あるいは、予め人手にて設定・調整された曲調情報や曲重要部情報等である。これら情報等は、例えば、LAN、インターネット、赤外線通信、Bluetooth、携帯電話パケット通信等の無線・有線通信手段やネットワーク手段経由で、サーバコンピュータ上のハードディスク等の記憶手段からダウンロードすることができる。また、例えば、上記情報等が記憶されたCD−ROM、CD−R、DVD、MOディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体から、当該媒体を読み込む機器、例えばカードリーダなどを用いて読み込むこともできる。
上記述べた実施の形態において、上記の全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラム実行したり、CPU等の組み込みソフトウエアやファームウエアとしてプログラム実行することで達成できるものである。また、同様の動作をする回路、例えばLSI(Large Scale IC)、FPGA(Field Programmable Gate Array)、論理IC等の集積回路で実現しても良いし、あるいはディスクリート素子を組み合わせて実現しても良い。
また、上記のソフトウエア等は、例えばROM、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、LAN、赤外線通信、Bluetooth、携帯電話のパケット通信等の有線・無線通信手段を用いてサーバコンピュータ上の記憶手段からダウンロードしたり、例えば、CD−ROM、CD−R、DVD、MOディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された上記ソフトウエアのプログラムコードが、上記実施の形態の機能を実現することとなり、これら記憶媒体等はこの発明を構成するものとなる。
上記実施の形態においては、各部を同一の計算機上で構成する場合について説明したが、この発明はこれに限定されるものではなく、例えば、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。
また、この発明は、1つ以上の複数の機器から構成されるシステムに適用しても良い。サーバコンピュータがこの発明の実施の形態を実現するプログラム等をネットワーク等の通信手段を用いて配信し、複数のクライアントコンピュータや、携帯電話、PDA等の携帯端末機器が配信されたプログラムを実行することができる。
この発明は、携帯電話、PDA(Personal Digital Assistant)、パーソナルコンピュータ等の情報機器や、カーナビゲーションシステム、ETC(Electronic Toll Collection System)等の車載機器などに適用が可能である。
1 テキスト入力端子、2 音楽情報入力端子、3 言語処理手段、4 言語辞書、5 曲調合成制御手段、6 韻律設定手段、7 音声合成手段、8 出力端子、20 曲調分析手段、21 韻律制御パラメータ設定手段、22 韻律制御パラメータテーブル、23 素片制御パラメータ設定手段、24 素片制御パラメータテーブル、30 韻律制御手段、31 韻律辞書、40 素片選択手段、41 音声素片辞書、42 素片接続手段、43 信号加工手段、50 曲重要部検出手段、51 出力制御手段、101 入力テキスト、102 テキスト解析結果、103 音楽情報、104 韻律制御パラメータ、105 韻律情報、106 素片制御パラメータ、107 曲調合成音声信号、201 曲調情報、401 音声素片列、402 合成音声信号、501 出力制御信号、502 出力制御された曲調合成音声信号。
Claims (8)
- 楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置に適用されるテキストの音声合成装置において、
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段とを具備することを特徴とする音声合成装置。 - 韻律設定手段は入力テキストの韻律情報を出力する際、入力テキストの文頭に第1の定型文を、入力テキストの文末に第2の定型文を加えた韻律情報を出力する構成にされたことを特徴とする請求項1記載の音声合成装置。
- 韻律設定手段は、楽曲の重要部分情報により入力テキストの韻律情報の出力を一時停止する構成にされたことを特徴とする請求項1または請求項2記載の音声合成装置。
- 音声合成手段は、楽曲の重要部分情報により入力テキストの曲調合成音声信号を生成し出力する処理を一時停止する構成にされたことを特徴とする請求項1または請求項2記載の音声合成装置。
- 音声合成手段からの曲調合成音声信号または楽曲の音楽信号の出力を一時停止するフラグ情報、または音声合成手段からの曲調合成音声信号の音声出力信号レベルまたは楽曲の音楽信号レベルを制御する振幅制御情報に従い、曲調合成音声信号の出力を一時停止する、または振幅レベルを徐々に小さく、または大きくする、または音楽情報中の音楽波形信号の振幅レベルを合成音声出力より小さくしBGM(Back Ground Music)化して曲調合成音声信号に重畳する少なくとも何れか一の処理をした曲調合成音声信号を出力する出力制御手段を
備えることを特徴とする請求項1乃至4の何れかに記載の音声合成装置。 - 楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置におけるテキストの音声合成方法において、
入力テキストが言語処理された解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定ステップと、
韻律設定ステップが出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成ステップとを備えることを特徴とする音声合成方法。 - 楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置に適用されるテキストの音声合成をするためにコンピュータを、
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段として機能させるための音声合成プログラム。 - 楽曲の音楽情報の再生機能を有し、入力された入力テキストを音声合成して出力する情報通信端末装置に適用されるテキストの音声合成をするためにコンピュータを、
入力テキストの解析結果と、楽曲の様態を表現する曲調情報に適合した韻律制御パラメータを元に、韻律情報を出力する韻律設定手段と、
韻律設定手段が出力する韻律情報と、楽曲の様態を表現する曲調情報に適合した素片制御パラメータに従って、入力テキストの曲調合成音声信号を生成し出力する音声合成手段として機能させるための音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005274064A JP2007086316A (ja) | 2005-09-21 | 2005-09-21 | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005274064A JP2007086316A (ja) | 2005-09-21 | 2005-09-21 | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007086316A true JP2007086316A (ja) | 2007-04-05 |
Family
ID=37973377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005274064A Pending JP2007086316A (ja) | 2005-09-21 | 2005-09-21 | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007086316A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009041455A1 (ja) | 2007-09-28 | 2009-04-02 | Kabushiki Kaisha Kenwood | 車載器 |
JP2009085697A (ja) * | 2007-09-28 | 2009-04-23 | Kenwood Corp | 車載器 |
JPWO2007091475A1 (ja) * | 2006-02-08 | 2009-07-02 | 日本電気株式会社 | 音声合成装置、音声合成方法及びプログラム |
WO2009139022A1 (ja) * | 2008-05-15 | 2009-11-19 | パイオニア株式会社 | 音声出力装置およびプログラム |
JP2010079091A (ja) * | 2008-09-26 | 2010-04-08 | Toshiba Corp | 音声出力装置、音声出力方法及びプログラム |
JP2011100055A (ja) * | 2009-11-09 | 2011-05-19 | Yamaha Corp | 音声合成装置 |
JPWO2012104952A1 (ja) * | 2011-02-03 | 2014-07-03 | パナソニック株式会社 | 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法 |
JP2018112667A (ja) * | 2017-01-12 | 2018-07-19 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
JP2018112642A (ja) * | 2017-01-11 | 2018-07-19 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
JP2018112665A (ja) * | 2017-01-12 | 2018-07-19 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
JP2021005114A (ja) * | 2020-10-16 | 2021-01-14 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
CN113066459A (zh) * | 2021-03-24 | 2021-07-02 | 平安科技(深圳)有限公司 | 基于旋律的歌曲信息合成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001343990A (ja) * | 2000-03-30 | 2001-12-14 | Fujitsu Ltd | テキスト情報読み上げ装置と、これを組み込んだ音楽音声再生装置、媒体、およびプログラム |
JP2004361874A (ja) * | 2003-06-09 | 2004-12-24 | Sanyo Electric Co Ltd | 音楽再生装置 |
-
2005
- 2005-09-21 JP JP2005274064A patent/JP2007086316A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001343990A (ja) * | 2000-03-30 | 2001-12-14 | Fujitsu Ltd | テキスト情報読み上げ装置と、これを組み込んだ音楽音声再生装置、媒体、およびプログラム |
JP2004361874A (ja) * | 2003-06-09 | 2004-12-24 | Sanyo Electric Co Ltd | 音楽再生装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8209180B2 (en) | 2006-02-08 | 2012-06-26 | Nec Corporation | Speech synthesizing device, speech synthesizing method, and program |
JPWO2007091475A1 (ja) * | 2006-02-08 | 2009-07-02 | 日本電気株式会社 | 音声合成装置、音声合成方法及びプログラム |
JP5277634B2 (ja) * | 2006-02-08 | 2013-08-28 | 日本電気株式会社 | 音声合成装置、音声合成方法及びプログラム |
JP2009085697A (ja) * | 2007-09-28 | 2009-04-23 | Kenwood Corp | 車載器 |
WO2009041455A1 (ja) | 2007-09-28 | 2009-04-02 | Kabushiki Kaisha Kenwood | 車載器 |
WO2009139022A1 (ja) * | 2008-05-15 | 2009-11-19 | パイオニア株式会社 | 音声出力装置およびプログラム |
JPWO2009139022A1 (ja) * | 2008-05-15 | 2011-09-08 | パイオニア株式会社 | 音声出力装置およびプログラム |
JP2010079091A (ja) * | 2008-09-26 | 2010-04-08 | Toshiba Corp | 音声出力装置、音声出力方法及びプログラム |
JP2011100055A (ja) * | 2009-11-09 | 2011-05-19 | Yamaha Corp | 音声合成装置 |
JPWO2012104952A1 (ja) * | 2011-02-03 | 2014-07-03 | パナソニック株式会社 | 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法 |
JP5677470B2 (ja) * | 2011-02-03 | 2015-02-25 | パナソニックIpマネジメント株式会社 | 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法 |
JP2018112642A (ja) * | 2017-01-11 | 2018-07-19 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
JP2018112667A (ja) * | 2017-01-12 | 2018-07-19 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
JP2018112665A (ja) * | 2017-01-12 | 2018-07-19 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
JP2021005114A (ja) * | 2020-10-16 | 2021-01-14 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
JP7028942B2 (ja) | 2020-10-16 | 2022-03-02 | パイオニア株式会社 | 情報出力装置及び情報出力方法 |
CN113066459A (zh) * | 2021-03-24 | 2021-07-02 | 平安科技(深圳)有限公司 | 基于旋律的歌曲信息合成方法、装置、设备及存储介质 |
CN113066459B (zh) * | 2021-03-24 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于旋律的歌曲信息合成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007086316A (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体 | |
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
JP4878538B2 (ja) | 音声合成装置 | |
US20130041669A1 (en) | Speech output with confidence indication | |
US20110231193A1 (en) | Synthesized singing voice waveform generator | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
JP2003295882A (ja) | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム | |
CN111418006B (zh) | 声音合成方法、声音合成装置及记录介质 | |
JP6507579B2 (ja) | 音声合成方法 | |
JP2022071098A (ja) | 電子楽器、方法及びプログラム | |
JP3673471B2 (ja) | テキスト音声合成装置およびプログラム記録媒体 | |
JP6060520B2 (ja) | 音声合成装置 | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP3518898B2 (ja) | 音声合成装置 | |
Dall | Statistical parametric speech synthesis using conversational data and phenomena | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
JP5157922B2 (ja) | 音声合成装置、およびプログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP5106437B2 (ja) | カラオケ装置及びその制御方法並びにその制御プログラム | |
JP2010175717A (ja) | 音声合成装置 | |
Henton | Challenges and rewards in using parametric or concatenative speech synthesis | |
JP5471138B2 (ja) | 音素符号変換装置および音声合成装置 | |
JPH11282494A (ja) | 音声合成装置および記憶媒体 | |
JP5481958B2 (ja) | 音素符号変換装置および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101130 |