JP2002311979A - 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 - Google Patents

音声合成装置および音声合成方法、並びにプログラムおよび記録媒体

Info

Publication number
JP2002311979A
JP2002311979A JP2001118417A JP2001118417A JP2002311979A JP 2002311979 A JP2002311979 A JP 2002311979A JP 2001118417 A JP2001118417 A JP 2001118417A JP 2001118417 A JP2001118417 A JP 2001118417A JP 2002311979 A JP2002311979 A JP 2002311979A
Authority
JP
Japan
Prior art keywords
speech
phoneme
information
editing
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001118417A
Other languages
English (en)
Inventor
Kenichiro Kobayashi
賢一郎 小林
Nobuhide Yamazaki
信英 山崎
Koji Asano
康治 浅野
Shinichi Kariya
真一 狩谷
Yaeko Fujita
八重子 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001118417A priority Critical patent/JP2002311979A/ja
Publication of JP2002311979A publication Critical patent/JP2002311979A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 自然な吃りのある合成音を生成する。 【解決手段】 音声記号編集部16は、音声記号を、読
み上げモード情報にしたがって編集することにより、音
声記号における所定の音韻を反復させた状態の音声記号
に変換する。さらに、音声記号編集部16は、読み上げ
モード情報にしたがい、音声記号について、反復させる
音韻部分の発話速度やパワーを制御する編集も行う。そ
して、規則音声合成部12は、その編集後の音声記号に
したがって規則音声合成を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成装置およ
び音声合成方法、並びにプログラムおよび記録媒体に関
し、特に、吃りのある合成音を容易に生成することがで
きるようにする音声合成装置および音声合成方法、並び
にプログラムおよび記録媒体に関する。
【0002】
【従来の技術】従来の音声合成装置においては、テキス
ト、またはそのテキストを解析して得られる音声記号に
基づいて、合成音が生成される。また、音声合成装置で
は、例えば、合成音の発話速度や、高さ、強さ等が、音
声合成装置に入力されるテキストや音声記号(列)に挿
入されたタグに基づいて制御される。
【0003】ここで、タグが挿入された音声記号として
は、例えば、次のようなものがある。
【0004】 {(コレマ'テ゛ススメラレタ/ケンキュウワ)P3(オ'オキナ/セ'イカヲ)・・・} ・・・(1)
【0005】音声記号(1)において、カタカナは、音
韻情報を表している。また、「{}」、「()」、「'」、
「/」、「P3」は、タグであり、タグ'は、アクセントを
表す。さらに、タグ{}および()は、フレーズの区切りを
表し、タグP3のうちのPは、ポーズを表し、続く数字の3
は、ポーズの長さを表す。また、タグ/は、アクセント
句の区切りを表す。なお、これらのタグは、音声合成に
用いられるので、以下、適宜、合成用タグという。
【0006】音声記号(1)によれば、音声合成装置で
は、音韻が「これまで進められた研究は、大きな成果を
・・・」という合成音が生成される。
【0007】
【発明が解決しようとする課題】ところで、最近、例え
ば、ペット型のペットロボット等として、音声合成装置
を搭載し、ユーザに話しかけたり、ユーザと会話(対
話)を行うものが提案されており、このようなペットロ
ボットの発話(合成音)に、個性を持たせることができ
れば、よりエンタテイメント性を向上させることができ
る。
【0008】合成音に個性を持たせる方法としては、合
成音の発話速度や、高さ、強さ等を制御する方法が考え
られるが、その他、例えば、吃りを実現することができ
れば、合成音に、より個性を持たせることができると考
えられる。
【0009】合成音を吃らせる方法としては、例えば、
音声合成装置に入力するテキストを構成する文字を、反
復して記述する方法があるが、テキストを、その中の文
字を反復して記述するのは面倒である。さらに、単に、
文字を反復したテキストを入力しても、自然な感じの吃
りがある合成音を得ることは困難である。
【0010】本発明は、このような状況に鑑みてなされ
たものであり、吃りのある合成音を、容易に生成するこ
とができるようにするものである。
【0011】
【課題を解決するための手段】本発明の音声合成装置
は、音声情報を、所定の規則にしたがって編集すること
により、音声情報における所定の音韻を反復させた状態
の音声情報に変換する編集手段と、編集手段において編
集された音声情報にしたがい、合成音を生成する音声合
成手段とを備えることを特徴とする。
【0012】本発明の音声合成方法は、音声情報を、所
定の規則にしたがって編集することにより、音声情報に
おける所定の音韻を反復させた状態の音声情報に変換す
る編集ステップと、編集ステップにおいて編集された音
声情報にしたがい、合成音を生成する音声合成ステップ
とを備えることを特徴とする。
【0013】本発明のプログラムは、音声情報を、所定
の規則にしたがって編集することにより、音声情報にお
ける所定の音韻を反復させた状態の音声情報に変換する
編集ステップと、編集ステップにおいて編集された音声
情報にしたがい、合成音を生成する音声合成ステップと
を備えることを特徴とする。
【0014】本発明の記録媒体は、音声情報を、所定の
規則にしたがって編集することにより、音声情報におけ
る所定の音韻を反復させた状態の音声情報に変換する編
集ステップと、編集ステップにおいて編集された音声情
報にしたがい、合成音を生成する音声合成ステップとを
備えるプログラムが記録されていることを特徴とする。
【0015】本発明の音声合成装置および音声合成方
法、並びにプログラムにおいては、音声情報が、所定の
規則にしたがって編集され、音声情報における所定の音
韻を反復させた状態の音声情報に変換される。そして、
その編集された音声情報にしたがい、合成音が生成され
る。
【0016】
【発明の実施の形態】図1は、本発明を適用した音声合
成装置の一実施の形態の構成例を示している。
【0017】テキスト記憶部1は、この音声合成装置に
よって、合成音による読み上げを行う文書を、例えば、
テキストデータの形で記憶している。このテキスト記憶
部1に記憶されたテキストデータ(文書データ)は、制
御部3によって読み出されるようになっている。
【0018】入力装置2は、キーボードや、ポインティ
ングデバイス、あるいは、マイクロフォンと音声認識装
置等で構成されており、ユーザが所定の指示等を入力す
るときに操作等される。そして、入力装置2は、ユーザ
による操作に対応する操作信号を、制御部3に供給す
る。
【0019】制御部3は、音声合成装置を構成する各ブ
ロックを制御する。
【0020】文書解析部4は、制御部3の制御にしたが
い、制御部3から供給されるテキスト(文書)を、単語
辞書記憶部5や文法規則記憶部6を参照しながら言語処
理する。即ち、単語辞書記憶部5には、各単語の品詞情
報や、読み、アクセント等の情報が記述された単語辞書
が記憶されており、また、文法規則記憶部6には、辞書
記憶部5の単語辞書に記述された単語について、単語連
鎖に関する制約等の文法規則が記憶されている。そし
て、文書解析部4は、この単語辞書および文法規則に基
づいて、制御部3から供給されるテキストの形態素解析
や構文解析等の解析を行い、その解析結果を、制御部3
に供給する。
【0021】解析結果記憶部7は、文書解析部4におい
て得られる解析結果を、制御部3を経由して記憶する。
【0022】音声記号生成部8は、アクセント規則記憶
部9およびフレーズ規則記憶部10を参照しながら、制
御部3から供給される、解析結果記憶部7に記憶された
解析結果に基づいて、テキスト記憶部1に記憶されたテ
キストに対応する音声記号を生成する。
【0023】アクセント規則記憶部9は、アクセントを
付与する規則(アクセント規則)を記憶しており、音声
記号生成部8は、このアクセント規則にしたがって、音
声記号に、アクセントを表す合成用タグ(例えば、前述
の音声記号(1)に示した’)を挿入する。フレーズ規
則記憶部10は、フレーズを決定する際の規則(フレー
ズ規則)を記憶しており、音声記号生成部8は、このフ
レーズ規則にしたがって、音声記号に、フレーズを表す
合成用タグ(例えば、前述の音声記号(1)に示し
た{}や())を挿入する。
【0024】音声記号バッファ11は、制御部3の制御
にしたがい、音声記号を一時記憶する。
【0025】規則音声合成部12は、制御部3から供給
される音声記号にしたがい、音素片記憶部13を参照し
ながら、規則音声合成を行い、これにより、その音声記
号に対応する合成音のデータ(合成音データ)を生成
し、制御部3に供給する。即ち、音素片記憶部13に
は、例えば、CV(Consonant, Vowel)や、VCV、CV
C等の形で音素片データが記憶されており、規則音声合
成部12は、音声記号に基づいて、必要な音素片データ
を接続し、さらに、ポーズ、アクセント、イントネーシ
ョン等を適切に付加することで、合成音データを生成す
る。
【0026】音声波形バッファ14は、規則音声合成部
12で生成された合成音データを一時記憶する。音声出
力部15は、例えば、図示せぬD/A(Digital/Aanalo
g)変換器とスピーカ等で構成され、制御部3を経由し
て、音声波形バッファ14から供給される合成音データ
を、ディジタル信号からアナログ信号にD/A変換し、
スピーカから出力する。
【0027】音声記号編集部16は、必要に応じて、制
御部3を経由して、読み上げモード情報記憶部17を参
照しながら、音声記号生成部8で生成された音声記号を
編集する。読み上げモード情報記憶部17は、テキスト
記憶部1に記憶されたテキストを合成音で読み上げる読
み上げ方法についての各種の情報(読み上げモード情
報)を記憶する。
【0028】図2は、図1の読み上げモード情報記憶部
17に記憶される読み上げモード情報を示している。
【0029】図2の実施の形態において、読み上げモー
ド情報「キャラクタ指定」は、テキストを読み上げる合
成音のキャラクタを指定するときに「有り」とされ、指
定しないときは「なし」とされる。なお、「キャラクタ
指定」が「有り」の場合は、さらに、どのようなキャラ
クタ(例えば、男または女であるとか、歳が何歳くらい
であるとか等)とするのかが、読み上げモード情報とし
て設定される。
【0030】読み上げモード情報「吃りモード」は、合
成音を吃ったものとするときに「ON」とされ、吃りの
ない合成音とするときは「OFF」とされる。
【0031】読み上げモード情報「反復回数」、「反復
最大回数」、「反復最小回数」、「反復速度」、「反復
最大速度」、「反復最小速度」、「反復加速度」、およ
び「反復パワー変化」は、「吃りモード」が「ON」の
ときに有効になり、「吃りモード」が「OFF」のとき
は無効とされる(無視される)。
【0032】「反復回数」には、吃る回数、即ち、同一
の音韻を反復する回数が設定される。なお、この回数
は、乱数によって決定することが可能であり、この場
合、「反復回数」は「自動」に設定される。
【0033】「反復最大回数」と「反復最小回数」に
は、音韻を反復する回数を乱数で決定する場合の、その
回数の上限と下限が、それぞれ設定される。なお、「反
復最大回数」および「反復最小回数」は、「反復回数」
が「自動」のときのみ有効となり、「反復回数」に、数
値が設定されているときは、無視される。
【0034】「反復速度」には、合成音の、音韻を反復
する部分の発話速度が、例えば、1秒あたりのモーラ数
(モーラ/秒)によって設定される。なお、この発話速
度も、乱数によって決定することが可能であり、この場
合、「発話速度」は「自動」に設定される。
【0035】「反復最大速度」と「反復最小速度」に
は、反復する音韻部分の発話速度を乱数で決定する場合
の、その発話速度の上限と下限が、それぞれ設定され
る。なお、「反復最大速度」および「反復最小速度」
は、「反復速度」が「自動」のときのみ有効となり、
「反復速度」に、数値が設定されているときは、無視さ
れる。
【0036】「反復加速度」には、音韻を反復する部分
の発話速度を変化させるときの、その変化量に関する情
報が設定される。即ち、本実施の形態では、「反復加速
度」には、音韻を反復する部分の最初と最後の発話速度
が設定される。
【0037】「反復パワー変化」には、音韻を反復する
部分のパワーを変化させるときの、その変化量に関する
情報が設定される。即ち、本実施の形態では、「反復パ
ワー変化」には、音韻を反復する部分の1モーラあたり
のパワーの変化が設定される。
【0038】なお、読み上げモード情報は、入力装置2
を操作することにより入力したり、する他、ネットワー
クを介し、図示せぬサーバからダウンロードして、読み
上げモード情報記憶部17に記憶させることができる。
さらに、読み上げモード情報記憶部17には、複数の読
み上げモード情報を記憶させておき、その複数の読み上
げモード情報の中から、読み上げのための音声合成に用
いるものを、ユーザによる入力装置2の操作にしたがっ
て選択するようにすることも可能である。
【0039】次に、図3のフローチャートを参照して、
図1の音声合成装置による音声合成処理(ここでは、合
成音によるテキストの読み上げ処理)について説明す
る。
【0040】ユーザが、入力装置2を操作し、テキスト
記憶部1に記憶されたテキストの中から、読み上げの対
象とするものを選択して、その読み上げを行うことを指
示すると、入力装置2は、ステップS1において、読み
上げを指示する指示信号を、制御部3に供給し、ステッ
プS2に進む。
【0041】ステップS2では、制御部3は、テキスト
記憶部1から、読み上げ対象のテキストデータを読み出
し、文書解析部4に供給して、ステップS3に進む。
【0042】ステップS3では、文書解析部4は、制御
部3からのテキストデータについて、形態素解析や構文
解析等を行い、その解析結果を、制御部3に供給する。
制御部3は、文書解析部4からのテキストデータの解析
結果を、解析結果記憶部7に供給して記憶させる。
【0043】ここで、読み上げ対象のテキストデータ
が、例えば、「これまで進められた研究は、大きな成果
を・・・」であった場合の、文書解析部4による解析結
果を、図4に示す。
【0044】解析結果には、図4に示すように、「形態
素No.」、「見出し」、「品詞」、「読み」、「活
用」、「アクセント」等が含まれる。
【0045】「形態素No.」は、読み上げ対象のテキ
ストデータを構成する形態素に付されたユニークな番号
を示す。「見出し」は、読み上げ対象のテキストデータ
中の形態素を表す。「品詞」は、形態素の品詞を表す。
「読み」は、形態素の音韻を表す。「活用」は、形態素
の活用形を表す。「アクセント」は、形態素におけるア
クセントの形を表し、平板型は0、頭高型は1、中高型
はアクセントのおかれる拍の位置を表す。
【0046】図3に戻り、制御部3は、文書解析部4か
らのテキストデータの解析結果を、解析結果記憶部7に
記憶させると、その旨を、音声記号生成部8に通知す
る。この場合、音声記号生成部8は、解析結果記憶部7
に記憶された解析結果を、制御部3を介して読み出し、
その解析結果に基づき、アクセントや、フレーズ、ポー
ズ等を表す合成用タグ、および音韻情報で構成される音
声記号(列)を生成する。
【0047】ここで、テキストデータが「これまで進め
られた研究は、大きな成果を・・・」である場合には、
音声記号生成部8では、例えば、前述の(1)で示した
のと同様の、次のような音声記号(2)が生成される。
【0048】 {(コレマ'テ゛ススメラレタ/ケンキュウワ)P3(オ'オキナ/セ'イカヲ)・・・) ・・・(2)
【0049】音声記号生成部8は、音声記号を生成する
と、その音声記号を、制御部3を介して、音声記号バッ
ファ11に供給して記憶させる。
【0050】そして、ステップS5に進み、制御部3
は、読み上げモード情報記憶部17に、読み上げモード
情報が記憶されているかどうかを判定し、記憶されてい
ないと判定した場合、制御部3は、音声記号バッファ1
1に記憶された音声記号を、規則音声合成部12に供給
して、ステップS6に進む。
【0051】ステップS6では、規則音声合成部12
は、制御部3からの音声記号に含まれる音韻情報に対応
する音韻に基づいて、必要な音素片データを、音素片記
憶部13から読み出し、ステップS7に進む。ステップ
S7では、規則音声合成部12は、音声記号に含まれる
アクセント、フレーズ、およびアクセント句等を示す合
成用タグに基づいて、合成音のピッチ周波数の変化パタ
ーンや、パワーの変化パターンを規定するイントネーシ
ョンを作成し、ステップS8に進む。ステップS8で
は、規則音声合成部12は、ステップS6で得た音素片
データを、ステップS7で作成したイントネーション
や、音声記号に含まれるポーズ等を示す合成用タグに基
づいて、波形を補正しながら接続していき、合成音デー
タを生成する。規則音声合成部12は、合成音データを
生成すると、その合成音データを、制御部3を介して、
音声波形バッファ14に供給して記憶させる。
【0052】そして、ステップS9に進み、制御部3
は、音声波形バッファ14に記憶された合成音データを
読み出し、音声出力部15に供給して、処理を終了す
る。これにより、音声出力部15では、ステップS2で
テキスト記憶部1から読み出されたテキストデータに対
応する合成音(そのテキストを読み上げる合成音)が出
力される。
【0053】一方、ステップS5において、読み上げモ
ード情報記憶部17に、読み上げモード情報が記憶され
ていると判定された場合、制御部3は、音声記号バッフ
ァ11から音声記号を読み出し、その編集を要求する旨
とともに、音声記号編集部16に供給して、ステップS
10に進む。
【0054】ステップS10では、音声記号編集部16
は、制御部3を介して、読み上げモード情報記憶部17
から読み上げモード情報(図2)を読み出し、そのうち
の「吃りモード」が「ON」になっているかどうかを判
定する。ステップS10において、「吃りモード」が
「ON」になっていないと判定された場合、ステップS
11乃至S13をスキップして、ステップS14に進
み、音声記号編集部16は、吃りに関係ない読み上げモ
ード情報に基づいて、音声記号を編集し、ステップS1
5に進む。
【0055】即ち、例えば、音素片記憶部13に、音質
の異なる音素片データが記憶されており、読み上げモー
ド情報において、合成音の読み上げを行うキャラクタが
設定されている場合には、音声記号編集部16は、その
キャラクタに対応する音質(あるいは、周波数特性)の
音素片データを用いることを指示する合成用タグを、音
声記号に挿入する(例えば、音声記号の先頭に付加す
る)。
【0056】ステップS15では、音声記号編集部16
は、編集後の音声記号を、制御部3を介して、音声記号
バッファ11に供給して記憶させる。音声記号バッファ
11において、編集後の音声記号が記憶されると、制御
部3は、音声記号バッファ11に記憶された音声記号
を、規則音声合成部12に供給して、ステップS6に進
み、以下、上述の場合と同様の処理が行われる。
【0057】但し、例えば、上述のように、所定の音質
の音素片データを用いることを指示する合成用タグが、
音声記号に含まれている場合には、ステップS6では、
その合成用タグによって指示されている音質の音素片デ
ータが、音素片記憶部13から読み出される。従って、
この場合、音声出力部15から出力される合成音は、読
み上げモード情報において設定されているキャラクタを
想起させるような音質のものとなる。
【0058】一方、ステップS10において、「吃りモ
ード」が「ON」になっていると判定された場合、ステ
ップS11に進み、音声記号編集部16は、音声記号に
おける文頭の音韻を、読み上げモード情報の「反復回
数」に設定されている回数だけ反復させる。即ち、例え
ば、上述の音声記号(2)が得られている場合におい
て、読み上げモード情報の「反復回数」が4に設定され
ている場合には、音声記号(2)は、その文頭の音韻
「コ」を4回反復させた、次のような音声記号(3)に
編集される。
【0059】 {(コココココレマ'テ゛ススメラレタ/ケンキュウワ)P3(オ'オキナ/セ'イカヲ)・・・) ・・・(3)
【0060】なお、規則音声合成部12が、音韻を反復
させることを指示する合成用タグ(以下、適宜、合成用
反復タグという)を処理することができる場合には、ス
テップS10では、その合成用反復タグを、音声記号
(2)に挿入するようにすることも可能である。即ち、
例えば、合成用反復タグが、\rpt=#i\で定義され、その
直後に配置される音韻を、#i回だけ反復させることを指
示するものであるとすると、音声記号(2)の文頭の音
韻を4回反復させる場合には、音声記号(2)は、次の
ような音声記号(4)に編集される。
【0061】 {(\rpt=4\コレマ'テ゛ススメラレタ/ケンキュウワ)P3(オ'オキナ/セ'イカヲ)・・・) ・・・(4)
【0062】ここで、規則音声合成部12は、音声記号
中に、合成用反復タグ\rpt=#i\が挿入されている場合、
その合成用反復タグ\rpt=#i\の直後の音韻が、#i回だけ
繰り返されるように、音素片データを接続する。
【0063】また、読み上げモード情報の「反復回数」
が「自動」に設定されている場合には、音声記号編集部
16は、音韻を反復させる回数を、乱数によって決定す
る。但し、この場合、乱数によって決定される回数とし
ては、読み上げモード情報の「反復最大回数」に設定さ
れている上限を越えず、かつ読み上げモード情報の「反
復最小回数」に設定されている下限を下回らない値が採
用される。
【0064】さらに、ここでは、文頭の音韻を反復させ
るようにしたが、文頭の音韻ではなく、または文頭の音
韻とともに、例えば、ポーズがおかれる直後の音韻を反
復させるようにすることも可能である。例えば、音声記
号(2)について、文頭の音韻とともに、ポーズがおか
れる直後の音韻を反復させた場合には、次のような音声
記号(5)が得られる。
【0065】 {(コココココレマ'テ゛ススメラレタ/ケンキュウワ)P3(オオオオ'オキナ/セ'イカヲ)・・・) ・・・(5)
【0066】ここで、音声記号(5)は、文頭の音韻
「コ」を4回反復し、ポーズの直後の音韻「オ」を3回反
復するものとなっている。
【0067】また、音声記号については、文頭やポーズ
の直後の音韻に限らず、任意の音韻を反復させることが
可能である。どの音韻を反復させるかは、例えば、読み
上げモード情報に設定することができる。
【0068】ステップS11において、音声記号におけ
る音韻を反復させた後は、ステップS12に進み、音声
記号編集部16は、音声記号について、その反復する音
韻部分の発話速度を設定する編集を、読み上げモード情
報を参照することで行う。
【0069】即ち、読み上げモード情報において、「反
復速度」が、例えば、標準の発話速度+2[モーラ/
秒]に設定されている場合には、例えば、上述の音声記
号(5)は、次のような音声記号(6)に編集される。
【0070】 {(\spd=標準+2\ココココ\spd=標準\コレマ'テ゛ススメラレタ/ケンキュウワ) P3(\spd=標準+2\オオオ\spd=標準\オ'オキナ/セ'イカヲ)・・・) ・・・(6)
【0071】音声記号(6)には、発話速度を指示する
合成用タグ(以下、適宜、合成用速度タグという)\spd
=#i\が挿入されており、この合成用速度タグ\spd=#i\
は、発話速度を、#i[モーラ/秒]とすることを意味す
る。規則音声合成部12は、音声記号中に、合成用速度
タグ\spd=#i\が挿入されている場合、その合成用速度タ
グ\spd=#i\以降に配置されている音韻の発話速度が、そ
の後に新たな合成用速度タグ\spd=#i'\が現れるまで、#
i[モーラ/秒]となるように、音素片データを接続す
る。従って、音声記号(6)から生成される合成音につ
いては、文頭の4つの音韻「ココココ」は、標準+2[モー
ラ/秒]の発話速度で出力され、その後の、合成用速度
タグ\spd=標準\から\spd=標準+2\までの音韻「コレマテ゛ススメ
ラレタケンキュウワ」は、標準の発話速度で出力される。さら
に、ポーズ(P3)の後の合成用速度タグ\spd=標準+2\の
直後の3つの音韻「オオオ」は、標準+2[モーラ/秒]
の発話速度で出力され、その後の合成用速度タグ\spd=
標準\に続く音韻「オオキナセイカヲ・・・」は、標準の発話速
度で出力される。
【0072】なお、音声記号(6)では、反復する音韻
部分「ココココ」および「オオオ」が、他の音韻部分よりも2
[モーラ/秒]だけ、発話速度が速くなるが、これは、
反復する音韻部分の発話速度を、他の音韻部分よりも速
くした方が、自然な吃りの合成音が得られるからであ
る。
【0073】また、読み上げモード情報の「反復速度」
が「自動」に設定されている場合には、音声記号編集部
16は、反復する音韻部分の発話速度を、乱数によって
決定する。但し、この場合、乱数によって決定される発
話速度としては、読み上げモード情報の「反復最大速
度」に設定されている上限を越えず、かつ読み上げモー
ド情報の「反復最小速度」に設定されている下限を下回
らない値が採用される。
【0074】さらに、反復する音韻部分の発話速度は、
その音韻の反復回数によって設定することが可能であ
る。この場合、例えば、上述の音声記号(5)は、次の
ような音声記号(7)に編集される。
【0075】 {(\spd=標準+4\ココココ\spd=標準\コレマ'テ゛ススメラレタ/ケンキュウワ) P3(\spd=標準+3\オオオ\spd=標準\オ'オキナ/セ'イカヲ)・・・) ・・・(7)
【0076】音声記号(7)によれば、反復する音韻部
分における音韻の反復回数に比例して、その反復する音
韻部分の発話速度が速くなる合成音が生成される。
【0077】また、音声記号(6)や(7)では、反復
する音韻部分において、その音韻を反復している間の発
話速度は、一定となるが、その発話速度を変化させる編
集を行うことも可能である。即ち、読み上げモード情報
の「反復加速度」が設定されている場合には、音声記号
編集部16は、その「反復加速度」の設定にしたがい、
反復する音韻部分において、その音韻を反復している間
の発話速度が変化するように、音声記号を編集する。具
体的には、例えば、読み上げモード情報の「反復加速
度」が、図2に示したように、「2モーラ/秒→8モー
ラ/秒」に設定されている場合には、音声記号(5)
は、次のような音声記号(8)に編集される。
【0078】 {(\spd=2to8\ココココ\spd=標準\コレマ'テ゛ススメラレタ/ケンキュウワ) P3(\spd=2to8\オオオ\spd=標準\オ'オキナ/セ'イカヲ)・・・) ・・・(8)
【0079】ここで、音声記号(8)の合成用速度タグ
\spd=2to8\における2to8は、次の合成用速度タグが現れ
るまでの間の音韻の発話速度を、2モーラ/秒から8モ
ーラ/秒に変化させていくことを表す。従って、この場
合、規則音声合成部12では、反復される音韻部分にお
いて、そのように発話速度が変化するように、音素片デ
ータが接続される。
【0080】ステップS12において、上述のように、
音声記号に、合成用速度タグを挿入する編集を行った後
は、ステップS13に進み、音声記号編集部16は、音
声記号について、その反復する音韻部分のパワーを設定
する編集を、読み上げモード情報を参照することで行
う。
【0081】即ち、読み上げモード情報において、「反
復パワー変化」が、例えば、図2に示したように、「+
4dB/モーラ」に設定されている場合には、例えば、
上述の音声記号(8)は、次のような音声記号(9)に
編集される。
【0082】 {(\pow=+4\\spd=2to8\ココココ\spd=標準\\pow=標準\コレマ'テ゛ススメラレタ/ケンキュウワ) P3(\pow=+4\\spd=2to8\オオオ\spd=標準\\pow=標準\オ'オキナ/セ'イカヲ)・・・) ・・・(9)
【0083】音声記号(9)には、パワーを指示する合
成用タグ(以下、適宜、合成用パワータグという)\pow
=#i\が挿入されており、この合成用パワータグ\pow=#i\
は、パワーを、#i[db]とすることを意味する。但
し、合成用パワータグ\pow=±i\は、パワーを、1モー
ラあたり、±i[dB]ずつ変化させることを表す。規
則音声合成部12は、音声記号中に、合成用パワータグ
\pow\が挿入されている場合、その合成用速度タグ\pow\
以降に配置されている音韻のパワーを、その合成用速度
タグ\pow\にしたがって制御する。従って、音声記号
(9)から生成される合成音については、文頭の4つの
音韻「ココココ」は、1モーラあたり4dBずつ増加するパ
ワーで出力され、その後の、合成用パワータグ\pow=標
準\から\pow=+4\までの音韻「コレマテ゛ススメラレタケンキュウワ」は、
標準のパワーで出力される。さらに、ポーズ(P3)の後
の合成用速度タグ\pow=+4\の直後の3つの音韻「オオオ」
は、再び、1モーラあたり4dBずつ増加するパワーで
出力され、その後の合成用速度タグ\pow=標準\に続く音
韻「オオキナセイカヲ・・・」は、標準のパワーで出力される。
【0084】なお、その他、例えば、反復される音韻部
分の直後の音韻のパワーが大となるような編集を行うこ
とも可能である。
【0085】ステップS13において、上述のように、
音声記号に、合成用パワータグを挿入する編集を行った
後は、ステップS14に進み、以下、上述の場合と同様
の処理が行われ、音声出力部15において合成音が出力
される。
【0086】従って、この場合、音声出力部15から出
力される合成音は、所定の音韻が、読み上げモード情報
にしたがって反復回数、発話速度、パワーが制御された
もの、即ち、自然な吃りのある合成音となる。
【0087】以上のように、音声記号を、読み上げモー
ド情報にしたがって編集することにより、音声記号にお
ける所定の音韻を反復させるようにしたので、容易に、
吃りのある合成音を生成することができる。
【0088】さらに、音声記号について、反復させる音
韻部分の発話速度やパワーを制御する編集も行うように
したので、自然な吃りのある合成音を生成することがで
きる。
【0089】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0090】そこで、図5は、上述した一連の処理を実
行するプログラムがインストールされるコンピュータの
一実施の形態の構成例を示している。
【0091】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0092】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM(Compact DiscRead Only Memory),
MO(Magneto optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体111に、一時的あるいは永続的に格納(記
録)しておくことができる。このようなリムーバブル記
録媒体111は、いわゆるパッケージソフトウエアとし
て提供することができる。
【0093】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0094】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0095】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0096】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0097】以上、本発明の音声合成装置について説明
したが、この音声合成装置は、現実世界における実際の
ロボットや、表示装置に表示される仮想的なロボット
(キャラクタ)、対話システムその他に広く適用するこ
とができる。例えば、ロボットに適用した場合には、ロ
ボットが、吃りのある合成音による発話を行うことか
ら、ロボットに個性を持たせることができ、そのエンタ
テイメント性を向上させることができる。
【0098】なお、本実施の形態では、音声記号編集部
16を、規則音声合成部12とは別に構成するようにし
たが、音声記号編集部16は、規則音声合成部12に内
蔵させる形で構成することも可能である。
【0099】また、本実施の形態では、音声記号の編集
を、読み上げモード情報にしたがって行うようにした
が、音声記号の編集は、読み上げモード情報に対応する
編集用タグを、音声記号に、あらかじめ挿入しておき、
その編集用タグにしたがって行うようにすることも可能
である。
【0100】即ち、例えば、音声記号の編集において音
韻を反復させることを指示するタグ(以下、適宜、編集
用反復タグという)\vch=Domori\を、編集用タグの1つ
として定義しておき、音声記号編集部16には、このよ
うな編集用タグにしたがって、音声記号の編集を行わせ
ることが可能である。
【0101】この場合、例えば、音声記号が「{(コレマ'テ゛
ススメ\vch=Domori\ラレタ/ケンキュウワ)P3(オ'オキナ/セ'イカヲ)・・・}」
であったときには、音声記号編集部16では、編集用反
復タグ\vch=Domori\にしたがい、「{(コレマ'テ゛ススメラララララ・
・・レタ/ケンキュウワ)P3(オ'オキナ/セ'イカヲ)・・・}」のように、編
集用反復タグ\vch=Domori\の直後の音韻「ラ」を所定回
数だけ反復させるように編集が行われる。
【0102】なお、この場合、読み上げモード情報は不
要となる。但し、読み上げモード情報と、編集用タグと
は、併用することが可能である。
【0103】また、編集用タグは、音声記号ではなく、
その音声記号を生成する前のテキストデータに挿入して
おくことが可能である。なお、音韻情報を有する記号
(列)を、音声情報というものとすると、音声記号や、
その音声記号を生成する前のテキストデータは、いずれ
も音声情報であり、上述した編集は、音声情報を対象と
して行うことができる。即ち、上述の編集は、音声記号
ではなく、テキストデータを対象に行うことも可能であ
る。
【0104】また、本実施の形態では、合成音を規則音
声合成によって生成するようにしたが、合成音は、規則
音声合成以外の音声合成によって生成することも可能で
ある。
【0105】
【発明の効果】以上の如く、本発明の音声合成装置およ
び音声合成方法、並びにプログラムによれば、音声情報
が、所定の規則にしたがって編集され、音声情報におけ
る所定の音韻を反復させた状態の音声情報に変換され
る。そして、その編集された音声情報にしたがい、合成
音が生成される。従って、吃りのある合成音を、容易に
生成することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声合成装置の一実施の形態
の構成例を示すブロック図である。
【図2】読み上げモード情報を示す図である。
【図3】音声合成装置の処理を説明するフローチャート
である。
【図4】文書解析部4の処理結果を示す図である。
【図5】本発明を適用したコンピュータの一実施の形態
の構成例を示すブロック図である。
【符号の説明】
1 テキスト記憶部, 2 入力装置, 3 制御部,
4 文書解析部,5 単語辞書記憶部, 6 文法規
則記憶部, 7 解析結果記憶部, 8 音声記号生成
部, 9 アクセント規則記憶部, 10 フレーズ規
則記憶部,11 音声記号バッファ, 12 規則音声
合成部, 13 音素片記憶部,14 音声波形バッフ
ァ, 15 音声出力部, 16 音声記号編集部,
17 読み上げモード情報記憶部, 101 バス,
102 CPU, 103 ROM, 104 RAM, 10
5 ハードディスク, 106 出力部, 107入力
部, 108 通信部, 109 ドライブ, 110
入出力インタフェース, 111 リムーバブル記録
媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 浅野 康治 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 狩谷 真一 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 藤田 八重子 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D045 AA01 AA07 AB11

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも音韻情報を含む音声情報か
    ら、合成音を生成する音声合成装置であって、 前記音声情報を、所定の規則にしたがって編集すること
    により、前記音声情報における所定の音韻を反復させた
    状態の音声情報に変換する編集手段と、 前記編集手段において編集された前記音声情報にしたが
    い、合成音を生成する音声合成手段とを備えることを特
    徴とする音声合成装置。
  2. 【請求項2】 前記編集手段は、前記音声情報における
    文頭の音韻を反復させることを特徴とする請求項1に記
    載の音声合成装置。
  3. 【請求項3】 前記編集手段は、前記音声情報がポーズ
    を表すポーズ記号を含む場合に、そのポーズ記号の直後
    の音韻を反復させることを特徴とする請求項1に記載の
    音声合成装置。
  4. 【請求項4】 前記編集手段は、前記音声情報が、前記
    編集手段に対して、音韻を反復させる編集を行うことを
    指示する編集用タグを含む場合に、その編集用タグにし
    たがって、音韻を反復させることを特徴とする請求項1
    に記載の音声合成装置。
  5. 【請求項5】 前記編集手段は、前記所定の音韻を、一
    定回数だけ反復させることを特徴とする請求項1に記載
    の音声合成装置。
  6. 【請求項6】 前記編集手段は、前記所定の音韻を、乱
    数により決定される回数だけ反復させることを特徴とす
    る請求項1に記載の音声合成装置。
  7. 【請求項7】 前記乱数により決定される回数につい
    て、その上限または下限が設定可能となっていることを
    特徴とする請求項6に記載の音声合成装置。
  8. 【請求項8】 前記乱数により決定される回数の上限ま
    たは下限を入力する入力手段をさらに備えることを特徴
    とする請求項7に記載の音声合成装置。
  9. 【請求項9】 前記編集手段は、前記編集用タグにおい
    て、音韻の反復回数が指示されている場合に、その反復
    回数だけ、音韻を反復させることを特徴とする請求項4
    に記載の音声合成装置。
  10. 【請求項10】 前記編集手段は、音韻を反復させると
    ともに、その反復される音韻部分の発話速度が他の部分
    よりも速くなるように、前記音声情報を編集することを
    特徴とする請求項1に記載の音声合成装置。
  11. 【請求項11】 前記編集手段は、反復される音韻部分
    の発話速度を、乱数によって決定することを特徴とする
    請求項10に記載の音声合成装置。
  12. 【請求項12】 前記乱数により決定される発話速度に
    ついて、その上限または下限が設定可能となっているこ
    とを特徴とする請求項11に記載の音声合成装置。
  13. 【請求項13】 前記編集手段は、反復される音韻部分
    の発話速度を、その音韻の反復回数に基づいて決定する
    ことを特徴とする請求項10に記載の音声合成装置。
  14. 【請求項14】 前記編集手段は、反復される音韻部分
    の発話速度が変化するように、前記音声情報を編集する
    ことを特徴とする請求項10に記載の音声合成装置。
  15. 【請求項15】 前記編集手段は、音韻を反復させると
    ともに、その反復される音韻部分の直後の音韻のパワー
    が大きくなるように、前記音声情報を編集することを特
    徴とする請求項1に記載の音声合成装置。
  16. 【請求項16】 前記編集手段は、音韻を反復させると
    ともに、その反復される音韻部分のパワーが変化するよ
    うに、前記音声情報を編集することを特徴とする請求項
    1に記載の音声合成装置。
  17. 【請求項17】 前記編集手段は、音韻を反復させるよ
    うに、前記音声情報を編集するとともに、前記音声合成
    手段に対して、合成音の発話速度またはパワーを指示す
    る合成用タグを、前記音声情報に挿入することを特徴と
    する請求項1に記載の音声合成装置。
  18. 【請求項18】 前記編集手段は、前記音声情報が、前
    記編集手段に対して、合成音の発話速度またはパワーを
    制御する編集を行うことを指示する編集用タグを含む場
    合に、その編集用タグにしたがって、前記音声情報を、
    さらに編集することを特徴とする請求項1に記載の音声
    合成装置。
  19. 【請求項19】 前記編集手段は、前記音声情報におけ
    る音韻情報を繰り返し記述することにより、その音韻情
    報に対応する所定の音韻を反復させた状態の音声情報を
    得ることを特徴とする請求項1に記載の音声合成装置。
  20. 【請求項20】 テキストを言語処理する言語処理手段
    と、 前記言語処理手段による言語処理結果に基づいて、前記
    音声情報を生成する生成手段とをさらに備えることを特
    徴とする請求項1に記載の音声合成装置。
  21. 【請求項21】 少なくとも音韻情報を含む音声情報か
    ら、合成音を生成する音声合成方法であって、 前記音声情報を、所定の規則にしたがって編集すること
    により、前記音声情報における所定の音韻を反復させた
    状態の音声情報に変換する編集ステップと、 前記編集ステップにおいて編集された前記音声情報にし
    たがい、合成音を生成する音声合成ステップとを備える
    ことを特徴とする音声合成方法。
  22. 【請求項22】 少なくとも音韻情報を含む音声情報か
    ら、合成音を生成する音声合成処理を、コンピュータに
    行わせるプログラムであって、 前記音声情報を、所定の規則にしたがって編集すること
    により、前記音声情報における所定の音韻を反復させた
    状態の音声情報に変換する編集ステップと、 前記編集ステップにおいて編集された前記音声情報にし
    たがい、合成音を生成する音声合成ステップとを備える
    ことを特徴とするプログラム。
  23. 【請求項23】 少なくとも音韻情報を含む音声情報か
    ら、合成音を生成する音声合成処理を、コンピュータに
    行わせるプログラムが記録されている記録媒体であっ
    て、 前記音声情報を、所定の規則にしたがって編集すること
    により、前記音声情報における所定の音韻を反復させた
    状態の音声情報に変換する編集ステップと、 前記編集ステップにおいて編集された前記音声情報にし
    たがい、合成音を生成する音声合成ステップとを備える
    プログラムが記録されていることを特徴とする記録媒
    体。
JP2001118417A 2001-04-17 2001-04-17 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 Withdrawn JP2002311979A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001118417A JP2002311979A (ja) 2001-04-17 2001-04-17 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001118417A JP2002311979A (ja) 2001-04-17 2001-04-17 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2002311979A true JP2002311979A (ja) 2002-10-25

Family

ID=18968813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001118417A Withdrawn JP2002311979A (ja) 2001-04-17 2001-04-17 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2002311979A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7241947B2 (en) 2003-03-20 2007-07-10 Sony Corporation Singing voice synthesizing method and apparatus, program, recording medium and robot apparatus
JP2013101637A (ja) * 2007-04-28 2013-05-23 Nokia Corp テキスト専用アプリケーションのための娯楽オーディオ
US8650034B2 (en) 2009-02-16 2014-02-11 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product for speech processing
CN116092475A (zh) * 2023-04-07 2023-05-09 杭州东上智能科技有限公司 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7241947B2 (en) 2003-03-20 2007-07-10 Sony Corporation Singing voice synthesizing method and apparatus, program, recording medium and robot apparatus
JP2013101637A (ja) * 2007-04-28 2013-05-23 Nokia Corp テキスト専用アプリケーションのための娯楽オーディオ
US8694320B2 (en) 2007-04-28 2014-04-08 Nokia Corporation Audio with sound effect generation for text-only applications
US8650034B2 (en) 2009-02-16 2014-02-11 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product for speech processing
CN116092475A (zh) * 2023-04-07 2023-05-09 杭州东上智能科技有限公司 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

Similar Documents

Publication Publication Date Title
US6334106B1 (en) Method for editing non-verbal information by adding mental state information to a speech message
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
JP3616250B2 (ja) 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
JP2009139677A (ja) 音声処理装置及びそのプログラム
JP2006227589A (ja) 音声合成装置および音声合成方法
JP2002311979A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP3425996B2 (ja) ピッチパターン生成装置
JPH08335096A (ja) テキスト音声合成装置
CN114822490A (zh) 语音拼接方法和语音拼接装置
JP2000187495A (ja) 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP3681111B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3282151B2 (ja) 音声制御方式
JPH07200554A (ja) 文章読み上げ装置
JP2005181840A (ja) 音声合成装置及び音声合成プログラム
JP3575919B2 (ja) テキスト音声変換装置
KR20040015605A (ko) 가상노래 합성장치 및 방법
JP2703253B2 (ja) 音声合成装置
JP2001236086A (ja) テキスト音声合成出力機能を有するゲーム装置
JPH09230892A (ja) テキスト・音声変換装置
JPH06214585A (ja) 音声合成装置
JP3862300B2 (ja) 音声合成に用いる情報の処理方法および装置
JP2573586B2 (ja) 規則型音声合成装置
JP3870583B2 (ja) 音声合成装置および記憶媒体
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP2573585B2 (ja) 音声スペクトルパタン生成装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080701