JP2004145015A - テキスト音声合成システム及び方法 - Google Patents
テキスト音声合成システム及び方法 Download PDFInfo
- Publication number
- JP2004145015A JP2004145015A JP2002310067A JP2002310067A JP2004145015A JP 2004145015 A JP2004145015 A JP 2004145015A JP 2002310067 A JP2002310067 A JP 2002310067A JP 2002310067 A JP2002310067 A JP 2002310067A JP 2004145015 A JP2004145015 A JP 2004145015A
- Authority
- JP
- Japan
- Prior art keywords
- information
- prosody
- database
- word
- impression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】文章の内容に沿った、より自然な合成音声を生成することができるテキスト音声合成システム又は方法を提供することを目的とする。
【解決手段】テキスト文字列が入力され、テキスト文字列に関する言語情報を解析し、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成するテキスト音声合成方法であって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備え、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更する。
【選択図】 図2
【解決手段】テキスト文字列が入力され、テキスト文字列に関する言語情報を解析し、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成するテキスト音声合成方法であって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備え、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更する。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、テキスト文字列を入力として自動的に合成音声を生成するテキスト音声合成システム及び方法に関する。
【0002】
【従来の技術】
昨今のコンピュータ技術の進展に伴って、合成音声を用いたシステムとの音声による対話を活用したアプリケーションが多方面において普及している。そして、生成される合成音声の品質についても、向上させるために様々な方法が考えられている。
【0003】
図1に、従来の一般的なテキスト音声合成装置の概要構成図を示す。従来のテキスト音声合成装置においては、まずテキスト文字列入力部11において入力されたテキスト文字列について、言語処理部12において単語や文節単位に分割し、分割された単語や文節ごとに読みやアクセント、あるいは掛かり受け関係等の言語情報を解析する。
【0004】
そして、音響処理部13において、音の強弱や長短、高低などの音声の韻律を決定し、読みと韻律に応じた合成波形を生成することになる。
【0005】
しかし、従来のテキスト音声合成技術においては、いかにも合成音声と感じさせる一様な調子の不自然な読み方になることが多く、合成音声を聞いたときに違和感が生じる。すなわち、人間が読み上げる場合には、明るい内容の印象を与える単語は明るく、暗い内容の印象を与える単語は押さえ気味に読む等、読み上げる意味内容に沿った読み方を行っているが、合成音声の場合には、言語処理部12から出力された字面を単に読み上げるだけであり、どのような状況でも一定の読み方になることから自然な音声に聞こえないことが多い。
【0006】
そこで、聞く者にとって自然な音声と聞こえるような合成波形を生成するために、例えば(特許文献1)に開示されている方法においては、音声辞書の韻律情報として、感情の起伏に応じた読み情報を事前に登録しておき、感情情報に応じて最適な韻律で合成音声を生成したり、あるいは感情情報に応じて生成された合成音声の出力ピッチを上下動させる等によって、感情の起伏に応じた自然な音声と聞こえるように音声出力を行っている。
【0007】
【特許文献1】
特開平9−171396号公報
【0008】
【発明が解決しようとする課題】
しかしながら、(特許文献1)に開示されている方法に代表されるような合成音声の生成方法あるいは合成音声の変更方法においては、以下のような問題点が残されていた。
【0009】
まず、音声辞書の韻律情報として、感情の起伏に応じた読み情報を事前に登録するのは、登録する利用者にとっては作業負担が大きく、かつ数多くの登録データが存在しないと本当に感情の起伏に沿った合成音声を出力することができないことから、計算機資源の物理的な制約条件の観点からも、実用性に乏しいという問題点があった。
【0010】
また、感情情報に応じて合成音声の音声ピッチ等を変更する方法においては、単語単位での感情情報を単語単位で保持しておくと、文章単位での感情表現と相違する場合も考えられる。例えば、「彼の表情には希望が感じられた。」という肯定文の場合には問題が生じないものの、「彼の表情には希望が感じられない。」といった否定文においては、「希望」を抑え目に読み上げるべきところ、明るめに読み上げてしまうといった現象が発生する可能性が残されている。それに対して文章単位で感情情報を保持することは、計算機資源の物理的な制約条件の観点からも、現実性に乏しいという問題点があった。
【0011】
本発明は、上記問題点を解決するために、文章の内容に沿った読み上げをすることで、より自然な合成音声を生成することができるテキスト音声合成システム又は方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するために本発明にかかるテキスト音声合成システムは、テキスト文字列が入力されるテキスト文字列入力部と、入力されたテキスト文字列に関する言語情報を解析する言語処理部と、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備え、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、音響処理部における韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更することを特徴とする。
【0013】
かかる構成により、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することが可能となる。
【0014】
また、本発明にかかるテキスト音声合成システムは、合成音声波形を生成するために用いる波形素片を登録する波形素片データベースをさらに含み、波形素片データベースに登録されている波形素片が印象属性情報に対応しており、音響処理部における音声波形の合成時に、印象属性情報に対応する波形素片を選択し、印象属性に応じて波形素片を変更することが好ましい。印象属性情報に対応した波形素片を用いることによって、単語の印象に応じた波形素片を選択することができ、より自然な声質の合成音声を生成することができるからである。
【0015】
また、本発明にかかるテキスト音声合成システムは、音響処理部において、印象属性情報と言語処理部において解析された言語情報に基づいて、単語及び単語の係り先の語句の韻律パターン及び使用する波形素片を変更することが好ましい。言語処理部の解析結果を利用することで、単語のみの印象属性情報だけでは正確に文章全体の印象を判定できない場合であっても、文章全体で表現している印象表現に沿った読み上げを行うことができるからである。
【0016】
また、本発明にかかるテキスト音声合成システムは、生成する韻律パターン及び使用する波形素片を指定することができる指定部をさらに含むことが好ましい。利用者が特に印象を強調したい単語に対して、利用者の意図に沿った合成音声を生成することができるからである。
【0017】
また、本発明は、上記のようなテキスト音声合成システムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、テキスト文字列が入力される工程と、入力されたテキスト文字列に関する言語情報を解析する工程と、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する工程とを含むテキスト音声合成方法であって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを利用するとともに、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更するテキスト音声合成方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【0018】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することができるテキスト音声合成方法システムを実現することが可能となる。
【0019】
【発明の実施の形態】
(実施の形態1)
以下、本発明の実施の形態1にかかるテキスト音声合成方法システムについて、図面を参照しながら説明する。図2は本発明の実施の形態1にかかるテキスト音声合成方法システムの構成図である。
【0020】
図2において、21はテキスト文字列が入力されるテキスト文字列入力部を、22はテキスト文字列入力部21において入力されたテキスト文字列に関する言語情報を解析する言語処理部を、23は単語ごとの構文や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベースを、それぞれ示している。
【0021】
言語処理部22では、入力されたテキスト文字列を解析するにあたって、単語データベース23を参照する。単語データベース23には、テキスト文字列の解析に必要となる、単語の読み情報、活用形、品詞等に関する文法情報、アクセント型等の他、その単語が一般的に利用される文脈における印象を表す印象属性情報が登録されている。そして、単語データベース23を参照しながら形態素解析や構文解析を行って、入力されたテキスト文字列を、単語や文節等の単位に分割して、読み情報やアクセント型、あるいは構文情報等を求めることになる。
【0022】
図3は、本発明の実施の形態1にかかるテキスト音声合成方法システムにおける単語データベース23のデータ構成例示図である。図3に示すように、登録されている単語ごと一般的に利用される文脈における印象を表す印象属性が登録されている。
【0023】
印象属性の決定方法については様々な方法が考えられる。例えば、印象属性を「明」、「中立」、「暗」の3つに分類し、単語データベース23に登録されている単語ごとに、当該単語の対義語が存在し、かつ対義語が反対の意味関係にある場合、肯定的な意味を持つ単語に「明」属性を付与し、否定的な意味を持つ単語に「暗」属性を付与する。対義語が相互関係にある場合、例えば単語「親」と「子」などについては、あるいは対義語が存在しない場合には「中立」属性を付与することになる。
【0024】
もちろん、かかる分類に限定されるものではなく、例えば印象属性として、謝罪や依頼などの発話者の心理状態を表す属性や感情状態を表す属性や、「明1」、「明2」などのように、印象の程度を段階分けして属性を付与することも考えられる。
【0025】
また、24は、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する音響処理部を示している。音響処理部24は、合成音声の韻律パターンを生成するために、韻律情報を登録する韻律データベース25を参照することになる。
【0026】
韻律データベース25には、単語データベース23に格納されている各種の印象属性に対応した韻律情報が登録されている。図4に本発明の実施の形態1にかかるテキスト音声合成方法システムにおける韻律データベース25の構成例示図を示す。
【0027】
図4(a)はルールベースの方法を示している。すなわち、図4(a)では、アクセント型、モーラ数、構文情報等の言語情報に基づいて一定の規則で韻律を生成する場合を示している。この韻律生成規則を各印象属性ごとにそれぞれ保持することになる。
【0028】
例えば、「明」属性の場合には音声ピッチを高めに、かつ音素長をやや短くすることによって、軽快な印象を与える合成音を生成するルールを用意し、「暗」属性の場合には音声ピッチを低めに、かつ音素長を長めにとることによって、押さえ気味の落ち着いた印象を与える合成音を生成するルールを用意しておくことになる。
【0029】
図4(b)は、いわゆるコーパスベースと呼ばれる方法を示している。すなわち、図4(b)では、できるだけ多くの実際の韻律パターンを、単語や文節単位で、アクセント型、モーラ数、構文情報等に基づいて分類し、登録したデータベース(以下、コーパスという。)を用意しておき、入力されたテキスト文字列に含まれる単語や文節ごとに、アクセント型、モーラ数、構文情報等をキーとして、最も近いキーを持つ韻律パターンをコーパスから取得する場合を示している。なお、コーパスの生成時において、単語データベース23に格納されている印象情報に応じた韻律で発話された韻律パターンに対して、その印象情報をタグとして付与しておき、当該印象属性タグにより韻律パターンを検索できるようにしておくことになる。
【0030】
図4(c)は、コーパスを各印象属性ごとに保存しておく方法を示している。すなわち、図4(c)では、単語データベース23に格納されている印象情報に応じた韻律で発声した韻律パターンを、それぞれの印象属性ごとに異なるコーパスとして保存しておくことになる。
【0031】
このように、韻律データベース25に、単語データベースにおける印象属性に対応した印象情報を付与することによって、印象に応じた韻律情報を確実に選択することができ、より自然性の高い合成音声を作成することが可能となる。
【0032】
そして、韻律パターンの生成時においては、単語データベース23に登録されている印象属性情報を参照し、登録されている印象属性に応じた韻律パターンを韻律データベース24から取得することになる。
【0033】
例えば、「キボウ」という単語の合成音を生成する場合において、単語データベース23を参照した結果、「明」属性が付与されていたものとする。この場合、韻律データベース25における「明」属性のコーパスの中から韻律パターンを取得する。例えば、「明」属性のコーパスには、音声ピッチが高めで音素長がやや短い軽快な調子の韻律パターンが格納されており、「希望」という明るい文脈で用いられる単語の印象に合った韻律パターンにより合成音声を生成することができる。
【0034】
このように、入力されたテキスト文字列に含まれる単語の印象に応じた韻律パターンを生成しながら合成音声を生成することができることから、自然な合成音声を生成することができる。
【0035】
また、より合成音声の品質を高めるために、図5に示すような音声波形データベース26を音響処理部24に追加することも考えられる。音声波形データベース26には、合成波形を生成する際に使用する波形素片が保存されている。そして、単語データベース23に登録されている各印象属性に対応したデータとして波形素片データが形成されている。
【0036】
例えば、単語データベース23における印象属性が、「明」、「中立」、「暗」であった場合、明るい調子で発声した波形素片を集めた波形データ群と、通常の発声を集めた波形素片データ群、及び暗い調子で発声した波形素片を集めた波形データ群を準備しておくことになる。
【0037】
そして、音響処理部24においては、言語処理部22において分割された単語や文節単位で単語データベース23に登録されている印象属性情報を参照し、登録されている印象属性に応じて韻律データベース25を参照して韻律パターンを生成するとともに、音声波形データベース26からも印象属性に応じて波形素片を選択して、単語の印象に応じた声質で合成波形を生成することになる。
【0038】
また、音声波形データベース26として、波形素片それぞれに対して、当該波形素片に対応する音声が発声された調子によって印象属性情報をタグ付けしてあるものであっても良い。例えば、単語データベース23における印象属性が、「明」、「中立」、「暗」であった場合、音声波形データベース26は、明るい調子で発声した波形素片には「明」属性を、暗い調子で発声した波形素片には「暗」属性を、その他の波形素片には「中立」属性のタグを付与することになる。
【0039】
このように、各印象属性に対応した波形素片も準備しておくことによって、より自然な声質の合成音声を生成することが可能となる。
【0040】
次に、本発明の実施の形態1にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図6に本発明の実施の形態1にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。
【0041】
図6において、まずテキスト文字列が入力され(ステップS601)、単語ごとの文法情報や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベース23を参照して、入力されたテキスト文字列に関する言語情報を解析する(ステップS602)。
【0042】
次に、解析された結果から印象属性を抽出し(ステップS603)、ステップS602で求まった言語情報と当該印象属性をキー情報として、韻律データベース25を参照して、韻律パターンを生成する(ステップS604)。
【0043】
そして、生成された韻律パターンに基づいて、合成音声を生成することになる(ステップS605)。
【0044】
以上のように本実施の形態1によれば、テキスト文字列に含まれる単語ごとの印象属性情報に対応した韻律情報に基づいて韻律パターンを生成してから合成音声を生成することから、韻律パターン情報をすべて登録しておく必要なく、利用者の感情表現に沿った合成音声を生成することが可能となる。
【0045】
(実施の形態2)
以下、本発明の実施の形態2にかかるテキスト音声合成方法システムについて、図面を参照しながら説明する。図7は本発明の実施の形態2にかかるテキスト音声合成方法システムの構成図である。
【0046】
本実施の形態2の構成は、実施の形態1と基本的に同様であることから、同一の機能を有する部分については図2と同一の番号を付することで詳細な説明を省略する。実施の形態1とは、音響処理部24において合成音声を生成する前に、条件に応じて印象属性を更新する印象属性更新部71を設けている点で相違する。
【0047】
すなわち、印象属性更新部71では、言語処理部22で解析された構文情報に基づいて、単語データベース23において単語ごとに付随している印象属性を更新して音響処理部24へ渡すことになる。具体的には、印象属性を抽出した単語の係り先の語句についても印象属性情報を付与しておき、係り先の語句に関する印象属性を考慮して、当該単語の印象属性を更新することになる。
【0048】
例えば、入力されたテキスト文字列が、「希望がなかった」という文章であった場合、単語データベース23においては、「希望」の印象属性として「明」属性が登録されているものの、文章全体の印象としては否定的な「暗」属性を有するべき内容である。そこで、言語処理部22における構文解析の結果を参照し、単語「希望」の係り先である文節「なかった」を特定し、「なかった」のように否定を含む語句である場合には、文章全体の印象属性が「暗」属性であると判断し、「明」属性を有する単語「希望」についても、印象属性を「明」属性から「暗」属性へと更新することになる。このようにすることで、音響処理部24において韻律データベース25あるいは音声波形データベース26を用いて合成音声を生成する場合に、印象属性が「暗」属性であることを前提として処理を行うことが可能となる。
【0049】
次に、本発明の実施の形態2にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図8に本発明の実施の形態2にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。
【0050】
図8において、まずテキスト文字列が入力され(ステップS801)、単語ごとの文法情報や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベース23を参照して、入力されたテキスト文字列に含まれる単語について形態素解析や構文解析により言語情報の解析を行う(ステップS802)。
【0051】
次に、入力されたテキスト文字列に含まれる単語の係り先の語句を構文解析の結果に基づいて特定する(ステップS803)。そして、単語と係り先の語句が否定語であるか否かを判断する(ステップS804)。
【0052】
単語と係り先の語句が否定語であると判断された場合には(ステップS804:Yes)、単語の印象属性を逆の印象属性に更新し(ステップS805)、当該印象属性をキー情報として、韻律データベース25を参照して、韻律パターンを生成する(ステップS806)。
【0053】
そして、生成された韻律パターンに基づいて、合成音声を生成することになる(ステップS807)。
【0054】
以上のように本実施の形態2によれば、言語処理部22における構文解析結果当を活用することによって、単語のみの印象属性情報だけでは正確に文章全体の印象属性を判断できない場合であっても、適切な印象属性を定めることができ、文章全体の印象に沿った自然な音声合成を生成することが可能となる。
【0055】
なお、実施の形態1及び実施の形態2において、入力されたテキスト文字列に対して、利用者が印象属性情報を付与することができるように印象属性付与部(図示せず)を設けることも考えられる。この場合、印象属性更新部71において、印象属性情報が更新される場合であっても、利用者の付与した印象属性情報を優先するようにしても良い。このようにすることで、利用者が特に意図した印象を反映させた合成音声を生成することも可能となる。
【0056】
同様に、利用者が、生成する韻律パターン及び使用する波形素片を自ら指定することができる指定部(図示せず)を設けることも考えられる。指定部を設けることによって、利用者自身が自分の意図した印象を最も反映していると考えている韻律パターン及び波形素片を用いることができ、利用者の印象を反映させた合成音声を生成することがより容易になる。
【0057】
また、本発明の実施の形態にかかるテキスト音声合成システムを実現するプログラムは、図9に示すように、CD−ROM92−1やフレキシブルディスク92−2等の可搬型記録媒体92だけでなく、通信回線の先に備えられた他の記憶装置91や、コンピュータ93のハードディスクやRAM等の記録媒体94のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0058】
また、本発明の実施の形態にかかるテキスト音声合成システムで利用される単語データベース23や韻律データベース25等についても、図9に示すように、CD−ROM92−1やフレキシブルディスク92−2等の可搬型記録媒体92だけでなく、通信回線の先に備えられた他の記憶装置91や、コンピュータ93のハードディスクやRAM等の記録媒体94のいずれに記憶されるものであっても良く、例えば本発明にかかるテキスト音声合成システムを利用する際にコンピュータ93により読み取られる。
【0059】
【発明の効果】
以上のように本発明にかかるテキスト音声合成システムによれば、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することができる。
【0060】
また、本発明にかかるテキスト音声合成システムによれば、言語処理部の解析結果を利用することで、単語のみの印象属性情報だけでは正確に文章全体の印象を判定できない場合であっても、文章全体で表現している感情表現に沿った読み上げを行うことが可能となる。
【図面の簡単な説明】
【図1】従来のテキスト音声合成システムの構成図
【図2】本発明の実施の形態1にかかるテキスト音声合成システムの構成図
【図3】本発明の実施の形態1にかかるテキスト音声合成システムにおける単語データベースのデータ構成例示図
【図4】本発明の実施の形態1にかかるテキスト音声合成システムにおける韻律データベースの構成例示図
【図5】本発明の実施の形態1にかかるテキスト音声合成システムにおける他の構成図
【図6】本発明の実施の形態1にかかるテキスト音声合成システムにおける処理の流れ図
【図7】本発明の実施の形態2にかかるテキスト音声合成システムの構成図
【図8】本発明の実施の形態2にかかるテキスト音声合成システムにおける処理の流れ図
【図9】コンピュータ環境の例示図
【符号の説明】
11、21 テキスト文字列入力部
12、22 言語処理部
13、24 音響処理部
23 単語データベース
25 韻律データベース
26 音声波形データベース
71 印象属性更新部
91 回線先の記憶装置
92 CD−ROMやフレキシブルディスク等の可搬型記録媒体
92−1 CD−ROM
92−2 フレキシブルディスク
93 コンピュータ
94 コンピュータ上のRAM/ハードディスク等の記録媒体
【発明の属する技術分野】
本発明は、テキスト文字列を入力として自動的に合成音声を生成するテキスト音声合成システム及び方法に関する。
【0002】
【従来の技術】
昨今のコンピュータ技術の進展に伴って、合成音声を用いたシステムとの音声による対話を活用したアプリケーションが多方面において普及している。そして、生成される合成音声の品質についても、向上させるために様々な方法が考えられている。
【0003】
図1に、従来の一般的なテキスト音声合成装置の概要構成図を示す。従来のテキスト音声合成装置においては、まずテキスト文字列入力部11において入力されたテキスト文字列について、言語処理部12において単語や文節単位に分割し、分割された単語や文節ごとに読みやアクセント、あるいは掛かり受け関係等の言語情報を解析する。
【0004】
そして、音響処理部13において、音の強弱や長短、高低などの音声の韻律を決定し、読みと韻律に応じた合成波形を生成することになる。
【0005】
しかし、従来のテキスト音声合成技術においては、いかにも合成音声と感じさせる一様な調子の不自然な読み方になることが多く、合成音声を聞いたときに違和感が生じる。すなわち、人間が読み上げる場合には、明るい内容の印象を与える単語は明るく、暗い内容の印象を与える単語は押さえ気味に読む等、読み上げる意味内容に沿った読み方を行っているが、合成音声の場合には、言語処理部12から出力された字面を単に読み上げるだけであり、どのような状況でも一定の読み方になることから自然な音声に聞こえないことが多い。
【0006】
そこで、聞く者にとって自然な音声と聞こえるような合成波形を生成するために、例えば(特許文献1)に開示されている方法においては、音声辞書の韻律情報として、感情の起伏に応じた読み情報を事前に登録しておき、感情情報に応じて最適な韻律で合成音声を生成したり、あるいは感情情報に応じて生成された合成音声の出力ピッチを上下動させる等によって、感情の起伏に応じた自然な音声と聞こえるように音声出力を行っている。
【0007】
【特許文献1】
特開平9−171396号公報
【0008】
【発明が解決しようとする課題】
しかしながら、(特許文献1)に開示されている方法に代表されるような合成音声の生成方法あるいは合成音声の変更方法においては、以下のような問題点が残されていた。
【0009】
まず、音声辞書の韻律情報として、感情の起伏に応じた読み情報を事前に登録するのは、登録する利用者にとっては作業負担が大きく、かつ数多くの登録データが存在しないと本当に感情の起伏に沿った合成音声を出力することができないことから、計算機資源の物理的な制約条件の観点からも、実用性に乏しいという問題点があった。
【0010】
また、感情情報に応じて合成音声の音声ピッチ等を変更する方法においては、単語単位での感情情報を単語単位で保持しておくと、文章単位での感情表現と相違する場合も考えられる。例えば、「彼の表情には希望が感じられた。」という肯定文の場合には問題が生じないものの、「彼の表情には希望が感じられない。」といった否定文においては、「希望」を抑え目に読み上げるべきところ、明るめに読み上げてしまうといった現象が発生する可能性が残されている。それに対して文章単位で感情情報を保持することは、計算機資源の物理的な制約条件の観点からも、現実性に乏しいという問題点があった。
【0011】
本発明は、上記問題点を解決するために、文章の内容に沿った読み上げをすることで、より自然な合成音声を生成することができるテキスト音声合成システム又は方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するために本発明にかかるテキスト音声合成システムは、テキスト文字列が入力されるテキスト文字列入力部と、入力されたテキスト文字列に関する言語情報を解析する言語処理部と、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備え、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、音響処理部における韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更することを特徴とする。
【0013】
かかる構成により、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することが可能となる。
【0014】
また、本発明にかかるテキスト音声合成システムは、合成音声波形を生成するために用いる波形素片を登録する波形素片データベースをさらに含み、波形素片データベースに登録されている波形素片が印象属性情報に対応しており、音響処理部における音声波形の合成時に、印象属性情報に対応する波形素片を選択し、印象属性に応じて波形素片を変更することが好ましい。印象属性情報に対応した波形素片を用いることによって、単語の印象に応じた波形素片を選択することができ、より自然な声質の合成音声を生成することができるからである。
【0015】
また、本発明にかかるテキスト音声合成システムは、音響処理部において、印象属性情報と言語処理部において解析された言語情報に基づいて、単語及び単語の係り先の語句の韻律パターン及び使用する波形素片を変更することが好ましい。言語処理部の解析結果を利用することで、単語のみの印象属性情報だけでは正確に文章全体の印象を判定できない場合であっても、文章全体で表現している印象表現に沿った読み上げを行うことができるからである。
【0016】
また、本発明にかかるテキスト音声合成システムは、生成する韻律パターン及び使用する波形素片を指定することができる指定部をさらに含むことが好ましい。利用者が特に印象を強調したい単語に対して、利用者の意図に沿った合成音声を生成することができるからである。
【0017】
また、本発明は、上記のようなテキスト音声合成システムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、テキスト文字列が入力される工程と、入力されたテキスト文字列に関する言語情報を解析する工程と、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する工程とを含むテキスト音声合成方法であって、単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む言語情報を登録する単語データベースと、合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを利用するとともに、単語データベースに登録されている単語に印象属性情報が付与されており、かつ韻律データベースに登録されている韻律情報が印象属性情報に対応しており、韻律パターン生成時に、印象属性情報に対応した韻律情報に基づいて、生成する韻律パターンを変更するテキスト音声合成方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【0018】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することができるテキスト音声合成方法システムを実現することが可能となる。
【0019】
【発明の実施の形態】
(実施の形態1)
以下、本発明の実施の形態1にかかるテキスト音声合成方法システムについて、図面を参照しながら説明する。図2は本発明の実施の形態1にかかるテキスト音声合成方法システムの構成図である。
【0020】
図2において、21はテキスト文字列が入力されるテキスト文字列入力部を、22はテキスト文字列入力部21において入力されたテキスト文字列に関する言語情報を解析する言語処理部を、23は単語ごとの構文や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベースを、それぞれ示している。
【0021】
言語処理部22では、入力されたテキスト文字列を解析するにあたって、単語データベース23を参照する。単語データベース23には、テキスト文字列の解析に必要となる、単語の読み情報、活用形、品詞等に関する文法情報、アクセント型等の他、その単語が一般的に利用される文脈における印象を表す印象属性情報が登録されている。そして、単語データベース23を参照しながら形態素解析や構文解析を行って、入力されたテキスト文字列を、単語や文節等の単位に分割して、読み情報やアクセント型、あるいは構文情報等を求めることになる。
【0022】
図3は、本発明の実施の形態1にかかるテキスト音声合成方法システムにおける単語データベース23のデータ構成例示図である。図3に示すように、登録されている単語ごと一般的に利用される文脈における印象を表す印象属性が登録されている。
【0023】
印象属性の決定方法については様々な方法が考えられる。例えば、印象属性を「明」、「中立」、「暗」の3つに分類し、単語データベース23に登録されている単語ごとに、当該単語の対義語が存在し、かつ対義語が反対の意味関係にある場合、肯定的な意味を持つ単語に「明」属性を付与し、否定的な意味を持つ単語に「暗」属性を付与する。対義語が相互関係にある場合、例えば単語「親」と「子」などについては、あるいは対義語が存在しない場合には「中立」属性を付与することになる。
【0024】
もちろん、かかる分類に限定されるものではなく、例えば印象属性として、謝罪や依頼などの発話者の心理状態を表す属性や感情状態を表す属性や、「明1」、「明2」などのように、印象の程度を段階分けして属性を付与することも考えられる。
【0025】
また、24は、解析された言語情報に基づいて韻律パターンを生成し、音声波形を合成する音響処理部を示している。音響処理部24は、合成音声の韻律パターンを生成するために、韻律情報を登録する韻律データベース25を参照することになる。
【0026】
韻律データベース25には、単語データベース23に格納されている各種の印象属性に対応した韻律情報が登録されている。図4に本発明の実施の形態1にかかるテキスト音声合成方法システムにおける韻律データベース25の構成例示図を示す。
【0027】
図4(a)はルールベースの方法を示している。すなわち、図4(a)では、アクセント型、モーラ数、構文情報等の言語情報に基づいて一定の規則で韻律を生成する場合を示している。この韻律生成規則を各印象属性ごとにそれぞれ保持することになる。
【0028】
例えば、「明」属性の場合には音声ピッチを高めに、かつ音素長をやや短くすることによって、軽快な印象を与える合成音を生成するルールを用意し、「暗」属性の場合には音声ピッチを低めに、かつ音素長を長めにとることによって、押さえ気味の落ち着いた印象を与える合成音を生成するルールを用意しておくことになる。
【0029】
図4(b)は、いわゆるコーパスベースと呼ばれる方法を示している。すなわち、図4(b)では、できるだけ多くの実際の韻律パターンを、単語や文節単位で、アクセント型、モーラ数、構文情報等に基づいて分類し、登録したデータベース(以下、コーパスという。)を用意しておき、入力されたテキスト文字列に含まれる単語や文節ごとに、アクセント型、モーラ数、構文情報等をキーとして、最も近いキーを持つ韻律パターンをコーパスから取得する場合を示している。なお、コーパスの生成時において、単語データベース23に格納されている印象情報に応じた韻律で発話された韻律パターンに対して、その印象情報をタグとして付与しておき、当該印象属性タグにより韻律パターンを検索できるようにしておくことになる。
【0030】
図4(c)は、コーパスを各印象属性ごとに保存しておく方法を示している。すなわち、図4(c)では、単語データベース23に格納されている印象情報に応じた韻律で発声した韻律パターンを、それぞれの印象属性ごとに異なるコーパスとして保存しておくことになる。
【0031】
このように、韻律データベース25に、単語データベースにおける印象属性に対応した印象情報を付与することによって、印象に応じた韻律情報を確実に選択することができ、より自然性の高い合成音声を作成することが可能となる。
【0032】
そして、韻律パターンの生成時においては、単語データベース23に登録されている印象属性情報を参照し、登録されている印象属性に応じた韻律パターンを韻律データベース24から取得することになる。
【0033】
例えば、「キボウ」という単語の合成音を生成する場合において、単語データベース23を参照した結果、「明」属性が付与されていたものとする。この場合、韻律データベース25における「明」属性のコーパスの中から韻律パターンを取得する。例えば、「明」属性のコーパスには、音声ピッチが高めで音素長がやや短い軽快な調子の韻律パターンが格納されており、「希望」という明るい文脈で用いられる単語の印象に合った韻律パターンにより合成音声を生成することができる。
【0034】
このように、入力されたテキスト文字列に含まれる単語の印象に応じた韻律パターンを生成しながら合成音声を生成することができることから、自然な合成音声を生成することができる。
【0035】
また、より合成音声の品質を高めるために、図5に示すような音声波形データベース26を音響処理部24に追加することも考えられる。音声波形データベース26には、合成波形を生成する際に使用する波形素片が保存されている。そして、単語データベース23に登録されている各印象属性に対応したデータとして波形素片データが形成されている。
【0036】
例えば、単語データベース23における印象属性が、「明」、「中立」、「暗」であった場合、明るい調子で発声した波形素片を集めた波形データ群と、通常の発声を集めた波形素片データ群、及び暗い調子で発声した波形素片を集めた波形データ群を準備しておくことになる。
【0037】
そして、音響処理部24においては、言語処理部22において分割された単語や文節単位で単語データベース23に登録されている印象属性情報を参照し、登録されている印象属性に応じて韻律データベース25を参照して韻律パターンを生成するとともに、音声波形データベース26からも印象属性に応じて波形素片を選択して、単語の印象に応じた声質で合成波形を生成することになる。
【0038】
また、音声波形データベース26として、波形素片それぞれに対して、当該波形素片に対応する音声が発声された調子によって印象属性情報をタグ付けしてあるものであっても良い。例えば、単語データベース23における印象属性が、「明」、「中立」、「暗」であった場合、音声波形データベース26は、明るい調子で発声した波形素片には「明」属性を、暗い調子で発声した波形素片には「暗」属性を、その他の波形素片には「中立」属性のタグを付与することになる。
【0039】
このように、各印象属性に対応した波形素片も準備しておくことによって、より自然な声質の合成音声を生成することが可能となる。
【0040】
次に、本発明の実施の形態1にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図6に本発明の実施の形態1にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。
【0041】
図6において、まずテキスト文字列が入力され(ステップS601)、単語ごとの文法情報や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベース23を参照して、入力されたテキスト文字列に関する言語情報を解析する(ステップS602)。
【0042】
次に、解析された結果から印象属性を抽出し(ステップS603)、ステップS602で求まった言語情報と当該印象属性をキー情報として、韻律データベース25を参照して、韻律パターンを生成する(ステップS604)。
【0043】
そして、生成された韻律パターンに基づいて、合成音声を生成することになる(ステップS605)。
【0044】
以上のように本実施の形態1によれば、テキスト文字列に含まれる単語ごとの印象属性情報に対応した韻律情報に基づいて韻律パターンを生成してから合成音声を生成することから、韻律パターン情報をすべて登録しておく必要なく、利用者の感情表現に沿った合成音声を生成することが可能となる。
【0045】
(実施の形態2)
以下、本発明の実施の形態2にかかるテキスト音声合成方法システムについて、図面を参照しながら説明する。図7は本発明の実施の形態2にかかるテキスト音声合成方法システムの構成図である。
【0046】
本実施の形態2の構成は、実施の形態1と基本的に同様であることから、同一の機能を有する部分については図2と同一の番号を付することで詳細な説明を省略する。実施の形態1とは、音響処理部24において合成音声を生成する前に、条件に応じて印象属性を更新する印象属性更新部71を設けている点で相違する。
【0047】
すなわち、印象属性更新部71では、言語処理部22で解析された構文情報に基づいて、単語データベース23において単語ごとに付随している印象属性を更新して音響処理部24へ渡すことになる。具体的には、印象属性を抽出した単語の係り先の語句についても印象属性情報を付与しておき、係り先の語句に関する印象属性を考慮して、当該単語の印象属性を更新することになる。
【0048】
例えば、入力されたテキスト文字列が、「希望がなかった」という文章であった場合、単語データベース23においては、「希望」の印象属性として「明」属性が登録されているものの、文章全体の印象としては否定的な「暗」属性を有するべき内容である。そこで、言語処理部22における構文解析の結果を参照し、単語「希望」の係り先である文節「なかった」を特定し、「なかった」のように否定を含む語句である場合には、文章全体の印象属性が「暗」属性であると判断し、「明」属性を有する単語「希望」についても、印象属性を「明」属性から「暗」属性へと更新することになる。このようにすることで、音響処理部24において韻律データベース25あるいは音声波形データベース26を用いて合成音声を生成する場合に、印象属性が「暗」属性であることを前提として処理を行うことが可能となる。
【0049】
次に、本発明の実施の形態2にかかるテキスト音声合成システムを実現するプログラムの処理の流れについて説明する。図8に本発明の実施の形態2にかかるテキスト音声合成システムを実現するプログラムの処理の流れ図を示す。
【0050】
図8において、まずテキスト文字列が入力され(ステップS801)、単語ごとの文法情報や読み、アクセント等に関する情報を含んだ言語情報を登録する単語データベース23を参照して、入力されたテキスト文字列に含まれる単語について形態素解析や構文解析により言語情報の解析を行う(ステップS802)。
【0051】
次に、入力されたテキスト文字列に含まれる単語の係り先の語句を構文解析の結果に基づいて特定する(ステップS803)。そして、単語と係り先の語句が否定語であるか否かを判断する(ステップS804)。
【0052】
単語と係り先の語句が否定語であると判断された場合には(ステップS804:Yes)、単語の印象属性を逆の印象属性に更新し(ステップS805)、当該印象属性をキー情報として、韻律データベース25を参照して、韻律パターンを生成する(ステップS806)。
【0053】
そして、生成された韻律パターンに基づいて、合成音声を生成することになる(ステップS807)。
【0054】
以上のように本実施の形態2によれば、言語処理部22における構文解析結果当を活用することによって、単語のみの印象属性情報だけでは正確に文章全体の印象属性を判断できない場合であっても、適切な印象属性を定めることができ、文章全体の印象に沿った自然な音声合成を生成することが可能となる。
【0055】
なお、実施の形態1及び実施の形態2において、入力されたテキスト文字列に対して、利用者が印象属性情報を付与することができるように印象属性付与部(図示せず)を設けることも考えられる。この場合、印象属性更新部71において、印象属性情報が更新される場合であっても、利用者の付与した印象属性情報を優先するようにしても良い。このようにすることで、利用者が特に意図した印象を反映させた合成音声を生成することも可能となる。
【0056】
同様に、利用者が、生成する韻律パターン及び使用する波形素片を自ら指定することができる指定部(図示せず)を設けることも考えられる。指定部を設けることによって、利用者自身が自分の意図した印象を最も反映していると考えている韻律パターン及び波形素片を用いることができ、利用者の印象を反映させた合成音声を生成することがより容易になる。
【0057】
また、本発明の実施の形態にかかるテキスト音声合成システムを実現するプログラムは、図9に示すように、CD−ROM92−1やフレキシブルディスク92−2等の可搬型記録媒体92だけでなく、通信回線の先に備えられた他の記憶装置91や、コンピュータ93のハードディスクやRAM等の記録媒体94のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0058】
また、本発明の実施の形態にかかるテキスト音声合成システムで利用される単語データベース23や韻律データベース25等についても、図9に示すように、CD−ROM92−1やフレキシブルディスク92−2等の可搬型記録媒体92だけでなく、通信回線の先に備えられた他の記憶装置91や、コンピュータ93のハードディスクやRAM等の記録媒体94のいずれに記憶されるものであっても良く、例えば本発明にかかるテキスト音声合成システムを利用する際にコンピュータ93により読み取られる。
【0059】
【発明の効果】
以上のように本発明にかかるテキスト音声合成システムによれば、単語データベースに印象属性情報を付与するとともに、印象属性情報に対応した韻律パターンを用いることによって、単語の印象に応じた韻律パターンを生成することができ、より自然な合成音声を生成することができる。
【0060】
また、本発明にかかるテキスト音声合成システムによれば、言語処理部の解析結果を利用することで、単語のみの印象属性情報だけでは正確に文章全体の印象を判定できない場合であっても、文章全体で表現している感情表現に沿った読み上げを行うことが可能となる。
【図面の簡単な説明】
【図1】従来のテキスト音声合成システムの構成図
【図2】本発明の実施の形態1にかかるテキスト音声合成システムの構成図
【図3】本発明の実施の形態1にかかるテキスト音声合成システムにおける単語データベースのデータ構成例示図
【図4】本発明の実施の形態1にかかるテキスト音声合成システムにおける韻律データベースの構成例示図
【図5】本発明の実施の形態1にかかるテキスト音声合成システムにおける他の構成図
【図6】本発明の実施の形態1にかかるテキスト音声合成システムにおける処理の流れ図
【図7】本発明の実施の形態2にかかるテキスト音声合成システムの構成図
【図8】本発明の実施の形態2にかかるテキスト音声合成システムにおける処理の流れ図
【図9】コンピュータ環境の例示図
【符号の説明】
11、21 テキスト文字列入力部
12、22 言語処理部
13、24 音響処理部
23 単語データベース
25 韻律データベース
26 音声波形データベース
71 印象属性更新部
91 回線先の記憶装置
92 CD−ROMやフレキシブルディスク等の可搬型記録媒体
92−1 CD−ROM
92−2 フレキシブルディスク
93 コンピュータ
94 コンピュータ上のRAM/ハードディスク等の記録媒体
Claims (6)
- テキスト文字列が入力されるテキスト文字列入力部と、
入力された前記テキスト文字列に関する言語情報を解析する言語処理部と、
解析された前記言語情報に基づいて韻律パターンを生成し、音声波形を合成する音響処理部とを含むテキスト音声合成システムであって、
単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む前記言語情報を登録する単語データベースと、
合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを備え、
前記単語データベースに登録されている単語に印象属性情報が付与されており、かつ前記韻律データベースに登録されている前記韻律情報が前記印象属性情報に対応しており、前記音響処理部における韻律パターン生成時に、前記印象属性情報に対応した前記韻律情報に基づいて、生成する韻律パターンを変更することを特徴とするテキスト音声合成システム。 - 合成音声波形を生成するために用いる波形素片を登録する波形素片データベースをさらに含み、
前記波形素片データベースに登録されている前記波形素片が前記印象属性情報に対応しており、前記音響処理部における音声波形の合成時に、前記印象属性情報に対応する前記波形素片を選択し、前記印象属性に応じて、前記波形素片を変更する請求項1に記載のテキスト音声合成システム。 - 前記音響処理部において、前記印象属性情報と前記言語処理部において解析された前記言語情報に基づいて、単語及び前記単語の係り先の語句の韻律パターン及び使用する波形素片を変更する請求項2に記載のテキスト音声合成システム。
- 生成する韻律パターン及び使用する波形素片を指定することができる指定部をさらに含む請求項1から3のいずれか一項に記載のテキスト音声合成システム。
- テキスト文字列が入力される工程と、
入力された前記テキスト文字列に関する言語情報を解析する工程と、
解析された前記言語情報に基づいて韻律パターンを生成し、音声波形を合成する工程とを含むテキスト音声合成方法であって、
単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む前記言語情報を登録する単語データベースと、
合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを利用するとともに、
前記単語データベースに登録されている単語に印象属性情報が付与されており、かつ前記韻律データベースに登録されている前記韻律情報が前記印象属性情報に対応しており、韻律パターン生成時に、前記印象属性情報に対応した前記韻律情報に基づいて、生成する韻律パターンを変更することを特徴とするテキスト音声合成方法。 - テキスト文字列が入力されるステップと、
入力された前記テキスト文字列に関する言語情報を解析するステップと、
解析された前記言語情報に基づいて韻律パターンを生成し、音声波形を合成するステップとを含むテキスト音声合成方法を具現化するコンピュータ実行可能なプログラムであって、
単語ごとに少なくとも文法情報、読み、アクセントに関する情報を含む前記言語情報を登録する単語データベースと、
合成音声の韻律パターンを生成するための韻律情報を登録する韻律データベースを利用するとともに、
前記単語データベースに登録されている単語に印象属性情報が付与されており、かつ前記韻律データベースに登録されている前記韻律情報が前記印象属性情報に対応しており、韻律パターン生成時に、前記印象属性情報に対応した前記韻律情報に基づいて、生成する韻律パターンを変更することを特徴とするコンピュータ実行可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002310067A JP2004145015A (ja) | 2002-10-24 | 2002-10-24 | テキスト音声合成システム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002310067A JP2004145015A (ja) | 2002-10-24 | 2002-10-24 | テキスト音声合成システム及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004145015A true JP2004145015A (ja) | 2004-05-20 |
Family
ID=32455696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002310067A Pending JP2004145015A (ja) | 2002-10-24 | 2002-10-24 | テキスト音声合成システム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004145015A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106741A (ja) * | 2004-10-01 | 2006-04-20 | At & T Corp | 対話型音声応答システムによる音声理解を防ぐための方法および装置 |
JP2006330060A (ja) * | 2005-05-23 | 2006-12-07 | Univ Waseda | 音声合成装置、音声処理装置、およびプログラム |
JP2007148172A (ja) * | 2005-11-29 | 2007-06-14 | Matsushita Electric Ind Co Ltd | 声質制御装置および方法およびプログラム記憶媒体 |
JP2007264284A (ja) * | 2006-03-28 | 2007-10-11 | Brother Ind Ltd | 感情付加装置、感情付加方法及び感情付加プログラム |
JP2020012867A (ja) * | 2018-07-13 | 2020-01-23 | 日本電信電話株式会社 | 韻律制御装置、韻律制御方法及びプログラム |
US10553203B2 (en) | 2017-11-09 | 2020-02-04 | International Business Machines Corporation | Training data optimization for voice enablement of applications |
US10565982B2 (en) | 2017-11-09 | 2020-02-18 | International Business Machines Corporation | Training data optimization in a service computing system for voice enablement of applications |
CN113920968A (zh) * | 2021-10-09 | 2022-01-11 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
-
2002
- 2002-10-24 JP JP2002310067A patent/JP2004145015A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106741A (ja) * | 2004-10-01 | 2006-04-20 | At & T Corp | 対話型音声応答システムによる音声理解を防ぐための方法および装置 |
JP2006330060A (ja) * | 2005-05-23 | 2006-12-07 | Univ Waseda | 音声合成装置、音声処理装置、およびプログラム |
JP2007148172A (ja) * | 2005-11-29 | 2007-06-14 | Matsushita Electric Ind Co Ltd | 声質制御装置および方法およびプログラム記憶媒体 |
JP4664194B2 (ja) * | 2005-11-29 | 2011-04-06 | パナソニック株式会社 | 声質制御装置および方法およびプログラム記憶媒体 |
JP2007264284A (ja) * | 2006-03-28 | 2007-10-11 | Brother Ind Ltd | 感情付加装置、感情付加方法及び感情付加プログラム |
US10553203B2 (en) | 2017-11-09 | 2020-02-04 | International Business Machines Corporation | Training data optimization for voice enablement of applications |
US10565982B2 (en) | 2017-11-09 | 2020-02-18 | International Business Machines Corporation | Training data optimization in a service computing system for voice enablement of applications |
JP2020012867A (ja) * | 2018-07-13 | 2020-01-23 | 日本電信電話株式会社 | 韻律制御装置、韻律制御方法及びプログラム |
JP7125599B2 (ja) | 2018-07-13 | 2022-08-25 | 日本電信電話株式会社 | 韻律制御装置、韻律制御方法及びプログラム |
CN113920968A (zh) * | 2021-10-09 | 2022-01-11 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP4363590B2 (ja) | 音声合成 | |
US9424833B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
JP2004145015A (ja) | テキスト音声合成システム及び方法 | |
JP2003271194A (ja) | 音声対話装置及びその制御方法 | |
Louw et al. | A general-purpose IsiZulu speech synthesizer | |
KR0146549B1 (ko) | 한국어 텍스트/음성 변환 방법 | |
Trouvain et al. | Speech synthesis: text-to-speech conversion and artificial voices | |
Ekpenyong et al. | Towards an unrestricted domain TTS system for African tone languages | |
JP4736524B2 (ja) | 音声合成装置及び音声合成プログラム | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
JP2000056788A (ja) | 音声合成装置の韻律制御方法 | |
Ananthi et al. | Syllable based concatenative synthesis for text to speech conversion | |
Khalifa et al. | SMaTalk: Standard malay text to speech talk system | |
Shen | Building a Japanese MIDI-to-Singing song synthesis using an English male voice | |
Alabbad | An Investigation into Approaches to Text-to-Speech Synthesis for Modern Standard Arabic | |
JPH10161847A (ja) | 文章データ音声変換システム | |
JP2721018B2 (ja) | 音声規則合成装置 | |
Khalifa et al. | SMaTTS: Standard malay text to speech system | |
JPH08328578A (ja) | テキスト音声合成装置 | |
Hamad et al. | Arabic speech signal processing text-to-speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070724 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080304 |