JP4038211B2 - 音声合成装置,音声合成方法および音声合成システム - Google Patents
音声合成装置,音声合成方法および音声合成システム Download PDFInfo
- Publication number
- JP4038211B2 JP4038211B2 JP2004567110A JP2004567110A JP4038211B2 JP 4038211 B2 JP4038211 B2 JP 4038211B2 JP 2004567110 A JP2004567110 A JP 2004567110A JP 2004567110 A JP2004567110 A JP 2004567110A JP 4038211 B2 JP4038211 B2 JP 4038211B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- collocation
- emphasis
- speech
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Description
中間言語:「ア'ク%セントワ ピ'ッチノ ジカンテキ ヘ'ンカト カンレンガ&ア'ル.」
ここで、「'」はアクセント位置、「%」は無声子音、「&」は鼻濁音、「.」は平叙文の文境界および「(全角スペース)」は文節の区切りをそれぞれ表す。
単語辞書12は、単語の種類,単語の読みおよびアクセントの位置等を対応付けて格納(保持,蓄積又は記憶)するものである。
波形辞書14は、音声自体の音声波形データ(音素波形又は音声素片)と、音声の特定部分がどの音素かを示す音素ラベルと、有声音についてピッチ周期を示すピッチマークとを格納するものである。
次に、図14を参照してプロミネンスが使用される場合の合成を説明する。
プロミネンスを使用してユーザの指定した単語等の特定部分を強調する音声合成装置も種々提案されている(例えば、特開平5−224689号公報[以下、公知文献1と称する。]参照)。
例えば、プロミネンスを使用する別の合成方法は、特開平5−80791号公報等に開示されている。
さらに、特開平5−27792号公報(以下、公知文献2と称する。)には、テキスト文章の読み上げとは異なるキーワード辞書(重要度辞書)を設けて、特定のキーワードを強調する音声強調装置が開示されている。この公知文献2記載の音声強調装置は、音声を入力としディジタル音声波形データに基づいて、スペクトル等の音声の特徴量を抽出したキーワード検出を用いたものである。
さらに、公知文献2記載の音声強調装置は、多段階に強調レベルを変更するものではなく、音声波形データに基づくキーワード抽出を行なうものである。従って、やはり、操作性が不足する可能性がある。
このため、本発明の音声合成装置は、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、上記の強調すべき各単語又は連語に該強調度決定部にて決定された強調度を付与した音声を合成する音響処理部と、前記各単語又は連語のうち強調不要である単語又は連語を登録する強調除外辞書とをそなえ、前記強調度決定部が、前記強調除外辞書に登録された前記単語又は連語を除いて、上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定することを特徴としている。
従って、ユーザが強調する部分についての設定を手動入力する煩雑さが解消され、かつ聞き取りやすい合成音声が自動的に得られる。
また、前記音響処理部は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、形態素解析部からの韻律記号付き中間言語のうちの強調度決定部にて決定された各単語又は連語についての音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されてもよく、このようにすれば、設計変更せずに、既存の技術を利用でき、一層合成音声の品質が向上する。
本発明の音声合成システムは、入力された文章についての音声を合成して出力する音声合成システムであって、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、前記各単語又は連語のうち強調不要である単語又は連語を登録する強調除外辞書と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、形態素解析部からの中間言語のうちの強調度決定部にて決定された各単語又は連語について少なくとも音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえ、前記強調度決定部が、前記強調除外辞書に登録された前記単語又は連語を除いて、上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定することを特徴としている。
図1は本発明の一実施形態に係る音声合成装置のブロック図である。この図1に示す音声合成装置1は、入力された文章を読み出して音声を合成するものであって、入力部19と、強調度自動決定部(強調度決定部)36と、音響処理部60とをそなえて構成されている。ここで、入力部19は、漢字かな混じりの文章を音響処理部60に入力するものである。
ここで、各単語又は連語についての抽出基準とは、入力された多数の文字列から、どの単語又は連語を抽出して強調するかを決定するための基準である。以下に述べる第1の態様における音声合成装置1の強調度自動決定部36は、抽出基準として、上記の各単語又は連語の出現頻度に基づいて強調度を決定するようになっている。また、この抽出基準は、単語の重要度,特定の固有名詞,カタカナのような特定の文字種別等を用いることができ、又は各単語又は連語の出現箇所とその出現箇所の回数とに基づく基準等、種々の抽出基準を用いることができ、各抽出基準を用いた音声合成方法については後述する。
(1)音響処理部60の構成
音響処理部60は、上記の強調すべき各単語又は連語に強調度自動決定部36にて決定された強調度を付与した音声を合成するものであって、形態素解析部11と、単語辞書12と、パラメータ生成部33と、波形辞書14と、ピッチ切り出し・重ね合わせ部(ピッチ切り出しおよび重ね合わせ部)15とをそなえて構成されている。
例えば、文字列:「アクセントはピッチの時間的変化と関連がある。」が、形態素解析部11に入力されると、アクセント,イントネーション,音素継続時間又はポーズ継続時間等の音声パラメータが付与され、例えば中間言語:「ア'ク%セントワ ピ'ッチノ ジカンテキ ヘ'ンカト カンレンガ&ア'ル.」が生成される。
パラメータ生成部33は、形態素解析部11からの韻律記号付き中間言語のうちの強調度自動決定部36にて決定された各単語又は連語についての音声合成パラメータを生成するものである。また、パラメータ生成部33は、形態素解析部11からの中間言語から音声合成パラメータを生成し、その際、強調度自動決定部36にて決定された各単語又は連語については強調された音声合成パラメータとするのである。
ピッチ切り出し・重ね合わせ部15は、パラメータ生成部33にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成する。
従って、この処理により、聴感が補正され、自然な合成音声が得られる。
なお、窓関数を乗じられた処理音声波形データは、必要に応じて、振幅調整のためのゲイン(利得)を乗じられる。また、PSOLA法におけるピッチ周波数のパターンは、音声波形の切り出し位置を示すピッチマークを用いており、これにより、ピッチ周期は、ピッチマークの間隔により示されるようになっている。さらに、波形辞書14におけるピッチ周波数と所望のピッチ周波数とが異なる場合、ピッチ切り出し・重ね合わせ部15は、ピッチ変換する。
(2)強調度自動決定部(強調度決定部)36の構成
(A1)第1の態様
図1に示す強調度自動決定部36は、単語出現頻度集計部37と、共有メモリ(保持部)39と、単語強調度決定部38とをそなえて構成されている。
図2は本発明の一実施形態に係る第1の共有メモリ39のデータ例を示す図である。この図2に示す共有メモリ39は、単語とその単語の出現頻度(回数)と強調の有無とを対応付けて格納し、また、記録可能な領域(例えば行数等)は増減可能である。例えば、単語「時間的」の出現頻度は2回であり、入力された文章に、この単語「時間的」が現れた場合においても、単語「時間的」の強調が不要である旨が書き込まれている。一方、単語「アクセント」については、出現頻度が4回であり、文章にこの単語「アクセント」が現れた場合は強調されるように処理される。
図3は本発明の一実施形態に係る第1の強調度自動決定部36のブロック図である。この図3に示す強調度自動決定部36の単語出現頻度集計部37は、強調除外辞書44と、除外単語考慮型の単語出現頻度集計部(以下、第2単語出現頻度集計部と称する。)37aとをそなえて構成されている。
第2単語出現頻度集計部37aは、入力部19(図1参照)から文字列を入力されると、その入力された文字列に含まれる特定単語については、出現頻度にかかわらず、強調すべきものから除外し、除外されていない単語については、通常に集計し、単語と頻度情報とを対応させて共有メモリ39aに記録するものであって、ソート(並び替え処理)部42と、強調単語抽出部43とをそなえて構成されている。
次に、図3に示す単語強調度決定部38は、入力された文章に含まれる文字列のうちの強調する単語に関する情報を出力するものであって、ソート部42と強調単語抽出部43とをそなえて構成されている。なお、この図3に示すもので、上述したものと同一符号を有するものは同一のもの又は同様の機能を有するものなので、更なる説明を省略する。
図4は本発明の一実施形態に係る第2の共有メモリ39aのデータ例を示す図である。この図4に示す共有メモリ39aは、単語とその単語の出現頻度(回数)と出現頻度(順位)と強調の有無とをそれぞれ対応付けて格納しており、図2に示す共有メモリ39に出現頻度(順位)のデータ列が加えられている。なお、この図4に示すテーブルデータの行数は増減可能である。
このように、出現頻度の高い単語又は連語が強調される。従って、比較的簡素な構成により、プロミネンスが自動的に決定され、ユーザに課せられる多数の手間が省略できる。
すなわち、本発明の音声合成システム1は、文章を形態素解析して文章の文字列に韻律記号付き中間言語を出力する形態素解析部11と、文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度自動決定部36と、音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書14と、形態素解析部11からの中間言語のうちの強調度自動決定部36にて決定された各単語又は連語について音素位置データおよびピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部33と、パラメータ生成部33にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部15とをそなえて構成するのである。
このような構成により、本発明の音声合成方法と、本音声強調装置1が強調する単語又は連語を自動決定する例について説明する。
また、共有メモリ39は、集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する(保持ステップ)。そして、単語考慮度決定部38は保持ステップに保持された基準値が高い各単語又は連語を抽出し(抽出ステップ)、抽出ステップにて抽出された各単語又は連語についての強調度を決定する(単語決定ステップ)。そして、上記の強調すべき各単語又は連語に単語決定ステップにて決定された強調度を付与した音声を合成する(音声合成ステップ)。
単語出現頻度集計部37(図1参照)は、出現頻度を集計する特定の単語又は連語を、予め共有メモリ39に保持しておく。ここで、出現頻度の閾値は、予め書き込まれるようにしている。
単語出現頻度集計部37は、漢字かな混じり文を含むテキスト文章を入力されると、そのテキスト文章に含まれる多数の文字列の中から、特定の単語又は連語の出現頻度を抽出し、抽出した単語および出現頻度をペアにして、共有メモリ39の第1列(単語)と第2列(出現頻度)とに格納する。これにより、多数の文字列に含まれる特定語の出現頻度が集計される。
ここで、単語強調度決定部38は、この強調の有無を決定する閾値を例えば3回と設定する。これにより、単語「時間的」の出現頻度が2回の場合は、単語強調度決定部38はこの共有メモリ39の「強調の有無」をなしと記録し、また、単語「アクセント」の出現頻度が4回の場合は、単語強調度決定部38は共有メモリ39の「強調の有無」をありと記録する。
また、ピッチ切り出し・重ね合わせ部15は、波形辞書14に格納された音声波形データを切り出し、その切り出した音声波形データに窓関数等を乗じた処理音声波形データとこの処理音声波形データが属する区間(波形区間)と隣接する前後の区間に属する音声波形データの一部とを重畳加算して音声を合成する。
このようにして、本音声合成装置1は、各単語又は連語の強調部分の出現頻度に基づいて自動的に単語又は連語の強調部分を得ることができる。これにより、ユーザによるプロミネンスの手動入力に要する手間を省いて操作性を向上できるとともに、聞き取りやすい合成を得られる。
第1の態様における抽出基準は、出現頻度に基づいて強調度を決定するためのパラメータを用いているが、出現頻度以外の出現回数,重要度等に基づいて強調度を決定する方法について詳述する。
図5は本発明の一実施形態に係る第2の音声合成装置のブロック図である。この図5に示す音声合成装置1aは、入力された文章を読み出して音声を合成するものであって、強調度自動決定部50と、入力部19と、音響処理部60とをそなえて構成されている。
また、音響処理部60は、上記の強調すべき各単語又は連語に強調度自動決定部50にて決定された強調度を付与した音声を合成するものである。
ここで、出現回数集計部56は、文章に含まれる各単語又は連語についての抽出基準に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定するものであって、強調除外辞書54と、除外単語考慮型単語出現回数集計部51とをそなえて構成されている。この強調除外辞書54は、入力された文章のうちの音声強調不要な単語又は連語については強調を除外するものであって、除外の対象となる文字列に関する情報を記録した辞書データを保持するものである。また、除外単語考慮型単語出現回数集計部51は、文章に含まれる各単語又は連語についてその数等を集計するものである。除外単語考慮型単語出現回数集計部51は、入力された文字列について強調除外辞書54を検索することにより、集計する対象の単語又は連語であるか、又は集計を不要とする除外単語(又は除外連語)であるかを判定し、各単語又は連語についての出現回数および出現位置等の詳細な情報を、共有メモリ55に逐次記録するのである。
例えば、強調度自動決定部50は、抽出基準として、単語「アクセント」が最初に現れる出現箇所15においては単語「アクセント」について強く強調し、また、単語「アクセント」が2,3番目に現れる出現位置55,83の「アクセント」については弱く強調し、さらに、単語「アクセント」が4番目に現れる出現位置99の単語「アクセント」については強調不要、等種々決定できる。
また、これにより、出現回数集計部56(図6参照)は、共有メモリ55に格納されている各単語又は連語に関するデータのうちの出現回数と出現頻度と強調の有無に関する情報とのそれぞれに基づいて、出現頻度−位置情報のペアデータを抽出し強調位置決定部57(図6参照)に入力する。
なお、強調度自動決定部50以外のもので、上述したものと同一符号を有するものは同一のもの又は同様の機能を有するものなので、更なる説明を省略する。
なお、強調度自動決定部50は、強調除外辞書54に登録された単語を除外している。強調除外辞書54を用いる理由は、出現頻度は高くても重要でないと考えられる単語の強調を防止するためである。例えば助詞および助動詞等の付属語、「あれ」,「その」等の指示代名詞、「こと」,「ところ」,「とき」等の形式名詞、「ある」,「する」,「なる」,「やる」等の補助用言等を強調除外辞書54に格納することが望ましい。
また、パラメータ生成部33(図1参照)は、共有メモリ55の第5列と第6列とを参照して、検索された位置の単語について強めに又は弱めに強調するパラメータを生成する。
(A3)第3の態様
第3の態様における音声合成装置は、各単語又は連語の重要度を記録した単語記憶部を設け、この重要度の高さに応じて、多段階に単語又は連語を強調するようになっている。第3の態様における音声合成装置1cの概略的な構成は図1に示す音声合成装置1の構成と同一である。
この図8に示す強調度自動決定部69は、重要度出力部65と、強調単語抽出部43と、共有メモリ64とをそなえて構成されている。この重要度出力部65は、各単語又は連語に、多段階の重要度を付与し、単語−重要度のペアデータを出力するものであって、各単語又は連語と多段階の重要度とを対応付けて保持する重要度辞書63と、入力された文章に含まれる各単語又は連語について重要度辞書63を参照して多段階の重要度情報を得るための単語重要度照合部61とをそなえて構成されている。また、強調単語抽出部43は、上述したものと同一である。なお、重要度辞書63はユーザによってカスタマイズできるように構成してもよい。
図9は本発明の一実施形態に係る第4の共有メモリ64のデータ例を示す図である。この図9に示す共有メモリ64は、各単語と各単語の重要度(強調レベル)とを対応付けて格納している。また、この共有メモリ64の行数は増減可能である。例えば単語「時間的」は、強調レベル「なし」とし、また、単語「アクセント」は強調レベル「強」としている。
なお、本発明の音声合成装置1cは、テキスト文を読み出すものであり、入力された音声波形データからキーワードを抽出するものではなく、また、強調度を多段階のレベルを用いて決定できる。
このように、重要度辞書63を用いることにより、強調すべき単語を強調すべきレベルに応じて確実に強調できる。
第4の態様における音声合成装置は、単語の品詞を解析できる品詞解析機能を設け、これにより、固有名詞を強調するようにしている。第4の態様における音声合成装置1dの概略的な構成は図1に示す音声合成装置1の構成と同一である。
図10は本発明の一実施形態に係る第4の強調度自動決定部のブロック図である。この図10に示す強調度自動決定部70は、共有メモリ74と、固有名詞選択部72と、強調単語抽出部43とをそなえて構成されている。この共有メモリ74は、各単語又は連語と、これらの各単語又は連語のうちの固有名詞については「強調あり」との対応関係を保持するものである。
また、固有名詞選択部72(図10参照)は、固有名詞辞書73と固有名詞判定部71とをそなえて構成されている。この固有名詞辞書73は各単語又は連語の品詞を保持するものであり、固有名詞判定部71は入力された文字列に含まれる各単語又は連語が固有名詞であるか否かについて、各単語又は連語を固有名詞辞書73に照合することにより判定するものである。固有名詞判定部71は、各単語が固有名詞の場合は「強調あり」を共有メモリ74に書き込み、各単語が固有名詞でない場合は「強調なし」を共有メモリ74に書き込む。そして、強調単語抽出部43は、共有メモリ74に格納された強調の有無をパラメータ生成部33に出力する。
このような構成により、共有メモリ74が初期化された状態において、固有名詞選択部72に文章が入力されると、固有名詞判定部71は、その文章に含まれる各単語又は連語について、各々、固有名詞辞書73を参照することにより、固有名詞であるか否かを判定する。この判定結果が固有名詞の場合は、固有名詞判定部71は、固有名詞情報(単語が固有名詞であることを示す情報)を出力し強調単語抽出部43は、その単語を強調する。また、判定結果が固有名詞でない場合は、固有名詞判定部71は、固有名詞情報を出力しない。
このように、文字列のうちの固有名詞が強調されるので、音声合成装置は、文章全体として聞き取りやすい音声を合成できる。
第5の態様における音声合成装置は、文字種別のうちの例えばカタカナで表記された各単語又は連語を強調するようにしている。第5の態様における音声合成装置1eの概略的な構成は図1に示す音声合成装置1の構成と同一である。
図12は本発明の一実施形態に係る第5の強調度自動決定部のブロック図である。この図12に示す強調度自動決定部80は、カタカナ語選択部84と、強調単語抽出部43とをそなえて構成されている。また、カタカナ語選択部84は、カタカナ語文字を保持するカタカナ語辞書83と、このカタカナ語辞書83を参照することによって、入力された各単語又は連語がカタカナ語であるか否かを判定するものである。なお、このカタカナ語辞書83は、上記の固有名詞辞書73(図10参照)の中に設けることもできる。
このような構成により、入力された文章に含まれる各単語又は連語は、カタカナ語判定部81において、カタカナで表記されている否かを判定され、カタカナ語の場合はカタカナ情報(入力された文字列がカタカナで表されたことを示す情報)を出力する。そして、強調単語抽出部43は、文字がカタカナ情報である場合にはその単語を強調し、また、そうでない場合にはその単語をそのまま出力する。
(B)その他
本発明は上述した実施態様及びその変形態様に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。
そして、本発明は上述した実施態様に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。
Claims (12)
- 文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
上記の強調すべき各単語又は連語に該強調度決定部にて決定された強調度を付与した音声を合成する音響処理部と、
前記各単語又は連語のうち強調不要である単語又は連語を登録する強調除外辞書とをそなえ、
前記強調度決定部が、
前記強調除外辞書に登録された前記単語又は連語を除いて、上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定することを特徴とする、音声合成装置。 - 文章に含まれる各単語又は連語の出現箇所と該出現箇所の回数とに基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
上記の強調すべき各単語又は連語に該強調度決定部にて決定された強調度を付与した音声を合成する音響処理部と、
前記各単語又は連語のうち強調不要である単語又は連語を登録する強調除外辞書とをそなえ、
前記強調度決定部が、
前記強調除外辞書に登録された前記単語又は連語を除いて、上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定することを特徴とする、音声合成装置。 - 該強調度決定部が、
前記強調除外辞書に登録された前記単語又は連語を除いて、該文章に含まれる各単語又は連語の抽出に関する基準値を集計する集計部と、
該集計部にて集計された基準値と各単語又は連語とを対応付けて保持する保持部と、
該保持部に保持された基準値が高い各単語又は連語を抽出し抽出した各単語又は連語についての該強調度を決定する単語決定部とをそなえて構成されたことを特徴とする、請求項1または2に記載の音声合成装置。 - 該強調度決定部が、
上記の各単語又は連語の最初の出現箇所においては上記の各単語又は連語についての強調度を決定し、上記の各単語又は連語が2回目以降に現れる出現箇所においては弱い強調度を決定し又は非強調を決定するように構成されたことを特徴とする、請求項2記載の音声合成装置。 - 該音響処理部が、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該形態素解析部からの韻律記号付き中間言語のうちの該強調度決定部にて決定された各単語又は連語についての音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえて構成されたことを特徴とする、請求項1〜4のいずれか一項記載の音声合成装置。 - 文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
前記各単語又は連語のうち強調不要である単語又は連語を登録する強調除外辞書と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえ、
前記強調度決定部が、
前記強調除外辞書に登録された前記単語又は連語を除いて、上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定することを特徴とする、音声合成装置。 - 文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部が、強調除外辞書に登録された強調不要である単語又は連語を除いて、上記の各単語又は連語の抽出に関する基準値を集計する集計ステップと、
該集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップと、
該保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステップと、
該抽出ステップにて抽出された各単語又は連語についての該強調度を決定する単語決定ステップと、
上記の強調すべき各単語又は連語に該単語決定ステップにて決定された該強調度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特徴とする、音声合成方法。 - 入力された文章についての音声を合成して出力する音声合成システムであって、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該文章に含まれる各単語又は連語の出現頻度に基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
前記各単語又は連語のうち強調不要である単語又は連語を登録する強調除外辞書と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえ、
前記強調度決定部が、
前記強調除外辞書に登録された前記単語又は連語を除いて、上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定することを特徴とする、音声合成システム。 - 文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該文章に含まれる各単語又は連語の出現箇所と該出現箇所の回数とに基づいて上記の各 単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
前記各単語又は連語のうち強調不要である単語又は連語を登録する強調除外辞書と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属する音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえ、
前記強調度決定部が、
前記強調除外辞書に登録された前記単語又は連語を除いて、上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定することを特徴とする、音声合成装置。 - 該ピッチ切り出し・重ね合わせ部が、
該波形辞書に格納された音声波形データを、該パラメータ生成部にて生成されたピッチ周期データに基づいて切り出してその切り出した音声波形データに窓関数を乗じた処理音声波形データと、この処理音声波形データが属する波形区間の前後側の波形区間に属する音声波形データの一部とを重畳加算し音声を合成するように構成されたことを特徴とする、請求項6または10に記載の音声合成装置。 - 文章に含まれる各単語又は連語の出現箇所と該出現箇所の回数とに基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部が、強調除外辞書に登録された強調不要である単語又は連語を除いて、上記の各単語又は連語の抽出に関する基準値を集計する集計ステップと、
該集計ステップにて集計された基準値と上記の各単語又は連語とを対応付けて保持する保持ステップと、
該保持ステップに保持された基準値が高い各単語又は連語を抽出する抽出ステップと、
該抽出ステップにて抽出された各単語又は連語についての該強調度を決定する単語決定ステップと、
上記の強調すべき各単語又は連語に該単語決定ステップにて決定された該強調度を付与した音声を合成する音声合成ステップとをそなえて構成されたことを特徴とする、音声合成方法。 - 入力された文章についての音声を合成して出力する音声合成システムであって、
該文章を形態素解析して該文章の文字列に韻律記号付き中間言語を出力する形態素解析部と、
該文章に含まれる各単語又は連語の出現箇所と該出現箇所の回数とに基づいて上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定する強調度決定部と、
前記各単語又は連語のうち強調不要である単語又は連語を登録する強調除外辞書と、
音声波形データと音声の部分がどの音素かを示す音素位置データと声帯の振動周期を表すピッチ周期データとをそれぞれ格納する波形辞書と、
該形態素解析部からの中間言語のうちの該強調度決定部にて決定された各単語又は連語について少なくとも該音素位置データおよび該ピッチ周期データを含む音声合成パラメータを生成するパラメータ生成部と、
該パラメータ生成部にて生成された音声合成パラメータが示す間隔の音声波形データを処理して得た処理音声波形データと、この処理音声波形データの前後側の波形区間に属す る音声波形データの一部とを重畳加算して上記の強調すべき各単語又は連語に該強調度を付与した音声を合成するピッチ切り出し・重ね合わせ部とをそなえ、
前記強調度決定部が、
前記強調除外辞書に登録された前記単語又は連語を除いて、上記の各単語又は連語のうちの強調すべき各単語又は連語を抽出し抽出した各単語又は連語についての強調度を決定することを特徴とする、音声合成システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/000402 WO2004066271A1 (ja) | 2003-01-20 | 2003-01-20 | 音声合成装置,音声合成方法および音声合成システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2004066271A1 JPWO2004066271A1 (ja) | 2006-05-18 |
JP4038211B2 true JP4038211B2 (ja) | 2008-01-23 |
Family
ID=32750559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004567110A Expired - Fee Related JP4038211B2 (ja) | 2003-01-20 | 2003-01-20 | 音声合成装置,音声合成方法および音声合成システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7454345B2 (ja) |
JP (1) | JP4038211B2 (ja) |
WO (1) | WO2004066271A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537781B1 (en) | 2021-09-15 | 2022-12-27 | Lumos Information Services, LLC | System and method to support synchronization, closed captioning and highlight within a text document or a media file |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005070430A (ja) * | 2003-08-25 | 2005-03-17 | Alpine Electronics Inc | 音声出力装置および方法 |
US7844464B2 (en) | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
JP4744338B2 (ja) * | 2006-03-31 | 2011-08-10 | 富士通株式会社 | 合成音声生成装置 |
JP4946293B2 (ja) * | 2006-09-13 | 2012-06-06 | 富士通株式会社 | 音声強調装置、音声強調プログラムおよび音声強調方法 |
US20080243510A1 (en) * | 2007-03-28 | 2008-10-02 | Smith Lawrence C | Overlapping screen reading of non-sequential text |
JP5141688B2 (ja) * | 2007-09-06 | 2013-02-13 | 富士通株式会社 | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
US8484014B2 (en) * | 2008-11-03 | 2013-07-09 | Microsoft Corporation | Retrieval using a generalized sentence collocation |
JP4785909B2 (ja) * | 2008-12-04 | 2011-10-05 | 株式会社ソニー・コンピュータエンタテインメント | 情報処理装置 |
JP2010175717A (ja) * | 2009-01-28 | 2010-08-12 | Mitsubishi Electric Corp | 音声合成装置 |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
TWI383376B (zh) * | 2009-08-14 | 2013-01-21 | Kuo Ping Yang | 語音溝通方法及應用該方法之系統 |
US20130149688A1 (en) * | 2011-09-07 | 2013-06-13 | Douglas Bean | System and method for deriving questions and answers and summarizing textual information |
JP5802139B2 (ja) * | 2012-01-20 | 2015-10-28 | 日本放送協会 | 音声処理装置及びプログラム |
WO2016002879A1 (ja) * | 2014-07-02 | 2016-01-07 | ヤマハ株式会社 | 音声合成装置、音声合成方法およびプログラム |
JP6309852B2 (ja) * | 2014-07-25 | 2018-04-11 | 日本電信電話株式会社 | 強調位置予測装置、強調位置予測方法及びプログラム |
JP6369311B2 (ja) * | 2014-12-05 | 2018-08-08 | 三菱電機株式会社 | 音声合成装置および音声合成方法 |
JP2016122033A (ja) * | 2014-12-24 | 2016-07-07 | 日本電気株式会社 | 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム |
JP2018159759A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP6646001B2 (ja) * | 2017-03-22 | 2020-02-14 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
US10241716B2 (en) | 2017-06-30 | 2019-03-26 | Microsoft Technology Licensing, Llc | Global occupancy aggregator for global garbage collection scheduling |
CN108334533B (zh) * | 2017-10-20 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
EP3823306B1 (en) | 2019-11-15 | 2022-08-24 | Sivantos Pte. Ltd. | A hearing system comprising a hearing instrument and a method for operating the hearing instrument |
JP6995907B2 (ja) * | 2020-03-09 | 2022-01-17 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
JPH03196199A (ja) * | 1989-12-26 | 1991-08-27 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP3266157B2 (ja) | 1991-07-22 | 2002-03-18 | 日本電信電話株式会社 | 音声強調装置 |
JPH0580791A (ja) * | 1991-09-20 | 1993-04-02 | Hitachi Ltd | 音声規則合成装置および方法 |
JPH05224689A (ja) | 1992-02-13 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置 |
US5529953A (en) | 1994-10-14 | 1996-06-25 | Toshiba America Electronic Components, Inc. | Method of forming studs and interconnects in a multi-layered semiconductor device |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
JP3583852B2 (ja) * | 1995-05-25 | 2004-11-04 | 三洋電機株式会社 | 音声合成装置 |
JP3331297B2 (ja) | 1997-01-23 | 2002-10-07 | 株式会社東芝 | 背景音/音声分類方法及び装置並びに音声符号化方法及び装置 |
US6182028B1 (en) * | 1997-11-07 | 2001-01-30 | Motorola, Inc. | Method, device and system for part-of-speech disambiguation |
JP4218075B2 (ja) * | 1998-03-02 | 2009-02-04 | 沖電気工業株式会社 | 音声合成装置およびそのテキスト解析方法 |
CN1311881A (zh) * | 1998-06-04 | 2001-09-05 | 松下电器产业株式会社 | 语言变换规则产生装置、语言变换装置及程序记录媒体 |
JP2000099072A (ja) * | 1998-09-21 | 2000-04-07 | Ricoh Co Ltd | 文書読み上げ装置 |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
JP2000206982A (ja) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
US6684201B1 (en) * | 2000-03-31 | 2004-01-27 | Microsoft Corporation | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites |
-
2003
- 2003-01-20 JP JP2004567110A patent/JP4038211B2/ja not_active Expired - Fee Related
- 2003-01-20 WO PCT/JP2003/000402 patent/WO2004066271A1/ja active Application Filing
-
2005
- 2005-02-23 US US11/063,758 patent/US7454345B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537781B1 (en) | 2021-09-15 | 2022-12-27 | Lumos Information Services, LLC | System and method to support synchronization, closed captioning and highlight within a text document or a media file |
Also Published As
Publication number | Publication date |
---|---|
US7454345B2 (en) | 2008-11-18 |
US20050171778A1 (en) | 2005-08-04 |
WO2004066271A1 (ja) | 2004-08-05 |
JPWO2004066271A1 (ja) | 2006-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4038211B2 (ja) | 音声合成装置,音声合成方法および音声合成システム | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US6990450B2 (en) | System and method for converting text-to-voice | |
US6862568B2 (en) | System and method for converting text-to-voice | |
US20050119890A1 (en) | Speech synthesis apparatus and speech synthesis method | |
US6871178B2 (en) | System and method for converting text-to-voice | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
US6990449B2 (en) | Method of training a digital voice library to associate syllable speech items with literal text syllables | |
JP4811557B2 (ja) | 音声再生装置及び発話支援装置 | |
Kayte et al. | A Marathi Hidden-Markov Model Based Speech Synthesis System | |
US7451087B2 (en) | System and method for converting text-to-voice | |
JP2000172289A (ja) | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 | |
JP4964695B2 (ja) | 音声合成装置及び音声合成方法並びにプログラム | |
JP2005070604A (ja) | 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム | |
JP2005181998A (ja) | 音声合成装置および音声合成方法 | |
Mahar et al. | WordNet based Sindhi text to speech synthesis system | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
JPH08185197A (ja) | 日本語解析装置、及び日本語テキスト音声合成装置 | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
KR100959494B1 (ko) | 미등록어 합성 기능을 이용한 음성합성기 및 그 방법 | |
JPH11212586A (ja) | 音声合成装置 | |
Tian et al. | Modular design for Mandarin text-to-speech synthesis | |
FalDessai | Development of a Text to Speech System for Devanagari Konkani |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071102 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131109 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |