JP3361291B2 - 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 - Google Patents
音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体Info
- Publication number
- JP3361291B2 JP3361291B2 JP20860699A JP20860699A JP3361291B2 JP 3361291 B2 JP3361291 B2 JP 3361291B2 JP 20860699 A JP20860699 A JP 20860699A JP 20860699 A JP20860699 A JP 20860699A JP 3361291 B2 JP3361291 B2 JP 3361291B2
- Authority
- JP
- Japan
- Prior art keywords
- prosody
- character string
- model data
- data
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6063—Methods for processing data by generating or executing the game program for sound processing
Description
声合成装置及び音声合成プログラムを記録したコンピュ
ータ読み取り可能な媒体の改良に関するものである。
が話す言葉)を機械から出力させる方法として、予め音
声メッセージを構成する様々な語に対応する合成単位の
音声データを記憶させておき、任意に入力された文字列
(テキスト)に従って前記音声データを組み合わせて出
力する方法、いわゆる音声合成方法があった。
的に使われる様々な単語(文字列)に対応する、発音記
号等の音韻情報や、アクセント、イントネーション、振
幅等の韻律情報を辞書に収録させておき、入力された文
字列を解析し、同一の文字列が辞書に収録されていれば
その情報に基づいて合成単位の音声データを組み合わせ
て出力し、辞書に収録されていなければ、入力された文
字列から予め決められた規則に従ってこれらの情報を作
成し、これに基づいて合成単位の音声データを組み合わ
せて出力する如くなしていた。
た従来の音声合成方法では、辞書に登録されていない文
字列の場合、必ずしも実際の音声メッセージに対応した
情報、特に韻律情報を作成できず、結果として、不自然
な音声になったり、意図するところと印象の異なる音声
になってしまうという問題があった。
と辞書に収録された文字列との相違を高度に吸収して自
然な音声を合成し得る音声合成方法、音声合成装置及び
音声合成プログラムを記録したコンピュータ読み取り可
能な媒体を提供することにある。
達成するため、入力された文字列に対応する音声メッセ
ージデータを作成する音声合成方法であって、少なくと
も1つの文字を含む文字列(単語)をそのアクセント型
とともに多数収録した単語辞書と、該単語辞書に収録さ
れた文字列に対する韻律情報を表す韻律モデルデータの
うちの代表的な韻律モデルデータを収録した韻律辞書
と、収録音声を合成単位の音声波形データとして収録し
た波形辞書とを用い、入力文字列のアクセント型を決定
し、入力文字列とアクセント型に基づいて韻律辞書から
韻律モデルデータを選択し、該選択した韻律モデルデー
タの文字列が入力文字列と一致しない場合は該韻律モデ
ルデータの韻律情報を入力文字列に合わせて変形し、韻
律モデルデータに基づいて入力文字列の各文字に対応す
る波形データを波形辞書から選択し、該選択した波形デ
ータ同士を接続する音声合成方法を提案する。
されていない場合でもこの文字列に近い韻律モデルデー
タを利用でき、さらにその韻律情報を入力文字列に合わ
せて変形し、これに基づいて波形データを選択できるた
め、自然な音声を合成することができる。
列、モーラ数、アクセント型及び音節情報を含む韻律モ
デルデータを収録した韻律辞書を用い、入力文字列の音
節情報を作成し、韻律辞書中より、入力文字列とモーラ
数及びアクセント型が一致する韻律モデルデータを抽出
して韻律モデルデータ候補とし、各韻律モデルデータ候
補についてその音節情報と入力文字列の音節情報とを比
較してそれぞれ韻律復元情報を作成し、各韻律モデルデ
ータ候補の文字列及び韻律復元情報に基づいて最適な韻
律モデルデータを選択することにより行うことができ
る。
の全ての音素が入力文字列の音素と一致する候補があれ
ばこれを最適韻律モデルデータとし、全ての音素が一致
する候補がなければ、韻律モデルデータ候補のうち、入
力文字列の音素と一致する音素の数が最大の候補を最適
韻律モデルデータとし、一致する音素の数が最大の候補
が複数ある場合は、そのうちの連続して一致する音素の
数が最大の候補を最適韻律モデルデータとすることによ
り、入力文字列と同一位置の同一音素、即ちそのまま利
用可能な音素(以下、復元音素と呼ぶ。)を最も多くし
かも連続して含む韻律モデルデータを選択することが可
能となり、より自然な音声合成が可能となる。
た韻律モデルデータの文字列が入力文字列と一致しない
場合、該韻律モデルデータ中の一致しない文字毎に、音
声合成に使用する全ての文字について予め求めておいた
平均音節長と、前記韻律モデルデータにおける音節長と
から変形後の音節長を求めることにより行うことができ
る。
字列を構成する各音素のうち、復元音素については韻律
モデルデータ中の該当する音素の波形データを波形辞書
から選択し、その他の音素については対応する音素のう
ち、韻律モデルデータと周波数が最も近い音素の波形デ
ータを波形辞書から選択することにより行うことができ
る。
め、入力された文字列に対応する音声メッセージデータ
を作成する音声合成装置であって、少なくとも1つの文
字を含む文字列(単語)をそのアクセント型とともに多
数収録した単語辞書と、該単語辞書に収録された文字列
に対する韻律情報を表す韻律モデルデータのうちの代表
的な韻律モデルデータを収録した韻律辞書と、収録音声
を合成単位の音声波形データとして収録した波形辞書
と、入力文字列のアクセント型を決定するアクセント型
決定手段と、入力文字列とアクセント型に基づいて韻律
辞書から韻律モデルデータを選択する韻律モデル選択手
段と、該選択した韻律モデルデータの文字列が入力文字
列と一致しない場合に該韻律モデルデータの韻律情報を
入力文字列に合わせて変形する韻律変形手段と、韻律モ
デルデータに基づいて入力文字列の各文字に対応する波
形データを波形辞書から選択する波形選択手段と、該選
択した波形データ同士を接続する波形接続手段とを備え
た音声合成装置を提案する。
声合成プログラムを記録したコンピュータ読み取り可能
な媒体において、前記プログラムはコンピュータに読み
取られた際、このコンピュータを、少なくとも1つの文
字を含む文字列(単語)をそのアクセント型とともに多
数収録した単語辞書と、該単語辞書に収録された文字列
に対する韻律情報を表す韻律モデルデータのうちの代表
的な韻律モデルデータを収録した韻律辞書と、収録音声
を合成単位の音声波形データとして収録した波形辞書
と、入力文字列のアクセント型を決定するアクセント型
決定手段と、入力文字列とアクセント型に基づいて韻律
辞書から韻律モデルデータを選択する韻律モデル選択手
段と、該選択した韻律モデルデータの文字列が入力文字
列と一致しない場合に該韻律モデルデータの韻律情報を
入力文字列に合わせて変形する韻律変形手段と、韻律モ
デルデータに基づいて入力文字列の各文字に対応する波
形データを波形辞書から選択する波形選択手段と、該選
択した波形データ同士を接続する波形接続手段として機
能させる音声合成プログラムを記録したコンピュータ読
み取り可能な媒体によっても実現できる。
体の流れを示すものである。
ム等より、合成しようとする文字列が入力されると、そ
のアクセント型を単語辞書等に基づいて決定する(s
1)。ここで、単語辞書とは、少なくとも1つの文字を
含む文字列(単語)をそのアクセント型とともに多数収
録したものであり、例えば入力されることが予想される
プレイヤーキャラクタの名前を表す単語をそのアクセン
ト型とともに多数収録したものである。
収録された単語とを比較し、同一の単語があればそのア
クセント型を採用し、なければ同一モーラ数の単語のう
ち、類似する文字列を有する単語のアクセント型を採用
する。
と同一モーラ数の単語に現れ得る全てのアクセント型か
ら、オペレータ(ゲームプレイヤー)等が図示しない入
力手段より任意に選択・決定できるようにしても良い。
て韻律辞書から韻律モデルデータを選択する(s2)。
ここで、韻律辞書とは、単語辞書に収録された単語に対
する韻律情報を表す韻律モデルデータのうちの代表的な
韻律モデルデータを収録したものである。
が入力文字列と一致しない場合は該韻律モデルデータの
韻律情報を入力文字列に合わせて変形する(s3)。
選択した韻律モデルデータの文字列が入力文字列と一致
する場合は変形されないため、変形後の韻律モデルデー
タの中には、実際には変形されていない韻律モデルデー
タも含むものとする。)に基づいて入力文字列の各文字
に対応する波形データを波形辞書から選択する(s
4)。ここで、波形辞書とは、収録音声を合成単位の音
声波形データとして収録したものであり、本実施の形態
では周知のVCV音素方式による音声波形データを収録
している。
て(s5)、合成音声データを作成する。
述べる。
列、モーラ数、アクセント型及び音節情報を含む複数の
韻律モデルデータ、即ち単語辞書に収録された多数の文
字列に対する代表的な複数の韻律モデルデータを収録し
てなっている。ここで、音節情報とは、文字列を構成す
る各文字が、C:子音+母音、V:母音、N’:撥音、
Q’:促音、L:長音、#:無声音のいずれに該当する
かを表す音節種類と、ASJ表記法(日本音響学会)で
表される音声表記用記号の何番目(A(あ):1、I
(い):2、U(う):3、E(え):4、O(お):
5、KA(か):6、……)であるかを表す音節番号と
からなっている(但し、図2では省略)。なお、韻律辞
書は、実際には韻律モデルデータ毎に、構成する各音素
の周波数、ボリューム、音節長等の詳細な情報を備えて
いるが、図面では省略した。
ャート、図4は具体的な韻律モデル選択処理のようすの
一例を示すもので、以下、詳細に説明する。
(s201)。具体的には、ひらがなで表記された文字
列を前述したASJ表記法でローマ字化し、前述した音
節種類及び音節番号からなる音節情報を作成する。例え
ば、図4に示すように、文字列「かさいくん」の場合、
「kasaikun’」とローマ字化し、さらに音節種
類「CCVCN’」及び音節番号「6,11,2,8,
98」からなる音節情報を作成する。
るため、入力文字列に対するVCV音素列を作成する
(s202)。例えば、前述した「かさいくん」の場合
は「ka asa ai iku un」となる。
ルデータから、入力文字列とアクセント型及びモーラ数
が一致する韻律モデルデータのみを抽出して韻律モデル
データ候補とする(s203)。例えば、図2、図4の
例では、「かまいくん」、「ささいくん」、「しさいく
ん」である。
節情報と入力文字列の音節情報とを比較して韻律復元情
報を作成する(s204)。具体的には、韻律モデルデ
ータ候補と入力文字列の音節情報を文字毎に比較し、子
音も母音も一致すれば「11」、子音は異なるが母音は
一致する場合は「01」、子音は一致するが母音は異な
る場合は「10」、子音も母音も異なる場合は「00」
という情報を付与し、さらにVCV単位で区切る。
は、「かまいくん」が「11 0111 11 1
1」、「ささいくん」が「01 11 11 11 1
1」、「しさいくん」が「00 11 11 11 1
1」となり、韻律復元情報は、「かまいくん」が「11
101 111 111 111」、「ささいくん」
が「01 111 111 111 111」、「しさ
いくん」が「00 011111 111 111」と
なる。
択し(s205)、その音素が入力文字列の音素とVC
V単位で一致しているか否か、即ち前述した韻律復元情
報が「11」または「111」であるか否かを調べる
(s206)。ここで、全ての音素が一致していれば、
これを最適韻律モデルデータに決定する(s207)。
CV単位で一致する音素の数、即ち前述した韻律復元情
報中の「11」または「111」の数を比較(初期値は
0)し(s208)、最大値であればそのモデルを最適
韻律モデルデータの候補とする(s209)。さらに、
VCV単位で一致する音素の連続数、即ち前述した韻律
復元情報中の「11」または「111」の連続数を比較
(初期値は0)し(s210)、最大値であればそのモ
デルを最適韻律モデルデータの候補とする(s21
1)。
について繰り返して行い(s212)、全ての音素が一
致もしくは一致音素数が最大あるいは一致音素数最大の
モデルが複数ある場合は一致音素連続数が最大のモデル
を最適韻律モデルデータに決定する。
列が入力文字列と同一のモデルはなく、一致音素数は
「かまいくん」が4、「ささいくん」が4、「しさいく
ん」が3であるが、一致音素連続数は「かまいくん」が
3、「ささいくん」が4であるので、「ささいくん」が
最適韻律モデルデータに決定する。
る。
ト、図6は具体的な韻律変形処理のようすの一例を示す
もので、以下、詳細に説明する。
デルデータ及び入力文字列の文字を先頭から1文字ずつ
選択し(s301)、この時、文字が一致すれば(s3
02)、そのまま次の文字の選択を繰り返す(s30
3)。文字が不一致の場合、韻律モデルデータ中の文字
に対応する変形後の音節長を以下のようにして求め、ま
た、必要に応じて変形後のボリュームを求めて韻律モデ
ルデータを書き換える(s304,s305)。
長をx、モデルデータの文字に対応する平均音節長を
x’、変形後の音節長をy、変形後の文字に対応する平
均音節長をy’とした時、 y=y’×(x/x’) より求める。なお、平均音節長は、予め各文字毎に求め
て記憶しておくものとする。
された韻律モデルデータを「かさいくん」とした場合の
例を示しており、韻律モデルデータ中の文字「か」を入
力文字列中の文字「さ」に合わせて変形する場合、文字
「か」の平均音節長を「22」、文字「さ」の平均音節
長を「25」とすると、変形後の「さ」の音節長は、 「さ」の音節長=「さ」の平均×(「か」の音節長/「か」の平均) =25×(20/22) ≒23 となる。
を入力文字列中の文字「か」に合わせて変形する場合、
変形後の「か」の音節長は、 「か」の音節長=「か」の平均×(「さ」の音節長/「さ」の平均) =22×(30/25) ≒26 となる。なお、ボリュームについては音節長の場合と同
様の計算によって求めて変形しても良く、あるいは韻律
モデルデータ中の値をそのまま用いても良い。
文字について繰り返して行った後、音素(VCV)情報
に変換し(s306)、各音素の接続情報を作成する
(s307)。
る。
を示すもので、以下、詳細に説明する。
ら1つずつ選択し(s401)、これが前述した復元音
素であれば(s402)、前述した如くして選択・変形
した韻律モデルデータ中の該当する音素の波形データを
波形辞書から選択する(s403)。
同じ区切り記号を持つ音素を候補として選択し(s40
4)、変形後の韻律モデルデータにおける該当音素との
周波数の差を算出する(s405)。この際、音素のV
区間が2つあるものに関しては、アクセント型も考慮
し、それぞれのV区間毎の周波数の差の和を算出する。
これを全ての候補について繰り返し(s406)、差
(もしくは差の和)の最も小さい候補の音素の波形デー
タを波形辞書から選択する(s407)。なお、この
時、音素候補のボリュームについても補助的に参照し、
極端に値が小さいものを除外する等の処理を行っても良
い。
音素について繰り返し行う(s408)。
の一例を示すもので、ここでは入力文字列「さかいく
ん」を構成するVCV音素「sa aka ai ik
u un」のうち、復元音素でない「sa」、「ak
a」のそれぞれについて変形後の韻律モデルデータにお
ける該当音素の周波数及びボリューム値と、音素候補の
周波数及びボリューム値とを表している。
ルデータにおける音素「sa」の周波数「450」及び
ボリューム値「1000」と、音素候補、ここでは3つ
の音素候補「sa−001」,「sa−002」,「s
a−003」の周波数「440」,「500」,「40
0」及びボリューム値「800」,「1050」,「9
50」とを表しており、この場合、周波数が「440」
で最も近い音素候補「sa−001」が選択される。
タにおける音素「aka」のV区間1の周波数「45
0」及びボリューム値「1000」並びにV区間2の周
波数「400」及びボリューム値「800」と、音素候
補、ここでは2つの音素候補「aka−001」,「a
ka−002」のV区間1の周波数「400」,「46
0」及びボリューム値「1000」,「800」並びに
V区間2の周波数「450」,「410」及びボリュー
ム値「800」,「1000」とを表しており、この場
合、V区間1並びにV区間2毎の周波数の差の和(音素
候補「aka−001」では、|450−400|+|
400−450|=100、音素候補「aka−00
2」では、|450−460|+|400−410|=
20)が最も小さい音素候補「aka−002」が選択
される。
トを示すもので、以下、詳細に説明する。
形データを先頭から1つずつ選択し(s501)、接続
候補位置を設定し(s502)、この際、接続が復元可
能であれば(s503)、復元接続情報を元に接続する
(s504)。
(s505)、これに応じて各種の接続方法(母音区間
接続、長音接続、無声化音節接続、促音接続、撥音接続
等)に従って接続する(s506)。
いて繰り返し行い(s507)、合成音声データを作成
する。
ック図を示すもので、図中、11は単語辞書、12は韻
律辞書、13は波形辞書、14はアクセント型決定手
段、15は韻律モデル選択手段、16は韻律変形手段、
17は波形選択手段、18は波形接続手段である。
含む文字列(単語)をそのアクセント型とともに多数収
録してなっている。また、韻律辞書12は、文字列、モ
ーラ数、アクセント型及び音節情報を含む韻律モデルデ
ータを複数、単語辞書に収録された多数の文字列に対す
る代表的な複数の韻律モデルデータを収録してなってい
る。また、波形辞書13は、収録音声を合成単位の音声
波形データとして収録してなっている。
ゲームシステム等より入力された文字列と単語辞書11
に収録された単語とを比較し、同一の単語があればその
アクセント型を前記文字列のアクセント型と決定し、な
ければ同一モーラ数の単語のうち、類似する文字列を有
する単語のアクセント型を前記文字列のアクセント型と
決定する処理等を行う。
音節情報を作成し、韻律辞書12中より、入力文字列と
モーラ数及びアクセント型が一致する韻律モデルデータ
を抽出して韻律モデルデータ候補とし、各韻律モデルデ
ータ候補についてその音節情報と入力文字列の音節情報
とを比較してそれぞれ韻律復元情報を作成し、各韻律モ
デルデータ候補の文字列及び韻律復元情報に基づいて最
適な韻律モデルデータを選択する処理を行う。
データの文字列が入力文字列と一致しない場合、該韻律
モデルデータ中の一致しない文字毎に、音声合成に使用
する全ての文字について予め求めておいた平均音節長
と、前記韻律モデルデータにおける音節長とから変形後
の音節長を求める処理を行う。
る各音素のうち、復元音素については変形後の韻律モデ
ルデータ中の該当する音素の波形データを波形辞書から
選択し、その他の音素については対応する音素のうち、
変形後の韻律モデルデータと周波数が最も近い音素の波
形データを波形辞書から選択する処理を行う。
同士を接続して合成音声データを作成する処理を行う。
少なくとも1つの文字を含む文字列(単語)をそのアク
セント型とともに多数収録した単語辞書と、該単語辞書
に収録された文字列に対する韻律情報を表す韻律モデル
データのうちの代表的な韻律モデルデータを収録した韻
律辞書と、収録音声を合成単位の音声データとして収録
した波形辞書とを用い、入力文字列のアクセント型を決
定し、入力文字列とアクセント型に基づいて韻律辞書か
ら韻律モデルデータを選択し、該選択した韻律モデルデ
ータの文字列が入力文字列と一致しない場合は該韻律モ
デルデータの韻律情報を入力文字列に合わせて変形し、
韻律モデルデータに基づいて入力文字列の各文字に対応
する波形データを波形辞書から選択して接続するため、
入力文字列が辞書に登録されていない場合でもこの文字
列に近い韻律モデルデータを利用でき、さらにその韻律
情報を入力文字列に合わせて変形し、これに基づいて波
形データを選択でき、これによって自然な音声を合成す
ることができる。
位置の同一音素、即ちそのまま利用可能な音素(復元音
素)を最も多くしかも連続して含む韻律モデルデータを
選択することが可能となり、より自然な音声合成が可能
となる。
択した韻律モデルデータにおける音節長とから変形後の
音節長を求めることができるため、選択した韻律モデル
データの韻律情報を入力文字列に合わせて変形でき、さ
らに自然な音声合成が可能となる。
は該当音素の波形データを波形辞書から選択し、その他
の音素については韻律モデルデータと周波数が最も近い
音素の波形データを波形辞書から選択することにより、
変形後の韻律モデルデータに最も近い波形データを選択
でき、さらに自然で意図するところに近い音声合成が可
能となる。
ート
ト
示す図
4:アクセント型決定手段、15:韻律モデル選択手
段、16:韻律変形手段、17:波形選択手段、18:
波形接続手段。
Claims (9)
- 【請求項1】 入力された文字列に対応する音声メッセ
ージデータを作成する音声合成方法であって、少なくと
も1つの文字を含む文字列(単語)をそのアクセント型
とともに多数収録した単語辞書と、該単語辞書に収録さ
れた文字列に対する韻律情報を表す韻律モデルデータの
うちの代表的な韻律モデルデータを収録した韻律辞書
と、収録音声を合成単位の音声波形データとして収録し
た波形辞書とを用い、入力文字列のアクセント型を決定
し、入力文字列とアクセント型に基づいて韻律辞書から
韻律モデルデータを選択し、該選択した韻律モデルデー
タの文字列が入力文字列と一致しない場合は該韻律モデ
ルデータの韻律情報を入力文字列に合わせて変形し、韻
律モデルデータに基づいて入力文字列の各文字に対応す
る波形データを波形辞書から選択し、該選択した波形デ
ータ同士を接続する音声合成方法において、 文字列、モーラ数、アクセント型及び音節情報を含む韻
律モデルデータを収録した韻律辞書を用い、 入力文字列の音節情報を作成し、 韻律辞書中より、入力文字列とモーラ数及びアクセント
型が一致する韻律モデルデータを抽出して韻律モデルデ
ータ候補とし、 韻律モデルデータ候補のうち、その全ての音素が入力文
字列の音素と一致する候補があればこれを最適韻律モデ
ルデータとし、 全ての音素が一致する候補がなければ、韻律モデルデー
タ候補のうち、入力文字列の音素と一致する音素の数が
最大の候補を最適韻律モデルデータとし、 一致する音素の数が最大の候補が複数ある場合は、その
うちの連続して一致する音素の数が最大の候補を最適韻
律モデルデータとする ことを特徴とする音声合成方法。 - 【請求項2】 前記選択した韻律モデルデータの文字列
が入力文字列と一致しない場合、該韻律モデルデータ中
の一致しない文字毎に、音声合成に使用する全ての文字
について予め求めておいた平均音節長と、前記韻律モデ
ルデータにおける音節長とから変形後の音節長を求める
ことを特徴とする請求項1記載の音声合成方法。 - 【請求項3】 入力文字列を構成する各音素のうち、復
元音素については韻律モデルデータ中の該当する音素の
波形データを波形辞書から選択し、その他の音素につい
ては対応する音素のうち、韻律モデルデータと周波数が
最も近い音素の波形データを波形辞書から選択すること
を特徴とする請求項1または2記載の音声合成方法。 - 【請求項4】 入力された文字列に対応する音声メッセ
ージデータを作成する音声合成装置であって、少なくと
も1つの文字を含む文字列(単語)をそのアクセント型
とともに多数収録した単語辞書と、該単語辞書に収録さ
れた文字列に対する韻律情報を表す韻律モデルデータの
うちの代表的な韻律モデルデータを収録した韻律辞書
と、収録音声を合成単位の音声波形データとして収録し
た波形辞書と、入力文字列のアクセント型を決定するア
クセント型決定手段と、入力文字列とアクセント型に基
づいて韻律辞書から韻律モデルデータを選択する韻律モ
デル選択手段と、該選択した韻律モデルデータの文字列
が入力文字列と一致しない場合に該韻律モデルデータの
韻律情報を入力文字列に合わせて変形する韻律変形手段
と、韻律モデルデータに基づいて入力文字列の各文字に
対応する波形データを波形辞書から選択する波形選択手
段と、該選択した波形データ同士を接続する波形接続手
段とを備えた音声合成装置において、 文字列、モーラ数、アクセント型及び音節情報を含む韻
律モデルデータを収録した韻律辞書と、 入力文字列の音節情報を作成し、韻律辞書中より、入力
文字列とモーラ数及びアクセント型が一致する韻律モデ
ルデータを抽出して韻律モデルデータ候補とし、韻律モ
デルデータ候補のうち、その全ての音素が入力文字列の
音素と一致する候補があればこれを最適韻律モデルデー
タとし、全ての音素が一致する候補がなければ、韻律モ
デルデータ候補のうち、入力文字列の音素と一致する音
素の数が最大の候補を最適韻律モデルデータとし、一致
する音素の数が最大の候補が複数ある場合は、そのうち
の連続して一致する音素の数が最大の候補を最適韻律モ
デルデータとする韻律モデル選択手段とを備えた ことを
特徴とする音声合成装置。 - 【請求項5】 前記選択した韻律モデルデータの文字列
が入力文字列と一致しない場合、該韻律モデルデータ中
の一致しない文字毎に、音声合成に使用する全ての文字
について予め求めておいた平均音節長と、前記韻律モデ
ルデータにおける音節長とから変形後の音節長を求める
韻律変形手段を備えたことを特徴とする請求項4記載の
音声合成装置。 - 【請求項6】 入力文字列を構成する各音素のうち、復
元音素については韻律モデルデータ中の該当する音素の
波形データを波形辞書から選択し、その他の音素につい
ては対応する音素のうち、韻律モデルデータと周波数が
最も近い音素の波形データを波形辞書から選択する波形
選択手段を備えたことを特徴とする請求項4または5記
載の音声合成装置。 - 【請求項7】 音声合成プログラムを記録したコンピュ
ータ読み取り可能な媒体であって、前記プログラムはコ
ンピュータに読み取られた際、このコンピュータを、少
なくとも1つの文字を含む文字列(単語)をそのアクセ
ント型とともに多数収録した単語辞書と、該単語辞書に
収録された文字列に対する韻律情報を表す韻律モデルデ
ータのうちの代表的な韻律モデルデータを収録した韻律
辞書と、収録音声を合成単位の音声波形データとして収
録した波形辞書と、入力文字列のアクセント型を決定す
るアクセント型決定手段と、入力文字列とアクセント型
に基づいて韻律辞書から韻律モデルデータを選択する韻
律モデル選択手段と、該選択した韻律モデルデータの文
字列が入力文字列と一致しない場合に該韻律モデルデー
タの韻律情報を入力文字列に合わせて変形する韻律変形
手段と、韻律モデルデータに基づいて入力文字列の各文
字に対応する波形データを波形辞書から選択する波形選
択手段と、該選択した波形データ同士を接続する波形接
続手段として機能させる音声合成プログラムを記録した
コンピュータ読み取り可能な媒体において、 前記プログラムはまた、コンピュータに読み取られた
際、このコンピュータを、 文字列、モーラ数、アクセント型及び音節情報を含む韻
律モデルデータを収録した韻律辞書と、 入力文字列の音節情報を作成し、韻律辞書中より、入力
文字列とモーラ数及びアクセント型が一致する韻律モデ
ルデータを抽出して韻律モデルデータ候補とし 、韻律モ
デルデータ候補のうち、その全ての音素が入力文字列の
音素と一致する候補があればこれを最適韻律モデルデー
タとし、全ての音素が一致する候補がなければ、韻律モ
デルデータ候補のうち、入力文字列の音素と一致する音
素の数が最大の候補を最適韻律モデルデータとし、一致
する音素の数が最大の候補が複数ある場合は、そのうち
の連続して一致する音素の数が最大の候補を最適韻律モ
デルデータとする韻律モデル選択手段として機能させる
ことを特徴とする音声合成プログラムを記録したコンピ
ュータ読み取り可能な媒体。 - 【請求項8】 前記選択した韻律モデルデータの文字列
が入力文字列と一致しない場合、該韻律モデルデータ中
の一致しない文字毎に、音声合成に使用する全ての文字
について予め求めておいた平均音節長と、前記韻律モデ
ルデータにおける音節長とから変形後の音節長を求める
韻律変形手段として機能させることを特徴とする請求項
7記載の音声合成プログラムを記録したコンピュータ読
み取り可能な媒体。 - 【請求項9】 入力文字列を構成する各音素のうち、復
元音素については韻律モデルデータ中の該当する音素の
波形データを波形辞書から選択し、その他の音素につい
ては対応する音素のうち、韻律モデルデータと周波数が
最も近い音素の波形データを波形辞書から選択する波形
選択手段として機能させることを特徴とする請求項7ま
たは8記載の音声合成プログラムを記録したコンピュー
タ読み取り可能な媒体。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20860699A JP3361291B2 (ja) | 1999-07-23 | 1999-07-23 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
TW089113027A TW523733B (en) | 1999-07-23 | 2000-06-30 | Speech synthesizing method, speech synthesis apparatus and computer-readable medium recording speech synthesis program |
DE60035001T DE60035001T2 (de) | 1999-07-23 | 2000-07-19 | Sprachsynthese mit Prosodie-Mustern |
KR10-2000-0041363A KR100403293B1 (ko) | 1999-07-23 | 2000-07-19 | 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체 |
EP00115590A EP1071074B1 (en) | 1999-07-23 | 2000-07-19 | Speech synthesis employing prosody templates |
US09/621,545 US6778962B1 (en) | 1999-07-23 | 2000-07-21 | Speech synthesis with prosodic model data and accent type |
CN00121651A CN1108603C (zh) | 1999-07-23 | 2000-07-21 | 声音合成方法和声音合成装置 |
HK01104510A HK1034130A1 (en) | 1999-07-23 | 2001-06-29 | Speech synthesizing method and speech synthesis apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20860699A JP3361291B2 (ja) | 1999-07-23 | 1999-07-23 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001034283A JP2001034283A (ja) | 2001-02-09 |
JP3361291B2 true JP3361291B2 (ja) | 2003-01-07 |
Family
ID=16559004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20860699A Expired - Fee Related JP3361291B2 (ja) | 1999-07-23 | 1999-07-23 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6778962B1 (ja) |
EP (1) | EP1071074B1 (ja) |
JP (1) | JP3361291B2 (ja) |
KR (1) | KR100403293B1 (ja) |
CN (1) | CN1108603C (ja) |
DE (1) | DE60035001T2 (ja) |
HK (1) | HK1034130A1 (ja) |
TW (1) | TW523733B (ja) |
Families Citing this family (179)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7353164B1 (en) | 2002-09-13 | 2008-04-01 | Apple Inc. | Representation of orthography in a continuous vector space |
US7047193B1 (en) * | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
DE04735990T1 (de) * | 2003-06-05 | 2006-10-05 | Kabushiki Kaisha Kenwood, Hachiouji | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm |
US20050144003A1 (en) * | 2003-12-08 | 2005-06-30 | Nokia Corporation | Multi-lingual speech synthesis |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7912718B1 (en) | 2006-08-31 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US8510113B1 (en) | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US8510112B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7996222B2 (en) * | 2006-09-29 | 2011-08-09 | Nokia Corporation | Prosody conversion |
JP5119700B2 (ja) * | 2007-03-20 | 2013-01-16 | 富士通株式会社 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR100934288B1 (ko) * | 2007-07-18 | 2009-12-29 | 현덕 | 한글을 이용한 음원 생성 방법 및 장치 |
US8583438B2 (en) * | 2007-09-20 | 2013-11-12 | Microsoft Corporation | Unnatural prosody detection in speech synthesis |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20100125459A1 (en) * | 2008-11-18 | 2010-05-20 | Nuance Communications, Inc. | Stochastic phoneme and accent generation using accent class |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US8401856B2 (en) * | 2010-05-17 | 2013-03-19 | Avaya Inc. | Automatic normalization of spoken syllable duration |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
JP2013003470A (ja) * | 2011-06-20 | 2013-01-07 | Toshiba Corp | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9570066B2 (en) * | 2012-07-16 | 2017-02-14 | General Motors Llc | Sender-responsive text-to-speech processing |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
JP6567372B2 (ja) * | 2015-09-15 | 2019-08-28 | 株式会社東芝 | 編集支援装置、編集支援方法及びプログラム |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN111862954B (zh) * | 2020-05-29 | 2024-03-01 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
CN112002302A (zh) * | 2020-07-27 | 2020-11-27 | 北京捷通华声科技股份有限公司 | 一种语音合成方法和装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1082230A (zh) * | 1992-08-08 | 1994-02-16 | 凌阳科技股份有限公司 | 声音合成的程序字控制器 |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
JP3397406B2 (ja) * | 1993-11-15 | 2003-04-14 | ソニー株式会社 | 音声合成装置及び音声合成方法 |
JPH07319497A (ja) * | 1994-05-23 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置 |
GB2292235A (en) * | 1994-08-06 | 1996-02-14 | Ibm | Word syllabification. |
JPH09171396A (ja) * | 1995-10-18 | 1997-06-30 | Baisera:Kk | 音声発生システム |
KR970060042A (ko) * | 1996-01-05 | 1997-08-12 | 구자홍 | 음성합성방법 |
AU1941697A (en) * | 1996-03-25 | 1997-10-17 | Arcadia, Inc. | Sound source generator, voice synthesizer and voice synthesizing method |
US6029131A (en) * | 1996-06-28 | 2000-02-22 | Digital Equipment Corporation | Post processing timing of rhythm in synthetic speech |
JPH1039895A (ja) * | 1996-07-25 | 1998-02-13 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
JP3242331B2 (ja) | 1996-09-20 | 2001-12-25 | 松下電器産業株式会社 | Vcv波形接続音声のピッチ変換方法及び音声合成装置 |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
JP2002530703A (ja) * | 1998-11-13 | 2002-09-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 音声波形の連結を用いる音声合成 |
US6144939A (en) * | 1998-11-25 | 2000-11-07 | Matsushita Electric Industrial Co., Ltd. | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains |
US6260016B1 (en) * | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
EP1045372A3 (en) * | 1999-04-16 | 2001-08-29 | Matsushita Electric Industrial Co., Ltd. | Speech sound communication system |
JP2000305582A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2000305585A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
-
1999
- 1999-07-23 JP JP20860699A patent/JP3361291B2/ja not_active Expired - Fee Related
-
2000
- 2000-06-30 TW TW089113027A patent/TW523733B/zh not_active IP Right Cessation
- 2000-07-19 DE DE60035001T patent/DE60035001T2/de not_active Expired - Lifetime
- 2000-07-19 EP EP00115590A patent/EP1071074B1/en not_active Expired - Lifetime
- 2000-07-19 KR KR10-2000-0041363A patent/KR100403293B1/ko not_active IP Right Cessation
- 2000-07-21 US US09/621,545 patent/US6778962B1/en not_active Expired - Fee Related
- 2000-07-21 CN CN00121651A patent/CN1108603C/zh not_active Expired - Fee Related
-
2001
- 2001-06-29 HK HK01104510A patent/HK1034130A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CN1108603C (zh) | 2003-05-14 |
TW523733B (en) | 2003-03-11 |
EP1071074A3 (en) | 2001-02-14 |
DE60035001T2 (de) | 2008-02-07 |
EP1071074B1 (en) | 2007-05-30 |
DE60035001D1 (de) | 2007-07-12 |
KR20010021106A (ko) | 2001-03-15 |
JP2001034283A (ja) | 2001-02-09 |
HK1034130A1 (en) | 2001-10-12 |
EP1071074A2 (en) | 2001-01-24 |
US6778962B1 (en) | 2004-08-17 |
KR100403293B1 (ko) | 2003-10-30 |
CN1282018A (zh) | 2001-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3361291B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
JP3085631B2 (ja) | 音声合成方法及びシステム | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP2008015424A (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP3006240B2 (ja) | 音声合成方法および装置 | |
JP2642617B2 (ja) | 音声合成装置 | |
JP3870583B2 (ja) | 音声合成装置および記憶媒体 | |
JP4056647B2 (ja) | 波形接続型音声合成装置および方法 | |
JP2003005776A (ja) | 音声合成装置 | |
JPH037994A (ja) | 歌音声合成データの作成装置 | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
JPH08160983A (ja) | 音声合成装置 | |
JPH09292897A (ja) | 音声合成装置 | |
JPH07140999A (ja) | 音声合成装置及び音声合成方法 | |
Fujimura | Rhythmic organization and signal characteristics of speech | |
Tian et al. | Modular design for Mandarin text-to-speech synthesis | |
JPH06138894A (ja) | 音声合成装置及び音声合成方法 | |
JPH08160990A (ja) | 音声合成装置 | |
Morris et al. | Speech Generation | |
JPH04134499A (ja) | 音声規則合成装置 | |
JP2003308084A (ja) | 音声合成方法および音声合成装置 | |
Chen | An Interface between Formal Phonology and Computer Science: Speech Accent Coloring in Speech Synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071018 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071018 Year of fee payment: 5 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071018 Year of fee payment: 5 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091018 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101018 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101018 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111018 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121018 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131018 Year of fee payment: 11 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S802 | Written request for registration of partial abandonment of right |
Free format text: JAPANESE INTERMEDIATE CODE: R311802 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |