JP3361291B2 - 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 - Google Patents

音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体

Info

Publication number
JP3361291B2
JP3361291B2 JP20860699A JP20860699A JP3361291B2 JP 3361291 B2 JP3361291 B2 JP 3361291B2 JP 20860699 A JP20860699 A JP 20860699A JP 20860699 A JP20860699 A JP 20860699A JP 3361291 B2 JP3361291 B2 JP 3361291B2
Authority
JP
Japan
Prior art keywords
prosody
character string
model data
data
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20860699A
Other languages
English (en)
Other versions
JP2001034283A (ja
Inventor
治 笠井
稔幸 溝口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Corp
Original Assignee
Konami Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Corp filed Critical Konami Corp
Priority to JP20860699A priority Critical patent/JP3361291B2/ja
Priority to TW089113027A priority patent/TW523733B/zh
Priority to EP00115590A priority patent/EP1071074B1/en
Priority to DE60035001T priority patent/DE60035001T2/de
Priority to KR10-2000-0041363A priority patent/KR100403293B1/ko
Priority to US09/621,545 priority patent/US6778962B1/en
Priority to CN00121651A priority patent/CN1108603C/zh
Publication of JP2001034283A publication Critical patent/JP2001034283A/ja
Priority to HK01104510A priority patent/HK1034130A1/xx
Application granted granted Critical
Publication of JP3361291B2 publication Critical patent/JP3361291B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成方法、音
声合成装置及び音声合成プログラムを記録したコンピュ
ータ読み取り可能な媒体の改良に関するものである。
【0002】
【従来の技術】従来より、各種の音声メッセージ(人間
が話す言葉)を機械から出力させる方法として、予め音
声メッセージを構成する様々な語に対応する合成単位の
音声データを記憶させておき、任意に入力された文字列
(テキスト)に従って前記音声データを組み合わせて出
力する方法、いわゆる音声合成方法があった。
【0003】このような音声合成方法では、通常、日常
的に使われる様々な単語(文字列)に対応する、発音記
号等の音韻情報や、アクセント、イントネーション、振
幅等の韻律情報を辞書に収録させておき、入力された文
字列を解析し、同一の文字列が辞書に収録されていれば
その情報に基づいて合成単位の音声データを組み合わせ
て出力し、辞書に収録されていなければ、入力された文
字列から予め決められた規則に従ってこれらの情報を作
成し、これに基づいて合成単位の音声データを組み合わ
せて出力する如くなしていた。
【0004】
【発明が解決しようとする課題】しかしながら、前述し
た従来の音声合成方法では、辞書に登録されていない文
字列の場合、必ずしも実際の音声メッセージに対応した
情報、特に韻律情報を作成できず、結果として、不自然
な音声になったり、意図するところと印象の異なる音声
になってしまうという問題があった。
【0005】本発明の目的は、任意に入力された文字列
と辞書に収録された文字列との相違を高度に吸収して自
然な音声を合成し得る音声合成方法、音声合成装置及び
音声合成プログラムを記録したコンピュータ読み取り可
能な媒体を提供することにある。
【0006】
【課題を解決するための手段】本発明では、前記目的を
達成するため、入力された文字列に対応する音声メッセ
ージデータを作成する音声合成方法であって、少なくと
も1つの文字を含む文字列(単語)をそのアクセント型
とともに多数収録した単語辞書と、該単語辞書に収録さ
れた文字列に対する韻律情報を表す韻律モデルデータの
うちの代表的な韻律モデルデータを収録した韻律辞書
と、収録音声を合成単位の音声波形データとして収録し
た波形辞書とを用い、入力文字列のアクセント型を決定
し、入力文字列とアクセント型に基づいて韻律辞書から
韻律モデルデータを選択し、該選択した韻律モデルデー
タの文字列が入力文字列と一致しない場合は該韻律モデ
ルデータの韻律情報を入力文字列に合わせて変形し、韻
律モデルデータに基づいて入力文字列の各文字に対応す
る波形データを波形辞書から選択し、該選択した波形デ
ータ同士を接続する音声合成方法を提案する。
【0007】本発明によれば、入力文字列が辞書に登録
されていない場合でもこの文字列に近い韻律モデルデー
タを利用でき、さらにその韻律情報を入力文字列に合わ
せて変形し、これに基づいて波形データを選択できるた
め、自然な音声を合成することができる。
【0008】ここで、韻律モデルデータの選択は、文字
列、モーラ数、アクセント型及び音節情報を含む韻律モ
デルデータを収録した韻律辞書を用い、入力文字列の音
節情報を作成し、韻律辞書中より、入力文字列とモーラ
数及びアクセント型が一致する韻律モデルデータを抽出
して韻律モデルデータ候補とし、各韻律モデルデータ候
補についてその音節情報と入力文字列の音節情報とを比
較してそれぞれ韻律復元情報を作成し、各韻律モデルデ
ータ候補の文字列及び韻律復元情報に基づいて最適な韻
律モデルデータを選択することにより行うことができ
る。
【0009】この際、韻律モデルデータ候補のうち、そ
の全ての音素が入力文字列の音素と一致する候補があれ
ばこれを最適韻律モデルデータとし、全ての音素が一致
する候補がなければ、韻律モデルデータ候補のうち、入
力文字列の音素と一致する音素の数が最大の候補を最適
韻律モデルデータとし、一致する音素の数が最大の候補
が複数ある場合は、そのうちの連続して一致する音素の
数が最大の候補を最適韻律モデルデータとすることによ
り、入力文字列と同一位置の同一音素、即ちそのまま利
用可能な音素(以下、復元音素と呼ぶ。)を最も多くし
かも連続して含む韻律モデルデータを選択することが可
能となり、より自然な音声合成が可能となる。
【0010】また、韻律モデルデータの変形は、選択し
た韻律モデルデータの文字列が入力文字列と一致しない
場合、該韻律モデルデータ中の一致しない文字毎に、音
声合成に使用する全ての文字について予め求めておいた
平均音節長と、前記韻律モデルデータにおける音節長と
から変形後の音節長を求めることにより行うことができ
る。
【0011】さらにまた、波形データの選択は、入力文
字列を構成する各音素のうち、復元音素については韻律
モデルデータ中の該当する音素の波形データを波形辞書
から選択し、その他の音素については対応する音素のう
ち、韻律モデルデータと周波数が最も近い音素の波形デ
ータを波形辞書から選択することにより行うことができ
る。
【0012】また、本発明では、前記目的を達成するた
め、入力された文字列に対応する音声メッセージデータ
を作成する音声合成装置であって、少なくとも1つの文
字を含む文字列(単語)をそのアクセント型とともに多
数収録した単語辞書と、該単語辞書に収録された文字列
に対する韻律情報を表す韻律モデルデータのうちの代表
的な韻律モデルデータを収録した韻律辞書と、収録音声
を合成単位の音声波形データとして収録した波形辞書
と、入力文字列のアクセント型を決定するアクセント型
決定手段と、入力文字列とアクセント型に基づいて韻律
辞書から韻律モデルデータを選択する韻律モデル選択手
段と、該選択した韻律モデルデータの文字列が入力文字
列と一致しない場合に該韻律モデルデータの韻律情報を
入力文字列に合わせて変形する韻律変形手段と、韻律モ
デルデータに基づいて入力文字列の各文字に対応する波
形データを波形辞書から選択する波形選択手段と、該選
択した波形データ同士を接続する波形接続手段とを備え
た音声合成装置を提案する。
【0013】また、前述したような音声合成装置は、音
声合成プログラムを記録したコンピュータ読み取り可能
な媒体において、前記プログラムはコンピュータに読み
取られた際、このコンピュータを、少なくとも1つの文
字を含む文字列(単語)をそのアクセント型とともに多
数収録した単語辞書と、該単語辞書に収録された文字列
に対する韻律情報を表す韻律モデルデータのうちの代表
的な韻律モデルデータを収録した韻律辞書と、収録音声
を合成単位の音声波形データとして収録した波形辞書
と、入力文字列のアクセント型を決定するアクセント型
決定手段と、入力文字列とアクセント型に基づいて韻律
辞書から韻律モデルデータを選択する韻律モデル選択手
段と、該選択した韻律モデルデータの文字列が入力文字
列と一致しない場合に該韻律モデルデータの韻律情報を
入力文字列に合わせて変形する韻律変形手段と、韻律モ
デルデータに基づいて入力文字列の各文字に対応する波
形データを波形辞書から選択する波形選択手段と、該選
択した波形データ同士を接続する波形接続手段として機
能させる音声合成プログラムを記録したコンピュータ読
み取り可能な媒体によっても実現できる。
【0014】
【発明の実施の形態】図1は本発明の音声合成方法の全
体の流れを示すものである。
【0015】まず、図示しない入力手段やゲームシステ
ム等より、合成しようとする文字列が入力されると、そ
のアクセント型を単語辞書等に基づいて決定する(s
1)。ここで、単語辞書とは、少なくとも1つの文字を
含む文字列(単語)をそのアクセント型とともに多数収
録したものであり、例えば入力されることが予想される
プレイヤーキャラクタの名前を表す単語をそのアクセン
ト型とともに多数収録したものである。
【0016】具体的な決定は、入力文字列と単語辞書に
収録された単語とを比較し、同一の単語があればそのア
クセント型を採用し、なければ同一モーラ数の単語のう
ち、類似する文字列を有する単語のアクセント型を採用
する。
【0017】なお、同一の単語がない場合、入力文字列
と同一モーラ数の単語に現れ得る全てのアクセント型か
ら、オペレータ(ゲームプレイヤー)等が図示しない入
力手段より任意に選択・決定できるようにしても良い。
【0018】次に、入力文字列とアクセント型に基づい
て韻律辞書から韻律モデルデータを選択する(s2)。
ここで、韻律辞書とは、単語辞書に収録された単語に対
する韻律情報を表す韻律モデルデータのうちの代表的な
韻律モデルデータを収録したものである。
【0019】次に、選択した韻律モデルデータの文字列
が入力文字列と一致しない場合は該韻律モデルデータの
韻律情報を入力文字列に合わせて変形する(s3)。
【0020】次に、変形後の韻律モデルデータ(なお、
選択した韻律モデルデータの文字列が入力文字列と一致
する場合は変形されないため、変形後の韻律モデルデー
タの中には、実際には変形されていない韻律モデルデー
タも含むものとする。)に基づいて入力文字列の各文字
に対応する波形データを波形辞書から選択する(s
4)。ここで、波形辞書とは、収録音声を合成単位の音
声波形データとして収録したものであり、本実施の形態
では周知のVCV音素方式による音声波形データを収録
している。
【0021】最後に、選択した波形データ同士を接続し
て(s5)、合成音声データを作成する。
【0022】次に、韻律モデル選択処理の詳細について
述べる。
【0023】図2は韻律辞書の一例を示すもので、文字
列、モーラ数、アクセント型及び音節情報を含む複数の
韻律モデルデータ、即ち単語辞書に収録された多数の文
字列に対する代表的な複数の韻律モデルデータを収録し
てなっている。ここで、音節情報とは、文字列を構成す
る各文字が、C:子音+母音、V:母音、N’:撥音、
Q’:促音、L:長音、#:無声音のいずれに該当する
かを表す音節種類と、ASJ表記法(日本音響学会)で
表される音声表記用記号の何番目(A(あ):1、I
(い):2、U(う):3、E(え):4、O(お):
5、KA(か):6、……)であるかを表す音節番号と
からなっている(但し、図2では省略)。なお、韻律辞
書は、実際には韻律モデルデータ毎に、構成する各音素
の周波数、ボリューム、音節長等の詳細な情報を備えて
いるが、図面では省略した。
【0024】図3は韻律モデル選択処理の詳細フローチ
ャート、図4は具体的な韻律モデル選択処理のようすの
一例を示すもので、以下、詳細に説明する。
【0025】まず、入力文字列の音節情報を作成する
(s201)。具体的には、ひらがなで表記された文字
列を前述したASJ表記法でローマ字化し、前述した音
節種類及び音節番号からなる音節情報を作成する。例え
ば、図4に示すように、文字列「かさいくん」の場合、
「kasaikun’」とローマ字化し、さらに音節種
類「CCVCN’」及び音節番号「6,11,2,8,
98」からなる音節情報を作成する。
【0026】次に、復元音素個数をVCV音素単位で見
るため、入力文字列に対するVCV音素列を作成する
(s202)。例えば、前述した「かさいくん」の場合
は「ka asa ai iku un」となる。
【0027】一方、韻律辞書に収録されている韻律モデ
ルデータから、入力文字列とアクセント型及びモーラ数
が一致する韻律モデルデータのみを抽出して韻律モデル
データ候補とする(s203)。例えば、図2、図4の
例では、「かまいくん」、「ささいくん」、「しさいく
ん」である。
【0028】次に、各韻律モデルデータ候補毎にその音
節情報と入力文字列の音節情報とを比較して韻律復元情
報を作成する(s204)。具体的には、韻律モデルデ
ータ候補と入力文字列の音節情報を文字毎に比較し、子
音も母音も一致すれば「11」、子音は異なるが母音は
一致する場合は「01」、子音は一致するが母音は異な
る場合は「10」、子音も母音も異なる場合は「00」
という情報を付与し、さらにVCV単位で区切る。
【0029】例えば、図2、図4の例では、比較情報
は、「かまいくん」が「11 0111 11 1
1」、「ささいくん」が「01 11 11 11 1
1」、「しさいくん」が「00 11 11 11 1
1」となり、韻律復元情報は、「かまいくん」が「11
101 111 111 111」、「ささいくん」
が「01 111 111 111 111」、「しさ
いくん」が「00 011111 111 111」と
なる。
【0030】次に、各韻律モデルデータ候補から1つ選
択し(s205)、その音素が入力文字列の音素とVC
V単位で一致しているか否か、即ち前述した韻律復元情
報が「11」または「111」であるか否かを調べる
(s206)。ここで、全ての音素が一致していれば、
これを最適韻律モデルデータに決定する(s207)。
【0031】一方、1つでも不一致の音素があれば、V
CV単位で一致する音素の数、即ち前述した韻律復元情
報中の「11」または「111」の数を比較(初期値は
0)し(s208)、最大値であればそのモデルを最適
韻律モデルデータの候補とする(s209)。さらに、
VCV単位で一致する音素の連続数、即ち前述した韻律
復元情報中の「11」または「111」の連続数を比較
(初期値は0)し(s210)、最大値であればそのモ
デルを最適韻律モデルデータの候補とする(s21
1)。
【0032】以上の処理を全ての韻律モデルデータ候補
について繰り返して行い(s212)、全ての音素が一
致もしくは一致音素数が最大あるいは一致音素数最大の
モデルが複数ある場合は一致音素連続数が最大のモデル
を最適韻律モデルデータに決定する。
【0033】前述した、図2、図4の例でいえば、文字
列が入力文字列と同一のモデルはなく、一致音素数は
「かまいくん」が4、「ささいくん」が4、「しさいく
ん」が3であるが、一致音素連続数は「かまいくん」が
3、「ささいくん」が4であるので、「ささいくん」が
最適韻律モデルデータに決定する。
【0034】次に、韻律変形処理の詳細について述べ
る。
【0035】図5は韻律変形処理の詳細フローチャー
ト、図6は具体的な韻律変形処理のようすの一例を示す
もので、以下、詳細に説明する。
【0036】まず、前述した如くして選択された韻律モ
デルデータ及び入力文字列の文字を先頭から1文字ずつ
選択し(s301)、この時、文字が一致すれば(s3
02)、そのまま次の文字の選択を繰り返す(s30
3)。文字が不一致の場合、韻律モデルデータ中の文字
に対応する変形後の音節長を以下のようにして求め、ま
た、必要に応じて変形後のボリュームを求めて韻律モデ
ルデータを書き換える(s304,s305)。
【0037】変形後の音節長は、モデルデータ中の音節
長をx、モデルデータの文字に対応する平均音節長を
x’、変形後の音節長をy、変形後の文字に対応する平
均音節長をy’とした時、 y=y’×(x/x’) より求める。なお、平均音節長は、予め各文字毎に求め
て記憶しておくものとする。
【0038】図6は入力文字列を「さかいくん」、選択
された韻律モデルデータを「かさいくん」とした場合の
例を示しており、韻律モデルデータ中の文字「か」を入
力文字列中の文字「さ」に合わせて変形する場合、文字
「か」の平均音節長を「22」、文字「さ」の平均音節
長を「25」とすると、変形後の「さ」の音節長は、 「さ」の音節長=「さ」の平均×(「か」の音節長/「か」の平均) =25×(20/22) ≒23 となる。
【0039】同様に、韻律モデルデータ中の文字「さ」
を入力文字列中の文字「か」に合わせて変形する場合、
変形後の「か」の音節長は、 「か」の音節長=「か」の平均×(「さ」の音節長/「さ」の平均) =22×(30/25) ≒26 となる。なお、ボリュームについては音節長の場合と同
様の計算によって求めて変形しても良く、あるいは韻律
モデルデータ中の値をそのまま用いても良い。
【0040】以上の処理を韻律モデルデータ中の全ての
文字について繰り返して行った後、音素(VCV)情報
に変換し(s306)、各音素の接続情報を作成する
(s307)。
【0041】次に、波形選択処理の詳細について述べ
る。
【0042】図7は波形選択処理の詳細フローチャート
を示すもので、以下、詳細に説明する。
【0043】まず、入力文字列を構成する音素を先頭か
ら1つずつ選択し(s401)、これが前述した復元音
素であれば(s402)、前述した如くして選択・変形
した韻律モデルデータ中の該当する音素の波形データを
波形辞書から選択する(s403)。
【0044】また、復元音素でなければ、波形辞書中の
同じ区切り記号を持つ音素を候補として選択し(s40
4)、変形後の韻律モデルデータにおける該当音素との
周波数の差を算出する(s405)。この際、音素のV
区間が2つあるものに関しては、アクセント型も考慮
し、それぞれのV区間毎の周波数の差の和を算出する。
これを全ての候補について繰り返し(s406)、差
(もしくは差の和)の最も小さい候補の音素の波形デー
タを波形辞書から選択する(s407)。なお、この
時、音素候補のボリュームについても補助的に参照し、
極端に値が小さいものを除外する等の処理を行っても良
い。
【0045】以上の処理を入力文字列を構成する全ての
音素について繰り返し行う(s408)。
【0046】図8、9は具体的な波形選択処理のようす
の一例を示すもので、ここでは入力文字列「さかいく
ん」を構成するVCV音素「sa aka ai ik
u un」のうち、復元音素でない「sa」、「ak
a」のそれぞれについて変形後の韻律モデルデータにお
ける該当音素の周波数及びボリューム値と、音素候補の
周波数及びボリューム値とを表している。
【0047】具体的には、図8では、変形後の韻律モデ
ルデータにおける音素「sa」の周波数「450」及び
ボリューム値「1000」と、音素候補、ここでは3つ
の音素候補「sa−001」,「sa−002」,「s
a−003」の周波数「440」,「500」,「40
0」及びボリューム値「800」,「1050」,「9
50」とを表しており、この場合、周波数が「440」
で最も近い音素候補「sa−001」が選択される。
【0048】また、図9では、変形後の韻律モデルデー
タにおける音素「aka」のV区間1の周波数「45
0」及びボリューム値「1000」並びにV区間2の周
波数「400」及びボリューム値「800」と、音素候
補、ここでは2つの音素候補「aka−001」,「a
ka−002」のV区間1の周波数「400」,「46
0」及びボリューム値「1000」,「800」並びに
V区間2の周波数「450」,「410」及びボリュー
ム値「800」,「1000」とを表しており、この場
合、V区間1並びにV区間2毎の周波数の差の和(音素
候補「aka−001」では、|450−400|+|
400−450|=100、音素候補「aka−00
2」では、|450−460|+|400−410|=
20)が最も小さい音素候補「aka−002」が選択
される。
【0049】図10は波形接続処理の詳細フローチャー
トを示すもので、以下、詳細に説明する。
【0050】まず、前述した如くして選択した音素の波
形データを先頭から1つずつ選択し(s501)、接続
候補位置を設定し(s502)、この際、接続が復元可
能であれば(s503)、復元接続情報を元に接続する
(s504)。
【0051】また、復元できなければ、音節長を判定し
(s505)、これに応じて各種の接続方法(母音区間
接続、長音接続、無声化音節接続、促音接続、撥音接続
等)に従って接続する(s506)。
【0052】以上の処理を全ての音素の波形データにつ
いて繰り返し行い(s507)、合成音声データを作成
する。
【0053】図11は本発明の音声合成装置の機能ブロ
ック図を示すもので、図中、11は単語辞書、12は韻
律辞書、13は波形辞書、14はアクセント型決定手
段、15は韻律モデル選択手段、16は韻律変形手段、
17は波形選択手段、18は波形接続手段である。
【0054】単語辞書11は、少なくとも1つの文字を
含む文字列(単語)をそのアクセント型とともに多数収
録してなっている。また、韻律辞書12は、文字列、モ
ーラ数、アクセント型及び音節情報を含む韻律モデルデ
ータを複数、単語辞書に収録された多数の文字列に対す
る代表的な複数の韻律モデルデータを収録してなってい
る。また、波形辞書13は、収録音声を合成単位の音声
波形データとして収録してなっている。
【0055】アクセント型決定手段14は、入力手段や
ゲームシステム等より入力された文字列と単語辞書11
に収録された単語とを比較し、同一の単語があればその
アクセント型を前記文字列のアクセント型と決定し、な
ければ同一モーラ数の単語のうち、類似する文字列を有
する単語のアクセント型を前記文字列のアクセント型と
決定する処理等を行う。
【0056】韻律モデル選択手段15は、入力文字列の
音節情報を作成し、韻律辞書12中より、入力文字列と
モーラ数及びアクセント型が一致する韻律モデルデータ
を抽出して韻律モデルデータ候補とし、各韻律モデルデ
ータ候補についてその音節情報と入力文字列の音節情報
とを比較してそれぞれ韻律復元情報を作成し、各韻律モ
デルデータ候補の文字列及び韻律復元情報に基づいて最
適な韻律モデルデータを選択する処理を行う。
【0057】韻律変形手段16は、選択した韻律モデル
データの文字列が入力文字列と一致しない場合、該韻律
モデルデータ中の一致しない文字毎に、音声合成に使用
する全ての文字について予め求めておいた平均音節長
と、前記韻律モデルデータにおける音節長とから変形後
の音節長を求める処理を行う。
【0058】波形選択手段17は、入力文字列を構成す
る各音素のうち、復元音素については変形後の韻律モデ
ルデータ中の該当する音素の波形データを波形辞書から
選択し、その他の音素については対応する音素のうち、
変形後の韻律モデルデータと周波数が最も近い音素の波
形データを波形辞書から選択する処理を行う。
【0059】波形接続手段18は、選択した波形データ
同士を接続して合成音声データを作成する処理を行う。
【0060】
【発明の効果】以上説明したように、本発明によれば、
少なくとも1つの文字を含む文字列(単語)をそのアク
セント型とともに多数収録した単語辞書と、該単語辞書
に収録された文字列に対する韻律情報を表す韻律モデル
データのうちの代表的な韻律モデルデータを収録した韻
律辞書と、収録音声を合成単位の音声データとして収録
した波形辞書とを用い、入力文字列のアクセント型を決
定し、入力文字列とアクセント型に基づいて韻律辞書か
ら韻律モデルデータを選択し、該選択した韻律モデルデ
ータの文字列が入力文字列と一致しない場合は該韻律モ
デルデータの韻律情報を入力文字列に合わせて変形し、
韻律モデルデータに基づいて入力文字列の各文字に対応
する波形データを波形辞書から選択して接続するため、
入力文字列が辞書に登録されていない場合でもこの文字
列に近い韻律モデルデータを利用でき、さらにその韻律
情報を入力文字列に合わせて変形し、これに基づいて波
形データを選択でき、これによって自然な音声を合成す
ることができる。
【0061】また、本発明によれば、入力文字列と同一
位置の同一音素、即ちそのまま利用可能な音素(復元音
素)を最も多くしかも連続して含む韻律モデルデータを
選択することが可能となり、より自然な音声合成が可能
となる。
【0062】また、本発明によれば、平均音節長と、選
択した韻律モデルデータにおける音節長とから変形後の
音節長を求めることができるため、選択した韻律モデル
データの韻律情報を入力文字列に合わせて変形でき、さ
らに自然な音声合成が可能となる。
【0063】また、本発明によれば、復元音素について
は該当音素の波形データを波形辞書から選択し、その他
の音素については韻律モデルデータと周波数が最も近い
音素の波形データを波形辞書から選択することにより、
変形後の韻律モデルデータに最も近い波形データを選択
でき、さらに自然で意図するところに近い音声合成が可
能となる。
【図面の簡単な説明】
【図1】本発明の音声合成方法の全体を示すフローチャ
ート
【図2】韻律辞書の一例を示す図
【図3】韻律モデル選択処理の詳細を示すフローチャー
【図4】具体的な韻律モデル選択処理のようすの一例を
示す図
【図5】韻律変形処理の詳細を示すフローチャート
【図6】具体的な韻律変形のようすの一例を示す図
【図7】波形選択処理の詳細を示すフローチャート
【図8】具体的な波形選択処理のようすの一例を示す図
【図9】具体的な波形選択処理のようすの一例を示す図
【図10】波形接続処理の詳細を示すフローチャート
【図11】本発明の音声合成装置の機能ブロック図
【符号の説明】
11:単語辞書、12:韻律辞書、13:波形辞書、1
4:アクセント型決定手段、15:韻律モデル選択手
段、16:韻律変形手段、17:波形選択手段、18:
波形接続手段。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 溝口 稔幸 東京都千代田区神田神保町3番25号 株 式会社コナミコンピュータエンタテイン メント東京内 (56)参考文献 特開 平9−34492(JP,A) 特開 平8−160990(JP,A) 特開 平9−230893(JP,A) 特開 平5−73092(JP,A) 特開 平7−261778(JP,A) 特開 平8−87297(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/08

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された文字列に対応する音声メッセ
    ージデータを作成する音声合成方法であって、少なくと
    も1つの文字を含む文字列(単語)をそのアクセント型
    とともに多数収録した単語辞書と、該単語辞書に収録さ
    れた文字列に対する韻律情報を表す韻律モデルデータの
    うちの代表的な韻律モデルデータを収録した韻律辞書
    と、収録音声を合成単位の音声波形データとして収録し
    た波形辞書とを用い、入力文字列のアクセント型を決定
    し、入力文字列とアクセント型に基づいて韻律辞書から
    韻律モデルデータを選択し、該選択した韻律モデルデー
    タの文字列が入力文字列と一致しない場合は該韻律モデ
    ルデータの韻律情報を入力文字列に合わせて変形し、韻
    律モデルデータに基づいて入力文字列の各文字に対応す
    る波形データを波形辞書から選択し、該選択した波形デ
    ータ同士を接続する音声合成方法において、 文字列、モーラ数、アクセント型及び音節情報を含む韻
    律モデルデータを収録した韻律辞書を用い、 入力文字列の音節情報を作成し、 韻律辞書中より、入力文字列とモーラ数及びアクセント
    型が一致する韻律モデルデータを抽出して韻律モデルデ
    ータ候補とし、 韻律モデルデータ候補のうち、その全ての音素が入力文
    字列の音素と一致する候補があればこれを最適韻律モデ
    ルデータとし、 全ての音素が一致する候補がなければ、韻律モデルデー
    タ候補のうち、入力文字列の音素と一致する音素の数が
    最大の候補を最適韻律モデルデータとし、 一致する音素の数が最大の候補が複数ある場合は、その
    うちの連続して一致する音素の数が最大の候補を最適韻
    律モデルデータとする ことを特徴とする音声合成方法。
  2. 【請求項2】 前記選択した韻律モデルデータの文字列
    が入力文字列と一致しない場合、該韻律モデルデータ中
    の一致しない文字毎に、音声合成に使用する全ての文字
    について予め求めておいた平均音節長と、前記韻律モデ
    ルデータにおける音節長とから変形後の音節長を求める
    ことを特徴とする請求項1記載の音声合成方法。
  3. 【請求項3】 入力文字列を構成する各音素のうち、復
    元音素については韻律モデルデータ中の該当する音素の
    波形データを波形辞書から選択し、その他の音素につい
    ては対応する音素のうち、韻律モデルデータと周波数が
    最も近い音素の波形データを波形辞書から選択すること
    を特徴とする請求項1または2記載の音声合成方法。
  4. 【請求項4】 入力された文字列に対応する音声メッセ
    ージデータを作成する音声合成装置であって、少なくと
    も1つの文字を含む文字列(単語)をそのアクセント型
    とともに多数収録した単語辞書と、該単語辞書に収録さ
    れた文字列に対する韻律情報を表す韻律モデルデータの
    うちの代表的な韻律モデルデータを収録した韻律辞書
    と、収録音声を合成単位の音声波形データとして収録し
    た波形辞書と、入力文字列のアクセント型を決定するア
    クセント型決定手段と、入力文字列とアクセント型に基
    づいて韻律辞書から韻律モデルデータを選択する韻律モ
    デル選択手段と、該選択した韻律モデルデータの文字列
    が入力文字列と一致しない場合に該韻律モデルデータの
    韻律情報を入力文字列に合わせて変形する韻律変形手段
    と、韻律モデルデータに基づいて入力文字列の各文字に
    対応する波形データを波形辞書から選択する波形選択手
    段と、該選択した波形データ同士を接続する波形接続手
    段とを備えた音声合成装置において、 文字列、モーラ数、アクセント型及び音節情報を含む韻
    律モデルデータを収録した韻律辞書と、 入力文字列の音節情報を作成し、韻律辞書中より、入力
    文字列とモーラ数及びアクセント型が一致する韻律モデ
    ルデータを抽出して韻律モデルデータ候補とし、韻律モ
    デルデータ候補のうち、その全ての音素が入力文字列の
    音素と一致する候補があればこれを最適韻律モデルデー
    タとし、全ての音素が一致する候補がなければ、韻律モ
    デルデータ候補のうち、入力文字列の音素と一致する音
    素の数が最大の候補を最適韻律モデルデータとし、一致
    する音素の数が最大の候補が複数ある場合は、そのうち
    の連続して一致する音素の数が最大の候補を最適韻律モ
    デルデータとする韻律モデル選択手段とを備えた ことを
    特徴とする音声合成装置。
  5. 【請求項5】 前記選択した韻律モデルデータの文字列
    が入力文字列と一致しない場合、該韻律モデルデータ中
    の一致しない文字毎に、音声合成に使用する全ての文字
    について予め求めておいた平均音節長と、前記韻律モデ
    ルデータにおける音節長とから変形後の音節長を求める
    韻律変形手段を備えたことを特徴とする請求項4記載の
    音声合成装置。
  6. 【請求項6】 入力文字列を構成する各音素のうち、復
    元音素については韻律モデルデータ中の該当する音素の
    波形データを波形辞書から選択し、その他の音素につい
    ては対応する音素のうち、韻律モデルデータと周波数が
    最も近い音素の波形データを波形辞書から選択する波形
    選択手段を備えたことを特徴とする請求項4または5記
    載の音声合成装置。
  7. 【請求項7】 音声合成プログラムを記録したコンピュ
    ータ読み取り可能な媒体であって、前記プログラムはコ
    ンピュータに読み取られた際、このコンピュータを、少
    なくとも1つの文字を含む文字列(単語)をそのアクセ
    ント型とともに多数収録した単語辞書と、該単語辞書に
    収録された文字列に対する韻律情報を表す韻律モデルデ
    ータのうちの代表的な韻律モデルデータを収録した韻律
    辞書と、収録音声を合成単位の音声波形データとして収
    録した波形辞書と、入力文字列のアクセント型を決定す
    るアクセント型決定手段と、入力文字列とアクセント型
    に基づいて韻律辞書から韻律モデルデータを選択する韻
    律モデル選択手段と、該選択した韻律モデルデータの文
    字列が入力文字列と一致しない場合に該韻律モデルデー
    タの韻律情報を入力文字列に合わせて変形する韻律変形
    手段と、韻律モデルデータに基づいて入力文字列の各文
    字に対応する波形データを波形辞書から選択する波形選
    択手段と、該選択した波形データ同士を接続する波形接
    続手段として機能させる音声合成プログラムを記録した
    コンピュータ読み取り可能な媒体において、 前記プログラムはまた、コンピュータに読み取られた
    際、このコンピュータを、 文字列、モーラ数、アクセント型及び音節情報を含む韻
    律モデルデータを収録した韻律辞書と、 入力文字列の音節情報を作成し、韻律辞書中より、入力
    文字列とモーラ数及びアクセント型が一致する韻律モデ
    ルデータを抽出して韻律モデルデータ候補とし 、韻律モ
    デルデータ候補のうち、その全ての音素が入力文字列の
    音素と一致する候補があればこれを最適韻律モデルデー
    タとし、全ての音素が一致する候補がなければ、韻律モ
    デルデータ候補のうち、入力文字列の音素と一致する音
    素の数が最大の候補を最適韻律モデルデータとし、一致
    する音素の数が最大の候補が複数ある場合は、そのうち
    の連続して一致する音素の数が最大の候補を最適韻律モ
    デルデータとする韻律モデル選択手段として機能させる
    ことを特徴とする音声合成プログラムを記録したコンピ
    ュータ読み取り可能な媒体。
  8. 【請求項8】 前記選択した韻律モデルデータの文字列
    が入力文字列と一致しない場合、該韻律モデルデータ中
    の一致しない文字毎に、音声合成に使用する全ての文字
    について予め求めておいた平均音節長と、前記韻律モデ
    ルデータにおける音節長とから変形後の音節長を求める
    韻律変形手段として機能させることを特徴とする請求項
    7記載の音声合成プログラムを記録したコンピュータ読
    み取り可能な媒体。
  9. 【請求項9】 入力文字列を構成する各音素のうち、復
    元音素については韻律モデルデータ中の該当する音素の
    波形データを波形辞書から選択し、その他の音素につい
    ては対応する音素のうち、韻律モデルデータと周波数が
    最も近い音素の波形データを波形辞書から選択する波形
    選択手段として機能させることを特徴とする請求項7ま
    たは8記載の音声合成プログラムを記録したコンピュー
    タ読み取り可能な媒体。
JP20860699A 1999-07-23 1999-07-23 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 Expired - Fee Related JP3361291B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP20860699A JP3361291B2 (ja) 1999-07-23 1999-07-23 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
TW089113027A TW523733B (en) 1999-07-23 2000-06-30 Speech synthesizing method, speech synthesis apparatus and computer-readable medium recording speech synthesis program
DE60035001T DE60035001T2 (de) 1999-07-23 2000-07-19 Sprachsynthese mit Prosodie-Mustern
KR10-2000-0041363A KR100403293B1 (ko) 1999-07-23 2000-07-19 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체
EP00115590A EP1071074B1 (en) 1999-07-23 2000-07-19 Speech synthesis employing prosody templates
US09/621,545 US6778962B1 (en) 1999-07-23 2000-07-21 Speech synthesis with prosodic model data and accent type
CN00121651A CN1108603C (zh) 1999-07-23 2000-07-21 声音合成方法和声音合成装置
HK01104510A HK1034130A1 (en) 1999-07-23 2001-06-29 Speech synthesizing method and speech synthesis apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20860699A JP3361291B2 (ja) 1999-07-23 1999-07-23 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体

Publications (2)

Publication Number Publication Date
JP2001034283A JP2001034283A (ja) 2001-02-09
JP3361291B2 true JP3361291B2 (ja) 2003-01-07

Family

ID=16559004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20860699A Expired - Fee Related JP3361291B2 (ja) 1999-07-23 1999-07-23 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体

Country Status (8)

Country Link
US (1) US6778962B1 (ja)
EP (1) EP1071074B1 (ja)
JP (1) JP3361291B2 (ja)
KR (1) KR100403293B1 (ja)
CN (1) CN1108603C (ja)
DE (1) DE60035001T2 (ja)
HK (1) HK1034130A1 (ja)
TW (1) TW523733B (ja)

Families Citing this family (179)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7353164B1 (en) 2002-09-13 2008-04-01 Apple Inc. Representation of orthography in a continuous vector space
US7047193B1 (en) * 2002-09-13 2006-05-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7912718B1 (en) 2006-08-31 2011-03-22 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510112B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR100934288B1 (ko) * 2007-07-18 2009-12-29 현덕 한글을 이용한 음원 생성 방법 및 장치
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6567372B2 (ja) * 2015-09-15 2019-08-28 株式会社東芝 編集支援装置、編集支援方法及びプログラム
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN111862954B (zh) * 2020-05-29 2024-03-01 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置
CN112002302A (zh) * 2020-07-27 2020-11-27 北京捷通华声科技股份有限公司 一种语音合成方法和装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1082230A (zh) * 1992-08-08 1994-02-16 凌阳科技股份有限公司 声音合成的程序字控制器
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
JP3397406B2 (ja) * 1993-11-15 2003-04-14 ソニー株式会社 音声合成装置及び音声合成方法
JPH07319497A (ja) * 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
GB2292235A (en) * 1994-08-06 1996-02-14 Ibm Word syllabification.
JPH09171396A (ja) * 1995-10-18 1997-06-30 Baisera:Kk 音声発生システム
KR970060042A (ko) * 1996-01-05 1997-08-12 구자홍 음성합성방법
AU1941697A (en) * 1996-03-25 1997-10-17 Arcadia, Inc. Sound source generator, voice synthesizer and voice synthesizing method
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP3242331B2 (ja) 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
JP2002530703A (ja) * 1998-11-13 2002-09-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 音声波形の連結を用いる音声合成
US6144939A (en) * 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置

Also Published As

Publication number Publication date
CN1108603C (zh) 2003-05-14
TW523733B (en) 2003-03-11
EP1071074A3 (en) 2001-02-14
DE60035001T2 (de) 2008-02-07
EP1071074B1 (en) 2007-05-30
DE60035001D1 (de) 2007-07-12
KR20010021106A (ko) 2001-03-15
JP2001034283A (ja) 2001-02-09
HK1034130A1 (en) 2001-10-12
EP1071074A2 (en) 2001-01-24
US6778962B1 (en) 2004-08-17
KR100403293B1 (ko) 2003-10-30
CN1282018A (zh) 2001-01-31

Similar Documents

Publication Publication Date Title
JP3361291B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
JP3085631B2 (ja) 音声合成方法及びシステム
JP3109778B2 (ja) 音声規則合成装置
JPH08335096A (ja) テキスト音声合成装置
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP3006240B2 (ja) 音声合成方法および装置
JP2642617B2 (ja) 音声合成装置
JP3870583B2 (ja) 音声合成装置および記憶媒体
JP4056647B2 (ja) 波形接続型音声合成装置および方法
JP2003005776A (ja) 音声合成装置
JPH037994A (ja) 歌音声合成データの作成装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JPH08160983A (ja) 音声合成装置
JPH09292897A (ja) 音声合成装置
JPH07140999A (ja) 音声合成装置及び音声合成方法
Fujimura Rhythmic organization and signal characteristics of speech
Tian et al. Modular design for Mandarin text-to-speech synthesis
JPH06138894A (ja) 音声合成装置及び音声合成方法
JPH08160990A (ja) 音声合成装置
Morris et al. Speech Generation
JPH04134499A (ja) 音声規則合成装置
JP2003308084A (ja) 音声合成方法および音声合成装置
Chen An Interface between Formal Phonology and Computer Science: Speech Accent Coloring in Speech Synthesis

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071018

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071018

Year of fee payment: 5

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071018

Year of fee payment: 5

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091018

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101018

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101018

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111018

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121018

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131018

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S802 Written request for registration of partial abandonment of right

Free format text: JAPANESE INTERMEDIATE CODE: R311802

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees