JP2002055692A - 音声出力のためのメッセージの構成方法 - Google Patents
音声出力のためのメッセージの構成方法Info
- Publication number
- JP2002055692A JP2002055692A JP2001199251A JP2001199251A JP2002055692A JP 2002055692 A JP2002055692 A JP 2002055692A JP 2001199251 A JP2001199251 A JP 2001199251A JP 2001199251 A JP2001199251 A JP 2001199251A JP 2002055692 A JP2002055692 A JP 2002055692A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- segment
- message
- segments
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 28
- 230000007704 transition Effects 0.000 claims abstract description 35
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000005259 measurement Methods 0.000 claims description 5
- 230000033764 rhythmic process Effects 0.000 abstract description 3
- 230000001755 vocal effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 16
- 238000005457 optimization Methods 0.000 description 3
- 241000984945 Simona Species 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 238000009940 knitting Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Electric Clocks (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
る。 【解決手段】 メッセージの一連のオリジナル・センテ
ンス(10)がセグメント化されてデータベース(1
1)内の検索基準と共にオーディオファイルの形式で記
憶され、セグメント(10)毎に長さ、位置、および遷
移値が記録されるように、更に別の項目(12)がセグ
メント(10)上に作成される。センテンスを再生する
場合は、検索基準のフォーマットに対応するフォーマッ
トで伝送され、再生されるべきセンテンスがセグメント
(10)により完全に再生可能かの調査が行われ、再生
可能の場合、項目(12)を利用して、個々のセグメン
トが音声のリズムに関してどの程度整合しているか吟味
され、音声の自然のリズムを最適に保持するための必要
条件を呈するセグメント(10)のオーディオファイル
が組合わされて再生出力される。
Description
メッセージを構成する方法に関し、特にこの種の音声出
力の再生の質の向上に関する。
るためにデータベースから対応する項目が呼び出される
ことが公知である。詳細には、これは例えば、特定の数
の異なるメッセージ、言い換えると、特定の数の異なる
センテンス、コマンド、ユーザー要求、言葉のあや、フ
レーズまたはその類似物がメモリ内にファイルされ、フ
ァイルされたメッセージへの要求に基づいて、これがメ
モリから読み出され、再生されることによって実行でき
る。この種類の配置は、予め完全に記憶されたメッセー
ジだけを再生可能であるので、極めてフレキシブルでは
ないことは明白である。
割し、これらを対応するオーディオファイルとして記憶
しておくような切換えがなされてきた。メッセージを出
力するべき場合は、セグメントから望まれるメッセージ
を再構成する必要がある。従来技術では、このことは、
形成されるべきメッセージ向けに対応する命令だけがメ
ッセージに関連する順序でセグメントに伝送されること
によって実施される。これらの命令によって対応するオ
ーディオファイルがメモリから読み出され、出力のため
に合体される。センテンスまたはセンテンスの一部を形
成するためのこの方法の特徴は、記憶容量の必要性が少
なくフレキシビリティが高いことにある。しかし、この
方法では音声の自然な流れが考慮なされていないので、
この方法によってコンパイルされた再生が極めて合成的
に聞こえるという欠点がある。
声の自然な流れを考慮に入れ、ひいては調和のとれた再
生結果をもたらす、セグメントからメッセージを形成す
る方法を開示することにある。
に記載の方法によって達成される。有利な実施形態およ
びその他の実施形態は従属クレームに記載されている。
れることが意図されたメッセージがオーディオファイル
として記憶され、記憶されたオーディオファイルから検
索基準を利用して選択されたセグメントから構成され
る、オーディオファイルとして記憶された少なくとも1
つのオリジナル・センテンスのセグメントからなる音声
出力用のメッセージを構成する方法で、全てのセグメン
トにはオリジナル・センテンス内の音標プロパティを特
徴付ける少なくとも1つのパラメータが割当てられると
共に、オリジナル・センテンス内の音標プロバティを特
徴付ける個々のセグメントのパラメータを利用して、メ
ッセージとして出力される予定の再生センテンスを形成
するセグメントが音声の自然の流れに基づいて構成され
ているか否かのチェックが行われる。このようにして、
メッセージ自体を完全に記憶することなく、音声を再生
する際にメッセージの音声の自然な流れとリズムが大幅
に再構成される。
のセグメントにはオリジナル・センテンス内の音標プロ
パティを特徴付ける幾つかのパラメータが割当てられ、
パラメータは好適には以下のパラメータから選択でき
る。すなわち、それぞれのセグメントの長さ(L)、オ
リジナル・センテンス内の前記それぞれのセグメントの
位置、それぞれのセグメントの、オリジナル・センテン
ス内の先行の、または後続のセグメントへの前方および
/または後方遷移値であり、各ケースで割当てられる検
索基準の長さが更に、それぞれのセグメントの長さとし
て用いられる。
の有利な別の実施形態では、オリジナル・センテンス内
の先行の、または後続のセグメントの最後の、または最
初の文字、音節、または音標が遷移値として用いられ
る。遷移値として音素が用いられれば、オーディオファ
イルから構成される再生センテンスの特に高品質の再生
を達成できる。
によって大きく左右されるので、更に別のパラメータと
してオリジナル・センテンスのそれぞれのセグメントが
質問文または感嘆文から派生したものであるか否かのデ
ータが備えられれば、再生の向上が更に達成される。
メッセージとして出力される予定の再生センテンスを形
成するセグメント)の見出された組合わせごとに、下記
の公式
を特徴付ける個々のセグメントのパラメータから評価測
定値が計算され、但し、fn,i(n)はn番目のパラメー
タの関数相関であり、iはセグメントを示す指標であ
り、Wnはn番目のパラメータの関数相関の重み係数で
ある。例えばパラメータ自体、その逆数値、または記憶
されたセグメントに割当てられたパラメータの値と、メ
ッセージのための組合わせのセグメントに割当てられる
パラメータとの一致を、パラメータの関数相関として備
えることができる。その中の重み係数によって評価測定
値を決定する際に好みを極めて僅かしか排除しなくても
済む。
価測定値に従って、その評価測定値が、組合わせのセグ
メントが音声の自然の流れに従って構成されていること
を示している組合わせが、出力されるべきメッセージと
して選択される。
少なくとも下記のパラメータ、すなわちセグメントの長
さL、および位置P、並びに以下の公式、すなわち
関数相関fn(n)から計算される。
ーマットセンテンスであり、探索基準および伝送される
再生センテンス用に好適には英数字ストリングが用いら
れば、評価は特に簡単になる。
ために、探索基準がデータベース内に階層的に構成され
ていれば有利である。
の全体が、割当られたオーディオファイルと共にデータ
ベース内にファイルされた検索基準と一致するか否かの
テストが行われ、一致しない場合は、それぞれの再生セ
ンテンスの端部が縮小され、その後、再生センテンスの
残りの部分について単数または複数の一致が発見される
まで、データベース内にファイルされている検索基準と
の一致がチェックされ、前述のチェックが先行ステップ
で除去された再生センテンスの部分に関して継続され、
検索基準が再生センテンスと完全に一致しているセグメ
ントの各組合わせについて、メッセージとして出力され
る予定の再生センテンスを形成するセグメントが会話の
自然な流れに従って構成されているか否かのチェックが
行われ、望ましいメッセージの再生のために、その組合
わせが音声の自然な流れに最も近いセグメントのオーデ
ィオファイルが使用されれば、メッセージ用のセグメン
トの選択は特に簡単になる。
索基準を伴う少なくとも1つのデータ記録、オーディオ
ファイル、およびオリジナル・センテンス内の音標プロ
パティを特徴付ける少なくとも1つのパラメータ、言い
換えるとそれぞれのセグメント上の追加情報がファイル
されたことが一旦確認されると、このようにして編集さ
れたデータ記録を利用してセグメントの組合わせを極め
て簡単にコンパイルすることができ、その再生は対応す
るメッセージの音声による再生ともはや区別できなくな
る。この効果は、メッセージの出力前に、言い換えると
センテンス、センテンスの一部、要求、コマンド、フレ
ーズまたはその類似物の再生前に、データベース内部で
望ましいメッセージの対応する組合わせをそこから形成
できるセグメントの検索が行われ、かつ、用いられる全
てのセグメント上の情報を利用して、音声の自然な流れ
に対する組合わせの近似を記述する単数または複数のセ
グメントからなる全ての見出された組合わせの評価を実
施することによって達成される。コンパイルされた組合
わせの評価が完了すると、音声の自然な流れに最も近づ
いたセグメントの組合わせがメッセージ用に選択され
る。
を参照してより詳細に説明する。
てメッセージとして再生可能である4つのオリジナル・
センテンスのリストを示しており、これらのオリジナル
・センテンスの各々は垂直の線によって2つ、またはそ
れ以上のセグメント10に区分されている。これらの4
つのオリジナル・センテンスの各々は同じ意味内容を有
しており、順序を無視するならば−使用されている文字
と数字には相違はないものの、音響的に再生した場合は
個々のオリジナル・センテンスの間には顕著な相違が明
らかである。その理由は、個々のセンテンス構造内の語
または語群の配置に応じて、異なるイントネーションが
発せられるという事実による。例えば、メッセージとし
て“100メートル先で左に曲がります”(ドイツ語)
というセンテンスを再生すべき場合、また、これを再生
するためにセグメント10.1と10.2ではなくセグ
メント10.4と10.3とが用いられる場合は、音声
の自然な流れに対応する調和した再生はなされない。
1)に示された4つのオリジナル・センテンスのうちの
特定のセンテンスに特有なイントネーションを保持した
い場合は、これらのオリジナル・センテンスの各々の全
体をオーディオファイルとしてファイルすることが必要
である。それによって必要なメモリの容量は著しく大き
くなることは明白である。
け、しかも同時に音声の自然な流れに対応する調和のと
れた再生結果を確実に生ずるために、オリジナルに発音
された形式で一連のセンテンスを解析することが必要で
ある。ここで図1に示したオリジナル・センテンスを用
いて、以下に一連の例としてこの種類の解析を行う。
が発音され、スピーカによっていわゆるオリジナル・セ
ンテンスとして録音される。
ナル・センテンスがセグメント10に区分され、これら
のセグメント10の各々がオーディオファイル内にファ
イルされる。
検索基準群が割当てられる。この検索基準群はオリジナ
ル・センテンスの区分化( セグメンテーション) に従っ
て区分され、各々のセグメント10には1つの検索基準
が割当てられる。オーディオファイルと検索基準の相互
の割当ては図2により詳細に示すデータベースで行われ
る。この実施例のこのデータベース11から明らかであ
るように、検索基準として英数字ストリングが用いら
れ、検索基準として用いられる文字ストリングはオーデ
ィオファイルとしてファイルされた割当て済みのセグメ
ント10のテキスト再生に対応している。検索基準とし
て用いられる文字または一連の文字がそのテキスト内容
が同一であるいずれかのセグメント10を同一に特徴付
けていることが確実である限りは、必ずしも前述の文字
ストリングも英数字も検索基準として使用する必要はな
いことを念のために指摘しておく必要がある。例えば、
各セグメントにセグメント識別番号を割当てることも考
えられる。
データベース11には更に別の記入項目12がある。コ
ラムの見出しにあるようにこれらの項目12はそれぞれ
のセグメントの長さ(L)と、センテンス内でのその位
置Pと、2つの接続サウンド、すなわち遷移値(U
front, Urear)である。
を以下に説明する。
ると、例えば各々の検索基準ごとに割当てられたセグメ
ント10の語数を計算することによって、長さ(L)に
関するそれぞれの項目12が獲得される。この実施例で
は、割当てられた検索基準内の語をそのために編入(enl
ist)することができる。その結果、検索基準“曲がりま
す”(“ターン”)にオーディオファイルまたはセグメ
ント10の長さ値1が割当てられ、一方、検索基準“1
00メートル先で”(イン100メートル”)には、数
列“100”が語とみなされるので長さ値3が割当てら
れる。流れ情報を得るために、検索基準に含まれる語は
必ずしも編入される必要がないことを念のために指摘し
ておく。その代わりに、(更には図示しない)別の実施
例では、それぞれの検索基準に含まれる文字数を利用す
ることができる。それによって、例えば検索基準“曲が
ります”では、長さ値8が生じ、また検索基準“100
メートル先で”には長さ値13が生ずることになろう。
何故ならば、この検索基準では、空白が語間にあり、ま
た数字が文字として見なされるからである。更に、長さ
値として音節、または音素数を使用することも考えられ
る。
最初にオリジナル・センテンス当たりのセグメント1
0、または検索基準の数を計算することによって獲得さ
れる。例えば、オリジナル・センテンスが区分化される
と、これが3つのセグメント10に区分され、第1のセ
グメント10には位置の値0が割当てられ、第2のセグ
メント10には位置の値0.5が割当てられ、3つのセ
グメント10のうちの最後のセグメントには位置の値1
が割当てられる。しかし、(図1の最初の2つのオリジ
ナル・センテンスの場合のように)オリジナル・センテ
ンスが2つのセグメント10だけに区分される場合は、
第1のセグメント10には位置の値0が割当てられ、一
方第2と最後のセグメント10には位置の値1が割当て
られる。オリジナル・センテンスが4つのセグメント1
0からなっている場合は、第1のセグメント10の位置
の値は0であり、第2のセグメント10の位置の値は
0.33であり、第3のセグメント10の位置の値は
0.66であり、一方、最後のセグメントには再び位置
の値1が与えられる。
に、それぞれのセグメント10がメッセージの最初また
は最後にあるのか、または2つのセグメント10の間に
あるのかを示すだけにすることも可能である。
メント10または検索基準の先行の、または後続のセグ
メント10に対するセグメント10または検索基準の関
係であるものと理解されたい。それぞれのセグメント1
0についてのこの関係は、この実施例では先行のセグメ
ント10の最後の文字、および後続のセグメント10の
最初の文字に対して生ずる。ここで図1に基づき、最初
のオリジナル・センテンス(100メートル先で左に曲
がります)を利用してより詳細な説明を行う。このオリ
ジナル・センテンスの最初のセグメント10または検索
基準(100メートル先で)には先行のセグメント1
0、または検索基準がないので、このセグメント10に
関連し、かつ指標番号3(図2)を有するデータベース
内に、図面では“−”で示されている項目“空白”が前
方遷移値として記入される。この実施例では遷移値
(U)として1つの文字だけが用いられているので、オ
リジナル・センテンスではセグメント10(100メー
トル先で)の後にはセグメント10(左に曲がります)
が続くので、指標番号3を有するデータベースには後方
遷移値(U)として“I”が記入される。この手順はオ
リジナル・センテンスの第2のセグメント(10)(左
に曲がります)についても同一であり、この場合は指標
番号9が付されているデータベース内で、前方遷移値
(U)には“n”が記入され、後方遷移値(U)には
“空白”が記入される。何故ならば、オリジナル・セン
テンス内のセグメント10(左に曲がります)に先行す
るセグメント10(10メートルで)は“n”で終わ
り、オリジナル・センテンスではセグメント10(左に
曲がります)の後に続くセグメント10はそれ以上ない
からである。
についてこのセグメント10に先行するセグメント10
の最後の文字への遷移値(U)、またはこのセグメント
10の後続のセグメント10の最初の文字への遷移値
(U)の限定性は強制的なものではない。それぞれの遷
移値(U)として個々の文字の代わりに、それぞれ観察
されたセグメント10の先行および後続のセグメント1
0の文字群または音素を使用することも同様に可能であ
る。この場合、特に音素を用いると、図2に記載のデー
タ記録を利用して、オーディオファイルから構成されて
いるメッセージの再生の品質が高くなる。
び2つの遷移値に限定されるものではないことをも指摘
しておく。メッセージの品質を更に高めるために、更に
別の項目12を備えることも同様に可能である。質問文
と感嘆文との間にはイントネーションの差があるので、
句読点を考慮にいれなければ、対応するセンテンスのテ
キスト再生は同一であるものの、図2に示すデータベー
ス11には別の項目12としてコラムを備え、そこには
それぞれのセグメント10または検索基準が質問文また
は感嘆文のいずれから派生されたのかを記入することが
できる。これは例えば、それぞれのセグメント10が質
問を提示しているオリジナル・センテンスから派生した
場合には“0”が割当てられ、セグメント10が主題と
して感嘆文を有するオリジナル・センテンスから取り出
された場合には“1”が入力されるようにして編成する
ことができる。質問文および感嘆文の項目に加えて、
(詳細には説明しない)別の実施例では、図2に示した
データベース11の項目12として、イントネーション
の差異をもたらすのに適している更に別の句読点を記録
することができる。
法で区分化され、その結果生じたセグメント10の解析
がなされてしまうと、その結果として、図1に示された
4つのオリジナル・センテンス用の図2に示したデータ
ベース11が生ずる。このデータベース11から、異な
るデータ記録が検索基準を用いてアルファベットの上か
ら順に分類されることが明白である。
ナル・センテンス“100メートル先で左に曲がりま
す”の再構成を、データベース11からのデータ記録を
利用して以下に説明する。
センテンス全体“100メートル先で左に曲がります”
は、対応するセグメント10の検索基準が提示されるフ
ォーマットに変換される。図示した実施例の場合のよう
に、検索基準はオーディオファイルのテキスト再生に対
等し、再生されるべきセンテンスも、それが既にこのフ
ォーマットになっていない限り、前記フォーマットに変
換される。次に、再生することを意図した対応してフォ
ーマット化されたセンテンス“100メートル先で左に
曲がります”と完全に一致する単数または複数の検索基
準がデータベース11内に存在するか否かのテストが行
われる。図2に示されたデータベースに基づいて、これ
は否であるので、再生することを意図したセンテンス
(100メートル先で左に曲がります)の検索ストリン
グは最後の語“曲がります”の分が短縮され、この部分
的なセンテンス“100メートル先で左に”がデータベ
ース11にこの形式で検索基準として現れるか否かが吟
味される。この比較結果もデータベース11の内容によ
り否であることが判明することになるので、再生するこ
とを意図したセンテンスを1語だけ縮小することが繰り
返される。次に、このように縮小されたセンテンス“1
00メートル先で”の部分が検索基準としてデータベー
ス11のデータ記録に出現するか否かの別のテストが行
われる。データベース11の内容により、これは指標3
から6が付されたデータ記録では肯定できる。その結
果、見出された指標3から6が中間記憶される。
部は次に元の順序“左に曲がります”に再び結合され、
このセンテンス成分についてデータベース11の検索基
準と少なくとも1つの対応関係があるか否かの吟味がな
される。この比較で指標9と10を有するデータ記録
が、検索基準が部分センテンス“左に曲がります”と完
全に一致するデータ記録であるものと認識される。これ
らの指標9および10も中間記憶される。これによっ
て、検索ストリングをデータベース11内の検索基準に
よって完全に再生できるので、検索タスクは終了する。
ら、いずれの場合も再生されるべきセンテンスが生み出
される組合わせが形成される。これは図3に、より詳細
に示されている。この例では再生されるべきセンテンス
は指標9と10、および指標3から6までの双方から形
成されるので、一連番号1から8までを付した図3の組
合わせだけが適切である。図3のその他の組合わせはこ
の実施例では重要ではない。
目的だけのためであり、組合わせとともにファイルされ
るものではないことを念のために指摘しておく。
データ、およびデータベース11内の対応する項目12
を判定する際に決定的であった、慣習上再生されるべき
センテンスの遷移値上のデータが、指標が適切な組合わ
せにあるセンテンス部分について長さおよび位置デー
タ、並びにそれぞれの遷移値が中間記憶されることによ
って決定される。この種類の中間記憶は、再生されるべ
きセンテンス“100メートル先で左に曲がります”に
ついて図4に示されており、ここでWの記号は、これが
再生されるべきセンテンス内のセグメントの位置と遷移
値とに関わるものであり、データベース11に記憶され
た値に関わるものではないことを示している。長さデー
タについては、再生されるべきセンテンス、またはその
一部が図2に基づく検索基準と完全に対応するものと判
明した場合は、図2に基づくデータベース11の対応す
るデータ記録内の長さデータが再生されるべきセンテン
スの一部の長さ値と一致するという環境にある故に、指
標3から6、または9および10を有するデータ記録に
入力された値に戻ることができる。
が一旦形成された後は、これらの組合わせの各々につい
て、それぞれの組合わせに含まれるデータベース11内
のセグメント10または検索基準について項目12を利
用して評価測定値Bが算定されることによって、組合わ
せの評価がなされる。評価測定値Bの計算は下記の公式
に基づいて行われる。
であり、fn,iはn番目の項目の関数相関であり、nは
組合わせに含まれるセグメントに割当てられたデータ記
録の個々の項目に付された一連の指標であり、iは組合
わせに含まれるデータ記録、またはセグメントの全ての
指標に付された別の一連の指標である。
記録された全ての項目nについて計算されることは明白
である。公式に組込まれた異なる関数相関に重み付けす
るために、幾つかの関数相関、または全ての関数相関に
さえも重み係数Wnを付与することができる。
いて、関数相関fLi(L)は数値1がそれぞれのデータ
記録i内の項目(長さ)に対応する長さLの値で除算さ
れることによって形成され、いずれの場合も、−ここで
想定されているように−長さの重み係数Wnが1に等し
い限りは、その指標が組合わせに含まれている全てのデ
ータ記録について1未満である値が得られる。より長い
セグメント10は公式の条件に応じてより小さい値fLi
(L)を生ずることは明白である。セグメントがより長
いことで既存のセンテンス・メロディをより活用できる
ので、好適にはこれらのより小さい値を目指すべきであ
る。
生成するために、これは例えば次のようにして、すなわ
ち、重み係数WPが1である場合には、図4の中間記憶
された位置の値PWが、位置の値が一致する場合はゼロ
の値が割当てられ(PW=PAである場合はfPi(P)=
0)、また一致しない場合は例えば1の値が出力される
(PW≠PAである場合はfPi(P)=1)ように、デー
タベース内の対応するデータ記録の位置の値PAと関連
付けられるようにして構成することができる。重み係数
WP を介して1以外の値を設定することができる。
U,i(Ufront)、(fU,i(Urear)も前項と同様にして、
図4の中間記憶された遷移値Ufront,W、Urear,Wが、
一致する場合はゼロが割当てられ、一致しない場合はゼ
ロ以上の値が割当てられるように、データベースからの
対応するデータ記録の遷移値Ufront,D、Urear,Dと関
連付けられるようにして形成することができる。この場
合も、対応する重み係数WUを使用することができる。
その他の係数と等しい遷移値Uの重み付けを生成するた
めに、前方および後方遷移値のための関数相関は有利に
はいずれの場合も0.5である重み係数Uが付与され
る。このように記載している実施例の場合、下記の公式
となる。
つの組合わせの各々についての評価測定値Bの計算をよ
り詳細に示した表が図示されている。この表ではコラム
の見出しは次のような意味である。 一連番号 図3に記載の組合わせの一連番号に対応す
る。 組合わせ 図3に記載の組合わせに対応する。 長さ 図2に記載の検索基準の長さLに対応す
る。 結果I 関数相関fLi(L)=l/長さに対応す
る。 位置W 再生されるべき、また図4に示されている
センテンスのために中間記憶された位置の値Pに対応す
る。 位置A 図2に記載のデータベース11のデータ記
録に関連する位置の項目Pに対応する。 結果II 位置Wと位置Aの間の関数相関fPi(P)
の結果を示す。 前方W 再生されるべきセンテンス用に中間記憶さ
れている、図4に示されている前方遷移値に対応する。 前方A 図2に示されているデータベース11のデ
ータ記録に関連する前方遷移値に対応する。 WU(前方)前方遷移値用の重み係数WUを示す。 結果III 重み係数WUを考慮にいれた前方Wと前方
Aの間の関数相関fU,i(Ufront)の結果を示す。 後方W 再生されるべきセンテンス用に中間記憶さ
れている、図4に示されている後方遷移値に対応する。 後方A 図2に示されているデータベース11のデ
ータ記録に関連する後方遷移値に対応する。 WU(後方)後方遷移値用の重み係数WUを示す。 結果IV 重み係数WUを考慮にいれた後方Wと後方
Aの間の関数相関fU,i(Urear)の結果を示す。 合計 結果IからIVの加算値である。 B 一連番号ごとの合計の加算値である。
に、0.8と4.8の間にあるBの値が現れることが明
白である。加えて、図5に記載の表から、ダブルBの値
も存在することが分かる。好適には前記の公式に基づい
た評価の後に図3に記載の組合わせが全ての組合わせの
最小のBの値を有しているオーディオファイルだけが音
声による再生用のデータベース11のデータ記録から組
合わされるべきであるので、図5に記載の表に基づき出
現する全てのBの値が0.8以上であるということは重
要ではない。しかし、これらの組合わせ中、Bの値は約
0.8であり、したがって最小のBの値を表しているの
で、前記の重要ではないことが図5に記載の一連番号1
と5の組合わせにも該当するものではない。加えて、
(図2に記載の)一連番号1と5に基づく組合わせを形
成するために使用されるデータ記録3と5は等しい。し
かし、図2に記載のデータベースはそれが最終的に完成
する前に最適化されるので、この種類の状況が実際に発
生することはまずあり得ない。このような最適化は、デ
ータベースがコンパイルされた後、個々のセグメントの
データ記録が比較されて、全ての項目で、言い換える
と、前述の実施例の場合は、同じ検索基準、長さデー
タ、位置データ、および遷移値を有している項目と一致
するデータ記録が存在するか否かを確認することによっ
て実行される。このことが確認された場合は、重複した
データ記録は削除される。したがって、重複したデータ
記録はその評価に関して同一であるので、関連する品質
ロスはない。
3と5を有するデータ記録は重複しているものとして特
徴付けられ、その他の慣行に従って最小の指標番号を有
するデータ記録だけがデータベースに残される。図4の
指標5を有するデータ記録を削除した結果、一連番号5
と6を有する組合わせがそれ以上出現することはない。
その結果、一連番号5と6も図5に示した表から消滅
し、したがって、これらの組合せについてBの値は計算
されず、組合わせ3/9(一連番号1)が最小のBの値
を有する組合せとして確定される。
せの評価がなされた後で、等しいBの値が計算された場
合でも、規定によって例えばこのような場合に最初に見
出された組合せだけが用いられることが指定されている
ことで、問題の発生は防止される。
Bの値を有しているかが確認されると、対応するオーデ
ィオファイルが構成され、含まれている指標を利用して
出力される。前述の実施例で組合せ3/9が最小のBの
値を有する組合せであることが明らかになると、対応す
るオーディオファイル(ファイル3およびファイル9)
が組合わされ、出力される。
のデータベース11内に記憶される必要はないことを念
のために指摘しておく。別のサイトで充填されたオーデ
ィオファイルへの対応する参照基準がデータベース11
に存在すればそれで充分である。
“100メートル先で左に曲がります”である。このセ
ンテンスがテキスト・ストリングとして受信されると、
先ずこのセンテンスの少なくとも始まりが図2に記載の
表内の検索基準と一致するか否かのテストが行われる。
このテストで、図2に記載の表は終端から、すなわち最
後の項目から始まる。この場合は、これは指標10を付
したデータ記録となろう。このテスト中、指標6を有す
る項目“100メートル先で”が見出される。見出され
た項目“100メートル先で”は再生されるセンテンス
を完全にはカバーできないので、見出されたばかりのデ
ータ記録の検索基準によってカバーされない部分は除去
される。加えて、指標6を付したデータ記録が中間記憶
される。
部分“左に曲がります”が図2の表に記載の検索基準に
存在するか否かのテストが行われる。この検索でも図2
に記載の表が下から上へと検索される。この検索で−自
明であるように−指標10を有する項目“左に曲がりま
す”が即座に見出される。次に、見出されたばかりの指
標10を付したデータ記録が複写され、指標6を付した
データ記録と共に中間記憶される。前述したように、見
出されたセンテンスの部分が次に検索ストリングから除
去され、妥当である場合は、検索が再開される。しか
し、この辞典では除去された部分にはもはや内容がない
ので、このことは指標6および10を付した検索基準の
組合わせは、再生されるべきセンテンスを完全に備えた
組合せであることを意味している。
ンテンスの部分“左に曲がります”の検索が継続され、
これは図2に記載の表の終端で開始されるのではなく、
最後の対応関係(この場合は指標10を付したデータ記
録)が見出されたポイントの後で開始される。その結
果、指標9を付した項目が見出される。指標9を付した
データ記録が見出された後、この場合も指標6を付した
〔データ記録〕が複写され、可能な中間的な方法とし
て、見出された指標9を付したデータ記録と共に中間記
憶される。次に、見出された部分“左に曲がります”が
検索ストリングから除去され、残りの部分の検索が開始
される。“左に曲がります”の部分が除去されると、検
索ストリングはもはや内容を有していないので、再生さ
れるべきセンテンスを完全にカバーする組合わせとして
指標の組合わせ6、9が記入される。
されるセンテンス“左に曲がります”の部分の検索が継
続され、この場合も図2に記載の表の終端から開始され
るのではなく、最後の項目(この場合は指標9を付した
データ記録)が見出されたポイントの後から開始され
る。その結果、検索中に常に探しているのはそれぞれの
検索ストリングの始端が検索基準に含まれているか否か
であるので、指標8を付した項目“左に”が見出され
る。
可能な部分的な解決方法として中間記憶される。
去と、検索ストリング内の鋸さている部分“曲がりま
す”の更なる検索が再び行われる。この検索の結果、次
に指標2を付した項目が見出される。次に、部分的な解
決方法として最前のステップで中間記憶された組合わせ
6、8が再び複写され、更なる部分的な解決方法として
指標2を付したデータ記録と共に、中間記憶される。検
索ストリングが再び空であるので、指標6、8、2を付
したデータ記録が再生されるべきセンテンスを完全に再
生する組合わせとして記憶される。次に、先行のステッ
プに戻り、検索ストリング“曲がります”に対応するか
否かの検索が継続され、この場合も項目の検索は最前の
対応関係(この場合は指標2を付したデータ記録)が見
出された箇所で開始される。ここで指標1を付したデー
タ記録が見出され、その結果、指標6、8、1を付した
データ記録の組合わせが再生されるべきセンテンスを完
全に再生する組合わせとして記憶される。
の対応関係の検索が継続され、この場合も項目の検索は
最前の対応関係(この場合は指標8を付したデータ記
録)が見出された箇所で開始される。その結果、以下の
指標の組合せ6/7/2および6/7/1を見出す際に
記載される基本原理が対応して適用される。
トリング“100メートル先で左に曲がります”での検
索が継続され、この検索は最前に見出された指標6の後
から開始される。前述の基本原理に基づいて再生される
センテンスの全体が解析された後、一連番号1から28
を付して図3に示した全ての組合せが見出される。その
結果、明白であるように、図5に記載した表が対応して
拡張される。
に、有利には前述の基本原理に基づいて再生を完全に解
析すべき場合に、Bの値が例えば所定値、例えば0.9
未満か、これに等しいものと判定された場合は、この解
析は中断される。それによって、再生の品質がロスされ
ることはないが、それはそれぞれの検索ストリングの対
応関係の検索中に、長い検索基準はデータベース11内
で常に最初に見出されるからである。
数、例えば10の組合せが見出された場合は、組合せの
検索が中断されるようにできる。この措置によって、必
要なメモリの容量と、必要なコンピュータの電力を節減
できることは明白である。このような組合せの制限は、
検索が前述の方法に基づいて実行される場合に特に有利
である。その理由は、この検索方法では、より長いセグ
メントが常に最初に見出されるからである。より長いセ
グメントのこのような発見によって、最良の組合せが通
常は最初の組合せで認識され、ひいては品質の損失は生
じないことが保証される。
る。
た表である。
グメントからなる組合せを有する表である。
のデータ記録を示した表である。
Claims (12)
- 【請求項1】 出力されることが意図されたメッセージ
がオーディオファイルとして記憶され、記憶されたオー
ディオファイルから検索基準を利用して選択されたセグ
メント(10)から構成される、オーディオファイルと
して記憶された少なくとも1つのオリジナル・センテン
スのセグメント(10)からなる音声出力用のメッセー
ジを構成する方法であって、前記各セグメント(10)
にはオリジナル・センテンス内の音標プロパティを特徴
付ける少なくとも1つのパラメータ(12)が割当てら
れると共に、前記オリジナル・センテンス内の前記音標
プロバティを特徴付ける個々のセグメント(10)の前
記パラメータ(12)を利用して、メッセージとして出
力される予定の再生センテンスを形成する前記セグメン
ト(10)が音声の自然の流れに基づいて構成されてる
か否かのチェックが行われることを特徴とする方法。 - 【請求項2】 前記各セグメント(10)には前記オリ
ジナル・センテンス内の音標プロパティを特徴付ける幾
つかのパラメータ(12)が割当てられることを特徴と
する請求項1に記載の方法。 - 【請求項3】 前記それぞれのオリジナル・センテンス
内の前記セグメント(10)の音標プロパティを特徴付
ける前記パラメータ(12)として、以下のパラメータ
の少なくとも1つ、すなわち、 前記それぞれのセグメント(10)の長さ(L)、 前記オリジナル・センテンス内の前記それぞれのセグメ
ント(10)の位置(P)、 前記それぞれのセグメント(10)の、前記オリジナル
・センテンス内の先行の、または後続のセグメント(1
0)への前方および/または後方遷移値(U)、 が用いられることを特徴とする請求項1または2に記載
の方法。 - 【請求項4】 各ケースで割当てられる検索基準の前記
長さが前記それぞれのセグメントの前記長さ(L)とし
て用いられることを特徴とする請求項3に記載の方法。 - 【請求項5】 前記オリジナル・センテンス内の前記先
行の、または後続のセグメント(10)の最後の、また
は最初の文字、音節、または音標が前記遷移値(U)と
して用いられることを特徴とする請求項3または4に記
載の方法。 - 【請求項6】 更に別のパラメータ(12)として、前
記オリジナル・センテンス内の前記それぞれのセグメン
ト(10)が質問文または感嘆文から派生されたものか
否かについてのデータが備えられることを特徴とする前
記請求項の一つに記載の方法。 - 【請求項7】 メッセージとして出力される予定の前記
再生センテンスを形成する前記セグメント(10)の見
出された組合わせごとに、下記の公式 【数1】 に基づいて前記オリジナル・センテンス内の前記音標プ
ロパティを特徴付ける前記個々のセグメント(10)の
前記パラメータ(12)から評価測定値(B)が計算さ
れることを特徴とし、但し、fn,i(n)はn 番目のパラ
メータの関数相関であり、iはセグメント(10)を示
す指標であり、Wnはn番目のパラメータの関数相関の
重み係数である前記請求項の一つに記載の方法。 - 【請求項8】 メッセージとして出力される予定の前記
再生センテンスを形成する前記セグメント(10)の各
々の見出された組合わせごとに、前記評価測定値(B)
が計算され、その評価測定値(B)が、前記組合わせの
前記セグメント(10)が音声の自然の流れに従って構
成されていることを示している組合わせが、再生される
べきメッセージとして前記セグメント(10)の前記見
出された組合わせから選択されることを特徴とする請求
項7に記載の方法。 - 【請求項9】 前記評価測定値(B)が少なくとも下記
のパラメータ、すなわち前記セグメント(10)の長さ
(L)および位置(P)、並びに以下の公式、すなわち 【数2】 に基づく前方および後方遷移値(Ufront, Urear)の関
数相関fn(n) から計算されることを特徴とする請求項
7または8に記載の方法。 - 【請求項10】 前記再生センテンスは検索基準に対応
するフォーマットのセンテンスであり、探索基準および
伝送される再生センテンス用には好適には英数字ストリ
ングが用いられることを特徴とする前記請求項の一つに
記載の方法。 - 【請求項11】 前記探索基準はデケータベース(1
1)内に階層的に配列されていることを特徴とする前記
請求項の一つに記載の方法。 - 【請求項12】 オーディオファイルとして記憶されて
いるメッセージ用の前記セグメント(10)の選択のた
めに、メッセージとして望まれる前記再生センテンスの
全体が、割当られたオーディオファイルと共にデータベ
ース(11)内にファイルされた検索基準と一致するか
否かのテストが行われ、一致しない場合は、前記それぞ
れの再生センテンスの端部が縮小され、その後、前記再
生センテンスの残りの部分について単数または複数の一
致が発見されるまで、前記データベース(11)内にフ
ァイルされている検索基準との一致がチェックされ、 前記のチェックが先行ステップで除去された前記再生セ
ンテンスの部分に関して継続され、 検索基準が前記再生センテンスと完全に一致している前
記セグメント(10)の各組合わせについて、メッセー
ジとして出力される予定の前記再生センテンスを形成す
る前記セグメント(10)が会話の自然な流れに従って
構成されているか否かのチェックが行われると共に、 望ましいメッセージの再生のために、その組合わせが音
声の自然な流れに最も近い前記セグメント(10)のオ
ーディオファイルが使用されることを特徴とする前記請
求項の一つに記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10031008.7 | 2000-06-30 | ||
DE10031008A DE10031008A1 (de) | 2000-06-30 | 2000-06-30 | Verfahren zum Zusammensetzen von Sätzen zur Sprachausgabe |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002055692A true JP2002055692A (ja) | 2002-02-20 |
Family
ID=7646792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001199251A Pending JP2002055692A (ja) | 2000-06-30 | 2001-06-29 | 音声出力のためのメッセージの構成方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6757653B2 (ja) |
EP (1) | EP1168298B1 (ja) |
JP (1) | JP2002055692A (ja) |
AT (1) | ATE347160T1 (ja) |
DE (2) | DE10031008A1 (ja) |
Families Citing this family (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8036894B2 (en) * | 2006-02-16 | 2011-10-11 | Apple Inc. | Multi-unit approach to text-to-speech synthesis |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8027837B2 (en) * | 2006-09-15 | 2011-09-27 | Apple Inc. | Using non-speech sounds during text-to-speech synthesis |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9372902B2 (en) * | 2011-09-23 | 2016-06-21 | International Business Machines Corporation | Accessing and editing virtually-indexed message flows using structured query langauge (SQL) |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049193A (ja) * | 1996-05-15 | 1998-02-20 | A T R Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
JPH1097268A (ja) * | 1996-09-24 | 1998-04-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JPH10161847A (ja) * | 1996-11-28 | 1998-06-19 | Mitsubishi Electric Corp | 文章データ音声変換システム |
JPH11305787A (ja) * | 1998-04-22 | 1999-11-05 | Victor Co Of Japan Ltd | 音声合成装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3797037A (en) * | 1972-06-06 | 1974-03-12 | Ibm | Sentence oriented dictation system featuring random accessing of information in a preferred sequence under control of stored codes |
DE3104551C2 (de) * | 1981-02-10 | 1982-10-21 | Neumann Elektronik GmbH, 4330 Mülheim | Elektronischer Textgeber zur Abgabe von Kurztexten |
DE3642929A1 (de) * | 1986-12-16 | 1988-06-23 | Siemens Ag | Verfahren zur natuerlich klingenden sprachausgabe |
US4908867A (en) * | 1987-11-19 | 1990-03-13 | British Telecommunications Public Limited Company | Speech synthesis |
JPH0477962A (ja) * | 1990-07-19 | 1992-03-12 | Sanyo Electric Co Ltd | 機械翻訳装置 |
CA2051135C (en) * | 1991-09-11 | 1996-05-07 | Kim D. Letkeman | Compressed language dictionary |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5664060A (en) * | 1994-01-25 | 1997-09-02 | Information Storage Devices | Message management methods and apparatus |
DE19518504C2 (de) * | 1994-10-26 | 1998-08-20 | United Microelectronics Corp | Dynamisch programmierbare Ansage-Einrichtung |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
US5832434A (en) * | 1995-05-26 | 1998-11-03 | Apple Computer, Inc. | Method and apparatus for automatic assignment of duration values for synthetic speech |
JPH1138989A (ja) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | 音声合成装置及び方法 |
US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
JPH1195796A (ja) * | 1997-09-16 | 1999-04-09 | Toshiba Corp | 音声合成方法 |
US6047255A (en) * | 1997-12-04 | 2000-04-04 | Nortel Networks Corporation | Method and system for producing speech signals |
US6266637B1 (en) * | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
-
2000
- 2000-06-30 DE DE10031008A patent/DE10031008A1/de not_active Withdrawn
-
2001
- 2001-06-20 DE DE50111522T patent/DE50111522D1/de not_active Expired - Lifetime
- 2001-06-20 EP EP01114995A patent/EP1168298B1/de not_active Expired - Lifetime
- 2001-06-20 AT AT01114995T patent/ATE347160T1/de not_active IP Right Cessation
- 2001-06-28 US US09/894,961 patent/US6757653B2/en not_active Expired - Lifetime
- 2001-06-29 JP JP2001199251A patent/JP2002055692A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049193A (ja) * | 1996-05-15 | 1998-02-20 | A T R Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
JPH1097268A (ja) * | 1996-09-24 | 1998-04-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JPH10161847A (ja) * | 1996-11-28 | 1998-06-19 | Mitsubishi Electric Corp | 文章データ音声変換システム |
JPH11305787A (ja) * | 1998-04-22 | 1999-11-05 | Victor Co Of Japan Ltd | 音声合成装置 |
Also Published As
Publication number | Publication date |
---|---|
US6757653B2 (en) | 2004-06-29 |
EP1168298B1 (de) | 2006-11-29 |
US20020029139A1 (en) | 2002-03-07 |
EP1168298A3 (de) | 2002-12-11 |
EP1168298A2 (de) | 2002-01-02 |
ATE347160T1 (de) | 2006-12-15 |
DE50111522D1 (de) | 2007-01-11 |
DE10031008A1 (de) | 2002-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002055692A (ja) | 音声出力のためのメッセージの構成方法 | |
CN100371926C (zh) | 通过响应输入语句而输出应答语句的交互对话装置和方法 | |
US6961704B1 (en) | Linguistic prosodic model-based text to speech | |
US10453442B2 (en) | Methods employing phase state analysis for use in speech synthesis and recognition | |
US9418152B2 (en) | System and method for flexible speech to text search mechanism | |
US7124083B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
JP5697860B2 (ja) | 情報検索装置,情報検索方法及びナビゲーションシステム | |
US8036894B2 (en) | Multi-unit approach to text-to-speech synthesis | |
US7260533B2 (en) | Text-to-speech conversion system | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
CN101236743B (zh) | 生成高质量话音的系统和方法 | |
US6845358B2 (en) | Prosody template matching for text-to-speech systems | |
US8719027B2 (en) | Name synthesis | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
US20030154081A1 (en) | Objective measure for estimating mean opinion score of synthesized speech | |
JP6794990B2 (ja) | 楽曲検索方法および楽曲検索装置 | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
JPH1115468A (ja) | 楽曲検索方法、楽曲検索装置、楽曲検索システム、及び記録媒体 | |
US8655664B2 (en) | Text presentation apparatus, text presentation method, and computer program product | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP4409279B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP5098932B2 (ja) | 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム | |
JP3571925B2 (ja) | 音声情報処理装置 | |
JP5155836B2 (ja) | 収録テキスト生成装置、その方法、そのプログラム | |
JP4882569B2 (ja) | 音声合成装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080408 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20080408 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090318 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111101 |