JP2002055692A - 音声出力のためのメッセージの構成方法 - Google Patents

音声出力のためのメッセージの構成方法

Info

Publication number
JP2002055692A
JP2002055692A JP2001199251A JP2001199251A JP2002055692A JP 2002055692 A JP2002055692 A JP 2002055692A JP 2001199251 A JP2001199251 A JP 2001199251A JP 2001199251 A JP2001199251 A JP 2001199251A JP 2002055692 A JP2002055692 A JP 2002055692A
Authority
JP
Japan
Prior art keywords
sentence
segment
message
segments
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001199251A
Other languages
English (en)
Inventor
Peter Buth
ブツ ペテル
Simona Grothues
グロスエス シモナ
Amir Iman
イマン アミール
Wolfgang Theimer
テイメル ボルフガンク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Mobile Phones Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Mobile Phones Ltd filed Critical Nokia Mobile Phones Ltd
Publication of JP2002055692A publication Critical patent/JP2002055692A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Electric Clocks (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 メッセージの音声出力の再生の質の向上を図
る。 【解決手段】 メッセージの一連のオリジナル・センテ
ンス(10)がセグメント化されてデータベース(1
1)内の検索基準と共にオーディオファイルの形式で記
憶され、セグメント(10)毎に長さ、位置、および遷
移値が記録されるように、更に別の項目(12)がセグ
メント(10)上に作成される。センテンスを再生する
場合は、検索基準のフォーマットに対応するフォーマッ
トで伝送され、再生されるべきセンテンスがセグメント
(10)により完全に再生可能かの調査が行われ、再生
可能の場合、項目(12)を利用して、個々のセグメン
トが音声のリズムに関してどの程度整合しているか吟味
され、音声の自然のリズムを最適に保持するための必要
条件を呈するセグメント(10)のオーディオファイル
が組合わされて再生出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声出力のために
メッセージを構成する方法に関し、特にこの種の音声出
力の再生の質の向上に関する。
【0002】
【従来の技術】従来のシステムでは、音声出力を実施す
るためにデータベースから対応する項目が呼び出される
ことが公知である。詳細には、これは例えば、特定の数
の異なるメッセージ、言い換えると、特定の数の異なる
センテンス、コマンド、ユーザー要求、言葉のあや、フ
レーズまたはその類似物がメモリ内にファイルされ、フ
ァイルされたメッセージへの要求に基づいて、これがメ
モリから読み出され、再生されることによって実行でき
る。この種類の配置は、予め完全に記憶されたメッセー
ジだけを再生可能であるので、極めてフレキシブルでは
ないことは明白である。
【0003】したがって、メッセージをセグメントに分
割し、これらを対応するオーディオファイルとして記憶
しておくような切換えがなされてきた。メッセージを出
力するべき場合は、セグメントから望まれるメッセージ
を再構成する必要がある。従来技術では、このことは、
形成されるべきメッセージ向けに対応する命令だけがメ
ッセージに関連する順序でセグメントに伝送されること
によって実施される。これらの命令によって対応するオ
ーディオファイルがメモリから読み出され、出力のため
に合体される。センテンスまたはセンテンスの一部を形
成するためのこの方法の特徴は、記憶容量の必要性が少
なくフレキシビリティが高いことにある。しかし、この
方法では音声の自然な流れが考慮なされていないので、
この方法によってコンパイルされた再生が極めて合成的
に聞こえるという欠点がある。
【0004】
【発明が解決しようとする課題】この発明の目的は、音
声の自然な流れを考慮に入れ、ひいては調和のとれた再
生結果をもたらす、セグメントからメッセージを形成す
る方法を開示することにある。
【0005】
【課題を解決するための手段】上記の目的は、請求項1
に記載の方法によって達成される。有利な実施形態およ
びその他の実施形態は従属クレームに記載されている。
【0006】したがって、この発明に基づいて、出力さ
れることが意図されたメッセージがオーディオファイル
として記憶され、記憶されたオーディオファイルから検
索基準を利用して選択されたセグメントから構成され
る、オーディオファイルとして記憶された少なくとも1
つのオリジナル・センテンスのセグメントからなる音声
出力用のメッセージを構成する方法で、全てのセグメン
トにはオリジナル・センテンス内の音標プロパティを特
徴付ける少なくとも1つのパラメータが割当てられると
共に、オリジナル・センテンス内の音標プロバティを特
徴付ける個々のセグメントのパラメータを利用して、メ
ッセージとして出力される予定の再生センテンスを形成
するセグメントが音声の自然の流れに基づいて構成され
ているか否かのチェックが行われる。このようにして、
メッセージ自体を完全に記憶することなく、音声を再生
する際にメッセージの音声の自然な流れとリズムが大幅
に再構成される。
【0007】更に自然なメッセージを得るために、全て
のセグメントにはオリジナル・センテンス内の音標プロ
パティを特徴付ける幾つかのパラメータが割当てられ、
パラメータは好適には以下のパラメータから選択でき
る。すなわち、それぞれのセグメントの長さ(L)、オ
リジナル・センテンス内の前記それぞれのセグメントの
位置、それぞれのセグメントの、オリジナル・センテン
ス内の先行の、または後続のセグメントへの前方および
/または後方遷移値であり、各ケースで割当てられる検
索基準の長さが更に、それぞれのセグメントの長さとし
て用いられる。
【0008】特に良好な結果を達成するため、この発明
の有利な別の実施形態では、オリジナル・センテンス内
の先行の、または後続のセグメントの最後の、または最
初の文字、音節、または音標が遷移値として用いられ
る。遷移値として音素が用いられれば、オーディオファ
イルから構成される再生センテンスの特に高品質の再生
を達成できる。
【0009】センテンス・メロディはセンテンスの種類
によって大きく左右されるので、更に別のパラメータと
してオリジナル・センテンスのそれぞれのセグメントが
質問文または感嘆文から派生したものであるか否かのデ
ータが備えられれば、再生の向上が更に達成される。
【0010】この発明の有利な別の実施形態の特徴は、
メッセージとして出力される予定の再生センテンスを形
成するセグメント)の見出された組合わせごとに、下記
の公式
【数3】 に基づいてオリジナル・センテンス内の音標プロパティ
を特徴付ける個々のセグメントのパラメータから評価測
定値が計算され、但し、fn,i(n)はn番目のパラメー
タの関数相関であり、iはセグメントを示す指標であ
り、Wnはn番目のパラメータの関数相関の重み係数で
ある。例えばパラメータ自体、その逆数値、または記憶
されたセグメントに割当てられたパラメータの値と、メ
ッセージのための組合わせのセグメントに割当てられる
パラメータとの一致を、パラメータの関数相関として備
えることができる。その中の重み係数によって評価測定
値を決定する際に好みを極めて僅かしか排除しなくても
済む。
【0011】セグメントの見出された組合わせからの評
価測定値に従って、その評価測定値が、組合わせのセグ
メントが音声の自然の流れに従って構成されていること
を示している組合わせが、出力されるべきメッセージと
して選択される。
【0012】この発明の別の構成では、評価測定値Bが
少なくとも下記のパラメータ、すなわちセグメントの長
さL、および位置P、並びに以下の公式、すなわち
【数4】 に基づく前方および後方遷移値(Ufront, Urear)の
関数相関fn(n)から計算される。
【0013】再生センテンスが検索基準に対応するフォ
ーマットセンテンスであり、探索基準および伝送される
再生センテンス用に好適には英数字ストリングが用いら
れば、評価は特に簡単になる。
【0014】データベース内での迅速な検索を達成する
ために、探索基準がデータベース内に階層的に構成され
ていれば有利である。
【0015】メッセージとして望まれる再生センテンス
の全体が、割当られたオーディオファイルと共にデータ
ベース内にファイルされた検索基準と一致するか否かの
テストが行われ、一致しない場合は、それぞれの再生セ
ンテンスの端部が縮小され、その後、再生センテンスの
残りの部分について単数または複数の一致が発見される
まで、データベース内にファイルされている検索基準と
の一致がチェックされ、前述のチェックが先行ステップ
で除去された再生センテンスの部分に関して継続され、
検索基準が再生センテンスと完全に一致しているセグメ
ントの各組合わせについて、メッセージとして出力され
る予定の再生センテンスを形成するセグメントが会話の
自然な流れに従って構成されているか否かのチェックが
行われ、望ましいメッセージの再生のために、その組合
わせが音声の自然な流れに最も近いセグメントのオーデ
ィオファイルが使用されれば、メッセージ用のセグメン
トの選択は特に簡単になる。
【0016】したがって、全てのセグメントについて検
索基準を伴う少なくとも1つのデータ記録、オーディオ
ファイル、およびオリジナル・センテンス内の音標プロ
パティを特徴付ける少なくとも1つのパラメータ、言い
換えるとそれぞれのセグメント上の追加情報がファイル
されたことが一旦確認されると、このようにして編集さ
れたデータ記録を利用してセグメントの組合わせを極め
て簡単にコンパイルすることができ、その再生は対応す
るメッセージの音声による再生ともはや区別できなくな
る。この効果は、メッセージの出力前に、言い換えると
センテンス、センテンスの一部、要求、コマンド、フレ
ーズまたはその類似物の再生前に、データベース内部で
望ましいメッセージの対応する組合わせをそこから形成
できるセグメントの検索が行われ、かつ、用いられる全
てのセグメント上の情報を利用して、音声の自然な流れ
に対する組合わせの近似を記述する単数または複数のセ
グメントからなる全ての見出された組合わせの評価を実
施することによって達成される。コンパイルされた組合
わせの評価が完了すると、音声の自然な流れに最も近づ
いたセグメントの組合わせがメッセージ用に選択され
る。
【0017】
【発明の実施の形態】次にこの発明の実施例を添付図面
を参照してより詳細に説明する。
【0018】図1には音声出力装置によって要求に応じ
てメッセージとして再生可能である4つのオリジナル・
センテンスのリストを示しており、これらのオリジナル
・センテンスの各々は垂直の線によって2つ、またはそ
れ以上のセグメント10に区分されている。これらの4
つのオリジナル・センテンスの各々は同じ意味内容を有
しており、順序を無視するならば−使用されている文字
と数字には相違はないものの、音響的に再生した場合は
個々のオリジナル・センテンスの間には顕著な相違が明
らかである。その理由は、個々のセンテンス構造内の語
または語群の配置に応じて、異なるイントネーションが
発せられるという事実による。例えば、メッセージとし
て“100メートル先で左に曲がります”(ドイツ語)
というセンテンスを再生すべき場合、また、これを再生
するためにセグメント10.1と10.2ではなくセグ
メント10.4と10.3とが用いられる場合は、音声
の自然な流れに対応する調和した再生はなされない。
【0019】この発明の知識を持たずに、リスト(図
1)に示された4つのオリジナル・センテンスのうちの
特定のセンテンスに特有なイントネーションを保持した
い場合は、これらのオリジナル・センテンスの各々の全
体をオーディオファイルとしてファイルすることが必要
である。それによって必要なメモリの容量は著しく大き
くなることは明白である。
【0020】必要なメモリの容量を拡張することを避
け、しかも同時に音声の自然な流れに対応する調和のと
れた再生結果を確実に生ずるために、オリジナルに発音
された形式で一連のセンテンスを解析することが必要で
ある。ここで図1に示したオリジナル・センテンスを用
いて、以下に一連の例としてこの種類の解析を行う。
【0021】最初に、メッセージ用の異なるセンテンス
が発音され、スピーカによっていわゆるオリジナル・セ
ンテンスとして録音される。
【0022】次に、前記のようにして録音されたオリジ
ナル・センテンスがセグメント10に区分され、これら
のセグメント10の各々がオーディオファイル内にファ
イルされる。
【0023】加えて、各々のオリジナル・センテンスに
検索基準群が割当てられる。この検索基準群はオリジナ
ル・センテンスの区分化( セグメンテーション) に従っ
て区分され、各々のセグメント10には1つの検索基準
が割当てられる。オーディオファイルと検索基準の相互
の割当ては図2により詳細に示すデータベースで行われ
る。この実施例のこのデータベース11から明らかであ
るように、検索基準として英数字ストリングが用いら
れ、検索基準として用いられる文字ストリングはオーデ
ィオファイルとしてファイルされた割当て済みのセグメ
ント10のテキスト再生に対応している。検索基準とし
て用いられる文字または一連の文字がそのテキスト内容
が同一であるいずれかのセグメント10を同一に特徴付
けていることが確実である限りは、必ずしも前述の文字
ストリングも英数字も検索基準として使用する必要はな
いことを念のために指摘しておく必要がある。例えば、
各セグメントにセグメント識別番号を割当てることも考
えられる。
【0024】更に図2の図面から明らかであるように、
データベース11には更に別の記入項目12がある。コ
ラムの見出しにあるようにこれらの項目12はそれぞれ
のセグメントの長さ(L)と、センテンス内でのその位
置Pと、2つの接続サウンド、すなわち遷移値(U
front, Urear)である。
【0025】ここで、これらの項目12を獲得する方法
を以下に説明する。
【0026】オリジナル・センテンスが一旦区分化され
ると、例えば各々の検索基準ごとに割当てられたセグメ
ント10の語数を計算することによって、長さ(L)に
関するそれぞれの項目12が獲得される。この実施例で
は、割当てられた検索基準内の語をそのために編入(enl
ist)することができる。その結果、検索基準“曲がりま
す”(“ターン”)にオーディオファイルまたはセグメ
ント10の長さ値1が割当てられ、一方、検索基準“1
00メートル先で”(イン100メートル”)には、数
列“100”が語とみなされるので長さ値3が割当てら
れる。流れ情報を得るために、検索基準に含まれる語は
必ずしも編入される必要がないことを念のために指摘し
ておく。その代わりに、(更には図示しない)別の実施
例では、それぞれの検索基準に含まれる文字数を利用す
ることができる。それによって、例えば検索基準“曲が
ります”では、長さ値8が生じ、また検索基準“100
メートル先で”には長さ値13が生ずることになろう。
何故ならば、この検索基準では、空白が語間にあり、ま
た数字が文字として見なされるからである。更に、長さ
値として音節、または音素数を使用することも考えられ
る。
【0027】位置(P)を再生する項目12は、例えば
最初にオリジナル・センテンス当たりのセグメント1
0、または検索基準の数を計算することによって獲得さ
れる。例えば、オリジナル・センテンスが区分化される
と、これが3つのセグメント10に区分され、第1のセ
グメント10には位置の値0が割当てられ、第2のセグ
メント10には位置の値0.5が割当てられ、3つのセ
グメント10のうちの最後のセグメントには位置の値1
が割当てられる。しかし、(図1の最初の2つのオリジ
ナル・センテンスの場合のように)オリジナル・センテ
ンスが2つのセグメント10だけに区分される場合は、
第1のセグメント10には位置の値0が割当てられ、一
方第2と最後のセグメント10には位置の値1が割当て
られる。オリジナル・センテンスが4つのセグメント1
0からなっている場合は、第1のセグメント10の位置
の値は0であり、第2のセグメント10の位置の値は
0.33であり、第3のセグメント10の位置の値は
0.66であり、一方、最後のセグメントには再び位置
の値1が与えられる。
【0028】更に、センテンス内の実際の位置の代わり
に、それぞれのセグメント10がメッセージの最初また
は最後にあるのか、または2つのセグメント10の間に
あるのかを示すだけにすることも可能である。
【0029】本明細書での遷移値(U)の意味は、セグ
メント10または検索基準の先行の、または後続のセグ
メント10に対するセグメント10または検索基準の関
係であるものと理解されたい。それぞれのセグメント1
0についてのこの関係は、この実施例では先行のセグメ
ント10の最後の文字、および後続のセグメント10の
最初の文字に対して生ずる。ここで図1に基づき、最初
のオリジナル・センテンス(100メートル先で左に曲
がります)を利用してより詳細な説明を行う。このオリ
ジナル・センテンスの最初のセグメント10または検索
基準(100メートル先で)には先行のセグメント1
0、または検索基準がないので、このセグメント10に
関連し、かつ指標番号3(図2)を有するデータベース
内に、図面では“−”で示されている項目“空白”が前
方遷移値として記入される。この実施例では遷移値
(U)として1つの文字だけが用いられているので、オ
リジナル・センテンスではセグメント10(100メー
トル先で)の後にはセグメント10(左に曲がります)
が続くので、指標番号3を有するデータベースには後方
遷移値(U)として“I”が記入される。この手順はオ
リジナル・センテンスの第2のセグメント(10)(左
に曲がります)についても同一であり、この場合は指標
番号9が付されているデータベース内で、前方遷移値
(U)には“n”が記入され、後方遷移値(U)には
“空白”が記入される。何故ならば、オリジナル・セン
テンス内のセグメント10(左に曲がります)に先行す
るセグメント10(10メートルで)は“n”で終わ
り、オリジナル・センテンスではセグメント10(左に
曲がります)の後に続くセグメント10はそれ以上ない
からである。
【0030】前項に記した、それぞれのセグメント10
についてこのセグメント10に先行するセグメント10
の最後の文字への遷移値(U)、またはこのセグメント
10の後続のセグメント10の最初の文字への遷移値
(U)の限定性は強制的なものではない。それぞれの遷
移値(U)として個々の文字の代わりに、それぞれ観察
されたセグメント10の先行および後続のセグメント1
0の文字群または音素を使用することも同様に可能であ
る。この場合、特に音素を用いると、図2に記載のデー
タ記録を利用して、オーディオファイルから構成されて
いるメッセージの再生の品質が高くなる。
【0031】図2に示した項目12は長さ、位置、およ
び2つの遷移値に限定されるものではないことをも指摘
しておく。メッセージの品質を更に高めるために、更に
別の項目12を備えることも同様に可能である。質問文
と感嘆文との間にはイントネーションの差があるので、
句読点を考慮にいれなければ、対応するセンテンスのテ
キスト再生は同一であるものの、図2に示すデータベー
ス11には別の項目12としてコラムを備え、そこには
それぞれのセグメント10または検索基準が質問文また
は感嘆文のいずれから派生されたのかを記入することが
できる。これは例えば、それぞれのセグメント10が質
問を提示しているオリジナル・センテンスから派生した
場合には“0”が割当てられ、セグメント10が主題と
して感嘆文を有するオリジナル・センテンスから取り出
された場合には“1”が入力されるようにして編成する
ことができる。質問文および感嘆文の項目に加えて、
(詳細には説明しない)別の実施例では、図2に示した
データベース11の項目12として、イントネーション
の差異をもたらすのに適している更に別の句読点を記録
することができる。
【0032】全てのオリジナル・センテンスが上記の方
法で区分化され、その結果生じたセグメント10の解析
がなされてしまうと、その結果として、図1に示された
4つのオリジナル・センテンス用の図2に示したデータ
ベース11が生ずる。このデータベース11から、異な
るデータ記録が検索基準を用いてアルファベットの上か
ら順に分類されることが明白である。
【0033】図1に示されたリストに提示されたオリジ
ナル・センテンス“100メートル先で左に曲がりま
す”の再構成を、データベース11からのデータ記録を
利用して以下に説明する。
【0034】この目的のため、再生することを意図した
センテンス全体“100メートル先で左に曲がります”
は、対応するセグメント10の検索基準が提示されるフ
ォーマットに変換される。図示した実施例の場合のよう
に、検索基準はオーディオファイルのテキスト再生に対
等し、再生されるべきセンテンスも、それが既にこのフ
ォーマットになっていない限り、前記フォーマットに変
換される。次に、再生することを意図した対応してフォ
ーマット化されたセンテンス“100メートル先で左に
曲がります”と完全に一致する単数または複数の検索基
準がデータベース11内に存在するか否かのテストが行
われる。図2に示されたデータベースに基づいて、これ
は否であるので、再生することを意図したセンテンス
(100メートル先で左に曲がります)の検索ストリン
グは最後の語“曲がります”の分が短縮され、この部分
的なセンテンス“100メートル先で左に”がデータベ
ース11にこの形式で検索基準として現れるか否かが吟
味される。この比較結果もデータベース11の内容によ
り否であることが判明することになるので、再生するこ
とを意図したセンテンスを1語だけ縮小することが繰り
返される。次に、このように縮小されたセンテンス“1
00メートル先で”の部分が検索基準としてデータベー
ス11のデータ記録に出現するか否かの別のテストが行
われる。データベース11の内容により、これは指標3
から6が付されたデータ記録では肯定できる。その結
果、見出された指標3から6が中間記憶される。
【0035】前のステップで除去されたセンテンスの一
部は次に元の順序“左に曲がります”に再び結合され、
このセンテンス成分についてデータベース11の検索基
準と少なくとも1つの対応関係があるか否かの吟味がな
される。この比較で指標9と10を有するデータ記録
が、検索基準が部分センテンス“左に曲がります”と完
全に一致するデータ記録であるものと認識される。これ
らの指標9および10も中間記憶される。これによっ
て、検索ストリングをデータベース11内の検索基準に
よって完全に再生できるので、検索タスクは終了する。
【0036】次に、各々のケースで見出された指標か
ら、いずれの場合も再生されるべきセンテンスが生み出
される組合わせが形成される。これは図3に、より詳細
に示されている。この例では再生されるべきセンテンス
は指標9と10、および指標3から6までの双方から形
成されるので、一連番号1から8までを付した図3の組
合わせだけが適切である。図3のその他の組合わせはこ
の実施例では重要ではない。
【0037】図3ではコラム“テキスト”の内容は説明
目的だけのためであり、組合わせとともにファイルされ
るものではないことを念のために指摘しておく。
【0038】検索タスクが終了すると、長さおよび位置
データ、およびデータベース11内の対応する項目12
を判定する際に決定的であった、慣習上再生されるべき
センテンスの遷移値上のデータが、指標が適切な組合わ
せにあるセンテンス部分について長さおよび位置デー
タ、並びにそれぞれの遷移値が中間記憶されることによ
って決定される。この種類の中間記憶は、再生されるべ
きセンテンス“100メートル先で左に曲がります”に
ついて図4に示されており、ここでWの記号は、これが
再生されるべきセンテンス内のセグメントの位置と遷移
値とに関わるものであり、データベース11に記憶され
た値に関わるものではないことを示している。長さデー
タについては、再生されるべきセンテンス、またはその
一部が図2に基づく検索基準と完全に対応するものと判
明した場合は、図2に基づくデータベース11の対応す
るデータ記録内の長さデータが再生されるべきセンテン
スの一部の長さ値と一致するという環境にある故に、指
標3から6、または9および10を有するデータ記録に
入力された値に戻ることができる。
【0039】図3の一連番号1から8に基づく組合わせ
が一旦形成された後は、これらの組合わせの各々につい
て、それぞれの組合わせに含まれるデータベース11内
のセグメント10または検索基準について項目12を利
用して評価測定値Bが算定されることによって、組合わ
せの評価がなされる。評価測定値Bの計算は下記の公式
に基づいて行われる。
【0040】
【数5】 但し、Wnはn番目のパラメータの関数相関の重み係数
であり、fn,iはn番目の項目の関数相関であり、nは
組合わせに含まれるセグメントに割当てられたデータ記
録の個々の項目に付された一連の指標であり、iは組合
わせに含まれるデータ記録、またはセグメントの全ての
指標に付された別の一連の指標である。
【0041】したがって関数相関fn,i(n)は公式に
記録された全ての項目nについて計算されることは明白
である。公式に組込まれた異なる関数相関に重み付けす
るために、幾つかの関数相関、または全ての関数相関に
さえも重み係数Wnを付与することができる。
【0042】例えば、セグメント10の長さ情報Lにつ
いて、関数相関fLi(L)は数値1がそれぞれのデータ
記録i内の項目(長さ)に対応する長さLの値で除算さ
れることによって形成され、いずれの場合も、−ここで
想定されているように−長さの重み係数Wnが1に等し
い限りは、その指標が組合わせに含まれている全てのデ
ータ記録について1未満である値が得られる。より長い
セグメント10は公式の条件に応じてより小さい値fLi
(L)を生ずることは明白である。セグメントがより長
いことで既存のセンテンス・メロディをより活用できる
ので、好適にはこれらのより小さい値を目指すべきであ
る。
【0043】位置情報Pのための関数相関fPi(P)を
生成するために、これは例えば次のようにして、すなわ
ち、重み係数WPが1である場合には、図4の中間記憶
された位置の値PWが、位置の値が一致する場合はゼロ
の値が割当てられ(PW=PAである場合はfPi(P)=
0)、また一致しない場合は例えば1の値が出力される
(PW≠PAである場合はfPi(P)=1)ように、デー
タベース内の対応するデータ記録の位置の値PAと関連
付けられるようにして構成することができる。重み係数
WP を介して1以外の値を設定することができる。
【0044】遷移値のための関数相関(f
U,i(Ufront)、(fU,i(Urear)も前項と同様にして、
図4の中間記憶された遷移値Ufront,W、Urear,Wが、
一致する場合はゼロが割当てられ、一致しない場合はゼ
ロ以上の値が割当てられるように、データベースからの
対応するデータ記録の遷移値Ufront,D、Urear,Dと関
連付けられるようにして形成することができる。この場
合も、対応する重み係数Wを使用することができる。
その他の係数と等しい遷移値Uの重み付けを生成するた
めに、前方および後方遷移値のための関数相関は有利に
はいずれの場合も0.5である重み係数Uが付与され
る。このように記載している実施例の場合、下記の公式
となる。
【0045】
【数6】
【0046】図5には上記の公式を用いて見出された8
つの組合わせの各々についての評価測定値Bの計算をよ
り詳細に示した表が図示されている。この表ではコラム
の見出しは次のような意味である。 一連番号 図3に記載の組合わせの一連番号に対応す
る。 組合わせ 図3に記載の組合わせに対応する。 長さ 図2に記載の検索基準の長さLに対応す
る。 結果I 関数相関fLi(L)=l/長さに対応す
る。 位置W 再生されるべき、また図4に示されている
センテンスのために中間記憶された位置の値Pに対応す
る。 位置A 図2に記載のデータベース11のデータ記
録に関連する位置の項目Pに対応する。 結果II 位置Wと位置Aの間の関数相関fPi(P)
の結果を示す。 前方W 再生されるべきセンテンス用に中間記憶さ
れている、図4に示されている前方遷移値に対応する。 前方A 図2に示されているデータベース11のデ
ータ記録に関連する前方遷移値に対応する。 WU(前方)前方遷移値用の重み係数Wを示す。 結果III 重み係数WUを考慮にいれた前方Wと前方
Aの間の関数相関fU,i(Ufront)の結果を示す。 後方W 再生されるべきセンテンス用に中間記憶さ
れている、図4に示されている後方遷移値に対応する。 後方A 図2に示されているデータベース11のデ
ータ記録に関連する後方遷移値に対応する。 WU(後方)後方遷移値用の重み係数Wを示す。 結果IV 重み係数WUを考慮にいれた後方Wと後方
Aの間の関数相関fU,i(Urear)の結果を示す。 合計 結果IからIVの加算値である。 B 一連番号ごとの合計の加算値である。
【0047】図5に記載の表から、各々の一連番号ごと
に、0.8と4.8の間にあるBの値が現れることが明
白である。加えて、図5に記載の表から、ダブルBの値
も存在することが分かる。好適には前記の公式に基づい
た評価の後に図3に記載の組合わせが全ての組合わせの
最小のBの値を有しているオーディオファイルだけが音
声による再生用のデータベース11のデータ記録から組
合わされるべきであるので、図5に記載の表に基づき出
現する全てのBの値が0.8以上であるということは重
要ではない。しかし、これらの組合わせ中、Bの値は約
0.8であり、したがって最小のBの値を表しているの
で、前記の重要ではないことが図5に記載の一連番号1
と5の組合わせにも該当するものではない。加えて、
(図2に記載の)一連番号1と5に基づく組合わせを形
成するために使用されるデータ記録3と5は等しい。し
かし、図2に記載のデータベースはそれが最終的に完成
する前に最適化されるので、この種類の状況が実際に発
生することはまずあり得ない。このような最適化は、デ
ータベースがコンパイルされた後、個々のセグメントの
データ記録が比較されて、全ての項目で、言い換える
と、前述の実施例の場合は、同じ検索基準、長さデー
タ、位置データ、および遷移値を有している項目と一致
するデータ記録が存在するか否かを確認することによっ
て実行される。このことが確認された場合は、重複した
データ記録は削除される。したがって、重複したデータ
記録はその評価に関して同一であるので、関連する品質
ロスはない。
【0048】この最適化ステップが実行された後、指標
3と5を有するデータ記録は重複しているものとして特
徴付けられ、その他の慣行に従って最小の指標番号を有
するデータ記録だけがデータベースに残される。図4の
指標5を有するデータ記録を削除した結果、一連番号5
と6を有する組合わせがそれ以上出現することはない。
その結果、一連番号5と6も図5に示した表から消滅
し、したがって、これらの組合せについてBの値は計算
されず、組合わせ3/9(一連番号1)が最小のBの値
を有する組合せとして確定される。
【0049】しかし、最適化ステップの後、また組合わ
せの評価がなされた後で、等しいBの値が計算された場
合でも、規定によって例えばこのような場合に最初に見
出された組合せだけが用いられることが指定されている
ことで、問題の発生は防止される。
【0050】評価がなされた後で、どの組合せが最小の
Bの値を有しているかが確認されると、対応するオーデ
ィオファイルが構成され、含まれている指標を利用して
出力される。前述の実施例で組合せ3/9が最小のBの
値を有する組合せであることが明らかになると、対応す
るオーディオファイル(ファイル3およびファイル9)
が組合わされ、出力される。
【0051】オーディオファイルは必ずしも図2に記載
のデータベース11内に記憶される必要はないことを念
のために指摘しておく。別のサイトで充填されたオーデ
ィオファイルへの対応する参照基準がデータベース11
に存在すればそれで充分である。
【0052】次に別の種類の検索を以下に説明する。
【0053】この例の開始点も再生されるセンテンス
“100メートル先で左に曲がります”である。このセ
ンテンスがテキスト・ストリングとして受信されると、
先ずこのセンテンスの少なくとも始まりが図2に記載の
表内の検索基準と一致するか否かのテストが行われる。
このテストで、図2に記載の表は終端から、すなわち最
後の項目から始まる。この場合は、これは指標10を付
したデータ記録となろう。このテスト中、指標6を有す
る項目“100メートル先で”が見出される。見出され
た項目“100メートル先で”は再生されるセンテンス
を完全にはカバーできないので、見出されたばかりのデ
ータ記録の検索基準によってカバーされない部分は除去
される。加えて、指標6を付したデータ記録が中間記憶
される。
【0054】次に、再生されるセンテンスの除去された
部分“左に曲がります”が図2の表に記載の検索基準に
存在するか否かのテストが行われる。この検索でも図2
に記載の表が下から上へと検索される。この検索で−自
明であるように−指標10を有する項目“左に曲がりま
す”が即座に見出される。次に、見出されたばかりの指
標10を付したデータ記録が複写され、指標6を付した
データ記録と共に中間記憶される。前述したように、見
出されたセンテンスの部分が次に検索ストリングから除
去され、妥当である場合は、検索が再開される。しか
し、この辞典では除去された部分にはもはや内容がない
ので、このことは指標6および10を付した検索基準の
組合わせは、再生されるべきセンテンスを完全に備えた
組合せであることを意味している。
【0055】このような状況が生ずると、再生されるセ
ンテンスの部分“左に曲がります”の検索が継続され、
これは図2に記載の表の終端で開始されるのではなく、
最後の対応関係(この場合は指標10を付したデータ記
録)が見出されたポイントの後で開始される。その結
果、指標9を付した項目が見出される。指標9を付した
データ記録が見出された後、この場合も指標6を付した
〔データ記録〕が複写され、可能な中間的な方法とし
て、見出された指標9を付したデータ記録と共に中間記
憶される。次に、見出された部分“左に曲がります”が
検索ストリングから除去され、残りの部分の検索が開始
される。“左に曲がります”の部分が除去されると、検
索ストリングはもはや内容を有していないので、再生さ
れるべきセンテンスを完全にカバーする組合わせとして
指標の組合わせ6、9が記入される。
【0056】このように完全にカバーされる結果、再生
されるセンテンス“左に曲がります”の部分の検索が継
続され、この場合も図2に記載の表の終端から開始され
るのではなく、最後の項目(この場合は指標9を付した
データ記録)が見出されたポイントの後から開始され
る。その結果、検索中に常に探しているのはそれぞれの
検索ストリングの始端が検索基準に含まれているか否か
であるので、指標8を付した項目“左に”が見出され
る。
【0057】次に指標6と指標8を付したデータ記録が
可能な部分的な解決方法として中間記憶される。
【0058】引き続いて、見出された部分“左に”の除
去と、検索ストリング内の鋸さている部分“曲がりま
す”の更なる検索が再び行われる。この検索の結果、次
に指標2を付した項目が見出される。次に、部分的な解
決方法として最前のステップで中間記憶された組合わせ
6、8が再び複写され、更なる部分的な解決方法として
指標2を付したデータ記録と共に、中間記憶される。検
索ストリングが再び空であるので、指標6、8、2を付
したデータ記録が再生されるべきセンテンスを完全に再
生する組合わせとして記憶される。次に、先行のステッ
プに戻り、検索ストリング“曲がります”に対応するか
否かの検索が継続され、この場合も項目の検索は最前の
対応関係(この場合は指標2を付したデータ記録)が見
出された箇所で開始される。ここで指標1を付したデー
タ記録が見出され、その結果、指標6、8、1を付した
データ記録の組合わせが再生されるべきセンテンスを完
全に再生する組合わせとして記憶される。
【0059】次に、探索ストリング“左に曲がります”
の対応関係の検索が継続され、この場合も項目の検索は
最前の対応関係(この場合は指標8を付したデータ記
録)が見出された箇所で開始される。その結果、以下の
指標の組合せ6/7/2および6/7/1を見出す際に
記載される基本原理が対応して適用される。
【0060】組合せ6/7/1が見出された後、検索ス
トリング“100メートル先で左に曲がります”での検
索が継続され、この検索は最前に見出された指標6の後
から開始される。前述の基本原理に基づいて再生される
センテンスの全体が解析された後、一連番号1から28
を付して図3に示した全ての組合せが見出される。その
結果、明白であるように、図5に記載した表が対応して
拡張される。
【0061】必要な検索と計算ステップを制限するため
に、有利には前述の基本原理に基づいて再生を完全に解
析すべき場合に、Bの値が例えば所定値、例えば0.9
未満か、これに等しいものと判定された場合は、この解
析は中断される。それによって、再生の品質がロスされ
ることはないが、それはそれぞれの検索ストリングの対
応関係の検索中に、長い検索基準はデータベース11内
で常に最初に見出されるからである。
【0062】更に、特定の予め決定できる組合わせの
数、例えば10の組合せが見出された場合は、組合せの
検索が中断されるようにできる。この措置によって、必
要なメモリの容量と、必要なコンピュータの電力を節減
できることは明白である。このような組合せの制限は、
検索が前述の方法に基づいて実行される場合に特に有利
である。その理由は、この検索方法では、より長いセグ
メントが常に最初に見出されるからである。より長いセ
グメントのこのような発見によって、最良の組合せが通
常は最初の組合せで認識され、ひいては品質の損失は生
じないことが保証される。
【図面の簡単な説明】
【図1】4つのオリジナル・センテンスのリストであ
る。
【図2】10のデータ記録を有するデータベースを示し
た表である。
【図3】再生されるべきセンテンスを完全に再生するセ
グメントからなる組合せを有する表である。
【図4】区分化された再生されるべきセンテンスのため
のデータ記録を示した表である。
【図5】全体的な評価を示した表である。
【符号の説明】
10…セグメント 11…データベース 12…パラメータ L…長さ U…遷移値 B…評価測定値 Ufront…前方遷移値 Urear…後方遷移値
───────────────────────────────────────────────────── フロントページの続き (72)発明者 シモナ グロスエス ドイツ連邦共和国,デー−44789 ボシュ ム,オスカル−ホフマン−シュトラーセ 72 (72)発明者 アミール イマン ドイツ連邦共和国,デー−44801 ボシュ ム,セムペルシュトラーセ 113 (72)発明者 ボルフガンク テイメル ドイツ連邦共和国,デー−44879 ボシュ ム,アム ホーベーゲ 10

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 出力されることが意図されたメッセージ
    がオーディオファイルとして記憶され、記憶されたオー
    ディオファイルから検索基準を利用して選択されたセグ
    メント(10)から構成される、オーディオファイルと
    して記憶された少なくとも1つのオリジナル・センテン
    スのセグメント(10)からなる音声出力用のメッセー
    ジを構成する方法であって、前記各セグメント(10)
    にはオリジナル・センテンス内の音標プロパティを特徴
    付ける少なくとも1つのパラメータ(12)が割当てら
    れると共に、前記オリジナル・センテンス内の前記音標
    プロバティを特徴付ける個々のセグメント(10)の前
    記パラメータ(12)を利用して、メッセージとして出
    力される予定の再生センテンスを形成する前記セグメン
    ト(10)が音声の自然の流れに基づいて構成されてる
    か否かのチェックが行われることを特徴とする方法。
  2. 【請求項2】 前記各セグメント(10)には前記オリ
    ジナル・センテンス内の音標プロパティを特徴付ける幾
    つかのパラメータ(12)が割当てられることを特徴と
    する請求項1に記載の方法。
  3. 【請求項3】 前記それぞれのオリジナル・センテンス
    内の前記セグメント(10)の音標プロパティを特徴付
    ける前記パラメータ(12)として、以下のパラメータ
    の少なくとも1つ、すなわち、 前記それぞれのセグメント(10)の長さ(L)、 前記オリジナル・センテンス内の前記それぞれのセグメ
    ント(10)の位置(P)、 前記それぞれのセグメント(10)の、前記オリジナル
    ・センテンス内の先行の、または後続のセグメント(1
    0)への前方および/または後方遷移値(U)、 が用いられることを特徴とする請求項1または2に記載
    の方法。
  4. 【請求項4】 各ケースで割当てられる検索基準の前記
    長さが前記それぞれのセグメントの前記長さ(L)とし
    て用いられることを特徴とする請求項3に記載の方法。
  5. 【請求項5】 前記オリジナル・センテンス内の前記先
    行の、または後続のセグメント(10)の最後の、また
    は最初の文字、音節、または音標が前記遷移値(U)と
    して用いられることを特徴とする請求項3または4に記
    載の方法。
  6. 【請求項6】 更に別のパラメータ(12)として、前
    記オリジナル・センテンス内の前記それぞれのセグメン
    ト(10)が質問文または感嘆文から派生されたものか
    否かについてのデータが備えられることを特徴とする前
    記請求項の一つに記載の方法。
  7. 【請求項7】 メッセージとして出力される予定の前記
    再生センテンスを形成する前記セグメント(10)の見
    出された組合わせごとに、下記の公式 【数1】 に基づいて前記オリジナル・センテンス内の前記音標プ
    ロパティを特徴付ける前記個々のセグメント(10)の
    前記パラメータ(12)から評価測定値(B)が計算さ
    れることを特徴とし、但し、fn,i(n)はn 番目のパラ
    メータの関数相関であり、iはセグメント(10)を示
    す指標であり、Wnはn番目のパラメータの関数相関の
    重み係数である前記請求項の一つに記載の方法。
  8. 【請求項8】 メッセージとして出力される予定の前記
    再生センテンスを形成する前記セグメント(10)の各
    々の見出された組合わせごとに、前記評価測定値(B)
    が計算され、その評価測定値(B)が、前記組合わせの
    前記セグメント(10)が音声の自然の流れに従って構
    成されていることを示している組合わせが、再生される
    べきメッセージとして前記セグメント(10)の前記見
    出された組合わせから選択されることを特徴とする請求
    項7に記載の方法。
  9. 【請求項9】 前記評価測定値(B)が少なくとも下記
    のパラメータ、すなわち前記セグメント(10)の長さ
    (L)および位置(P)、並びに以下の公式、すなわち 【数2】 に基づく前方および後方遷移値(Ufront, Urear)の関
    数相関fn(n) から計算されることを特徴とする請求項
    7または8に記載の方法。
  10. 【請求項10】 前記再生センテンスは検索基準に対応
    するフォーマットのセンテンスであり、探索基準および
    伝送される再生センテンス用には好適には英数字ストリ
    ングが用いられることを特徴とする前記請求項の一つに
    記載の方法。
  11. 【請求項11】 前記探索基準はデケータベース(1
    1)内に階層的に配列されていることを特徴とする前記
    請求項の一つに記載の方法。
  12. 【請求項12】 オーディオファイルとして記憶されて
    いるメッセージ用の前記セグメント(10)の選択のた
    めに、メッセージとして望まれる前記再生センテンスの
    全体が、割当られたオーディオファイルと共にデータベ
    ース(11)内にファイルされた検索基準と一致するか
    否かのテストが行われ、一致しない場合は、前記それぞ
    れの再生センテンスの端部が縮小され、その後、前記再
    生センテンスの残りの部分について単数または複数の一
    致が発見されるまで、前記データベース(11)内にフ
    ァイルされている検索基準との一致がチェックされ、 前記のチェックが先行ステップで除去された前記再生セ
    ンテンスの部分に関して継続され、 検索基準が前記再生センテンスと完全に一致している前
    記セグメント(10)の各組合わせについて、メッセー
    ジとして出力される予定の前記再生センテンスを形成す
    る前記セグメント(10)が会話の自然な流れに従って
    構成されているか否かのチェックが行われると共に、 望ましいメッセージの再生のために、その組合わせが音
    声の自然な流れに最も近い前記セグメント(10)のオ
    ーディオファイルが使用されることを特徴とする前記請
    求項の一つに記載の方法。
JP2001199251A 2000-06-30 2001-06-29 音声出力のためのメッセージの構成方法 Pending JP2002055692A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10031008.7 2000-06-30
DE10031008A DE10031008A1 (de) 2000-06-30 2000-06-30 Verfahren zum Zusammensetzen von Sätzen zur Sprachausgabe

Publications (1)

Publication Number Publication Date
JP2002055692A true JP2002055692A (ja) 2002-02-20

Family

ID=7646792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001199251A Pending JP2002055692A (ja) 2000-06-30 2001-06-29 音声出力のためのメッセージの構成方法

Country Status (5)

Country Link
US (1) US6757653B2 (ja)
EP (1) EP1168298B1 (ja)
JP (1) JP2002055692A (ja)
AT (1) ATE347160T1 (ja)
DE (2) DE10031008A1 (ja)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9372902B2 (en) * 2011-09-23 2016-06-21 International Business Machines Corporation Accessing and editing virtually-indexed message flows using structured query langauge (SQL)
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049193A (ja) * 1996-05-15 1998-02-20 A T R Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置
JPH1097268A (ja) * 1996-09-24 1998-04-14 Sanyo Electric Co Ltd 音声合成装置
JPH10161847A (ja) * 1996-11-28 1998-06-19 Mitsubishi Electric Corp 文章データ音声変換システム
JPH11305787A (ja) * 1998-04-22 1999-11-05 Victor Co Of Japan Ltd 音声合成装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3797037A (en) * 1972-06-06 1974-03-12 Ibm Sentence oriented dictation system featuring random accessing of information in a preferred sequence under control of stored codes
DE3104551C2 (de) * 1981-02-10 1982-10-21 Neumann Elektronik GmbH, 4330 Mülheim Elektronischer Textgeber zur Abgabe von Kurztexten
DE3642929A1 (de) * 1986-12-16 1988-06-23 Siemens Ag Verfahren zur natuerlich klingenden sprachausgabe
US4908867A (en) * 1987-11-19 1990-03-13 British Telecommunications Public Limited Company Speech synthesis
JPH0477962A (ja) * 1990-07-19 1992-03-12 Sanyo Electric Co Ltd 機械翻訳装置
CA2051135C (en) * 1991-09-11 1996-05-07 Kim D. Letkeman Compressed language dictionary
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5664060A (en) * 1994-01-25 1997-09-02 Information Storage Devices Message management methods and apparatus
DE19518504C2 (de) * 1994-10-26 1998-08-20 United Microelectronics Corp Dynamisch programmierbare Ansage-Einrichtung
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
US5832434A (en) * 1995-05-26 1998-11-03 Apple Computer, Inc. Method and apparatus for automatic assignment of duration values for synthetic speech
JPH1138989A (ja) * 1997-07-14 1999-02-12 Toshiba Corp 音声合成装置及び方法
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
JPH1195796A (ja) * 1997-09-16 1999-04-09 Toshiba Corp 音声合成方法
US6047255A (en) * 1997-12-04 2000-04-04 Nortel Networks Corporation Method and system for producing speech signals
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049193A (ja) * 1996-05-15 1998-02-20 A T R Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置
JPH1097268A (ja) * 1996-09-24 1998-04-14 Sanyo Electric Co Ltd 音声合成装置
JPH10161847A (ja) * 1996-11-28 1998-06-19 Mitsubishi Electric Corp 文章データ音声変換システム
JPH11305787A (ja) * 1998-04-22 1999-11-05 Victor Co Of Japan Ltd 音声合成装置

Also Published As

Publication number Publication date
US6757653B2 (en) 2004-06-29
EP1168298B1 (de) 2006-11-29
US20020029139A1 (en) 2002-03-07
EP1168298A3 (de) 2002-12-11
EP1168298A2 (de) 2002-01-02
ATE347160T1 (de) 2006-12-15
DE50111522D1 (de) 2007-01-11
DE10031008A1 (de) 2002-01-10

Similar Documents

Publication Publication Date Title
JP2002055692A (ja) 音声出力のためのメッセージの構成方法
CN100371926C (zh) 通过响应输入语句而输出应答语句的交互对话装置和方法
US6961704B1 (en) Linguistic prosodic model-based text to speech
US10453442B2 (en) Methods employing phase state analysis for use in speech synthesis and recognition
US9418152B2 (en) System and method for flexible speech to text search mechanism
US7124083B2 (en) Method and system for preselection of suitable units for concatenative speech
JP5697860B2 (ja) 情報検索装置,情報検索方法及びナビゲーションシステム
US8036894B2 (en) Multi-unit approach to text-to-speech synthesis
US7260533B2 (en) Text-to-speech conversion system
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
CN101236743B (zh) 生成高质量话音的系统和方法
US6845358B2 (en) Prosody template matching for text-to-speech systems
US8719027B2 (en) Name synthesis
US20080177543A1 (en) Stochastic Syllable Accent Recognition
US20030154081A1 (en) Objective measure for estimating mean opinion score of synthesized speech
JP6794990B2 (ja) 楽曲検索方法および楽曲検索装置
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JPH1115468A (ja) 楽曲検索方法、楽曲検索装置、楽曲検索システム、及び記録媒体
US8655664B2 (en) Text presentation apparatus, text presentation method, and computer program product
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP5098932B2 (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
JP3571925B2 (ja) 音声情報処理装置
JP5155836B2 (ja) 収録テキスト生成装置、その方法、そのプログラム
JP4882569B2 (ja) 音声合成装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080408

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20080408

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111101