JP2012073643A - 携帯型デバイス内のテキスト音声処理用システムおよび方法 - Google Patents

携帯型デバイス内のテキスト音声処理用システムおよび方法 Download PDF

Info

Publication number
JP2012073643A
JP2012073643A JP2011266370A JP2011266370A JP2012073643A JP 2012073643 A JP2012073643 A JP 2012073643A JP 2011266370 A JP2011266370 A JP 2011266370A JP 2011266370 A JP2011266370 A JP 2011266370A JP 2012073643 A JP2012073643 A JP 2012073643A
Authority
JP
Japan
Prior art keywords
tts
function device
low
speech
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011266370A
Other languages
English (en)
Other versions
JP5600092B2 (ja
Inventor
Horst Juergen Schroeter
シュローター,ホースト,ジャージェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2012073643A publication Critical patent/JP2012073643A/ja
Application granted granted Critical
Publication of JP5600092B2 publication Critical patent/JP5600092B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Abstract

【課題】現在、携帯型デバイスの処理電力と記憶容量の制限のために、低品質のTTS技術しか使用できないことがある。したがって、現在の携帯型デバイスの制限に対処できる方法で高品質TTS技術の適用を可能にする。
【解決手段】複雑性が低いデバイス内で高品質のテキスト音声(TTS)出力を提供するシステムおよび方法が開示される。TTS出力は複雑性が高いデバイス上に常駐するTTSシステムによって生成される。TTS出力は複雑性が高いデバイスからは複雑性が低いデバイスに送信され、それ以後、取り出され、再生される。
【選択図】図2

Description

本発明は、一般にテキスト音声処理に関し、特に携帯型デバイス内のテキスト音声処理に関する。
テキスト音声(TTS)合成技術は、任意のテキストを可聴音声に変換し、音声メッセージを介して人々にテキスト情報を提供することができるという目標を達成する能力を与える。これらの音声メッセージは、可聴出力がシステム対話でのユーザ・フィードバックの主要な形式である分野で特に有用であることが分かる。ユーザが応答性がある通信の有効な手段としてテキスト出力を評価できない時にこれらの状況が発生する。この点に関して、TTS技術は携帯型デバイスのユーザと通信する機構として使用される時に有望な利益を提供できると考えられている。
携帯型デバイスの設計は、通常、使用上の人間工学に基く。例えば、携帯性を最大限にするという目標は、通常、最小の電力要件を備えた最小のフォーム・ファクタに帰結する。これらの制約によって、同じ制約がない汎用の処理システム(例えば、パーソナル・コンピュータ)と比較して処理電力と記憶容量のアベイラビリティが明らかに制限される。
携帯型デバイスの処理電力と記憶容量の制限は、許容できるTTS出力を提供する能力に直接影響する。現在、これらの制限のために、低品質のTTS技術しか使用できないことがある。したがって、現在の携帯型デバイスの制限に対処できる方法で高品質TTS技術の適用を可能にする解決策が必要である。
上記およびその他の利点と特徴とが得られる方法を説明するため、上に簡潔に説明した本発明の詳細を添付図面に示す具体的な実施形態を参照しながら以下に説明する。これらの図面は本発明の代表的な実施形態を示すだけのものであって本発明の範囲を限定するものではないことを念頭に置きながら、添付図面を用いて本発明を具体的かつ詳細に説明する。
本発明のテキスト音声処理環境の一実施形態を示す図である。 高性能コンピュータ・デバイス内のテキスト音声処理構成要素の一実施形態を示す図である。 低性能コンピュータ・デバイス内のテキスト音声処理構成要素の一実施形態を示す図である。
本発明のさまざまな実施形態について以下に詳述する。特定の実施形態について説明しているが、これは例示的なものに過ぎないことを理解されたい。本発明の精神および範囲を逸脱することなくその他の構成要素および構成を使用できることは当業者には明らかであろう。
テキスト音声(TTS)合成技術によって電子デバイスはテキスト・ストリームを可聴音声に変換することができる。この可聴音声はこうして音声メッセージを介してユーザにテキスト情報を提供する。TTSはEメールまたはその他の任意の汎用のテキスト・メッセージ交換ソリューションなどのさまざまなコンテキスト内で適用できる。特に、TTSは、例えば、Eメール閲覧、インスタント・メッセージ交換、株式および他の警告または警報、最新ニュースなどの任意の動的なコンテンツを合成音声に変換する際に価値がある。
TTS合成音声の品質はTTS技術の急速な普及において極めて重要であることが理解されよう。携帯電話、パーソナル・ディジタル・アシスタント、BlackBerryまたはPalmデバイスなどの組み合わせデバイスなどの携帯デバイスはTTS技術の活用に特に適している。
調音合成、ホルマント合成、および波形接続型合成方法を含むさまざまな異なる音声合成のTTS方法が存在する。
調音合成は声門および振動音声路のモデル(周期的な吸気興奮を生成する)などの音声生成のコンピュータ化された生物医学的モデルを使用する。理想的には、調音合成装置は、舌、唇、および声門などの咬合器のシミュレートされた筋肉運動によって制御される。合成音声出力を計算することは時間依存の3次元微分方程式を解くことになろう。残念ながら、現在、調音合成も、演算要件が厳しいことで悪名が高く、自然に聞こえる流暢な音声を得ることができない。
ホルマント合成は、(声門)ソースがフィルタ(音声路)から完全に独立していることを前提にする極めて簡単化されたソース−フィルタ・モデルを制御する1組の規則を使用する。フィルタは、ホルマント周波数および帯域幅などの制御パラメータによって決定される。各ホルマントは音声路の特定の共鳴(フィルタ特性の「ピーク」)に関連付けられる。ソースは様式化された声門またはその他のパルス(周期音の場合)または雑音(吸気および摩擦音の場合)を生成する。ホルマント合成は極めて分かりやすいが完全に自然ではない音声を生成する。ただし、この方法はメモリ占有領域が小さく、演算要件が中庸であるという利点を有する。
最後に、波形接続型合成は、「波形」(非符号化)として、または適当な音声符号化方法によって符号化された、録音から切り出してインベントリ(「音声データベース」)に記憶された録音音声の実際の断片を使用する。基本「単位」(すなわち、音声セグメント)は、例えば、音素(母音または子音)または1つの音素の後半プラス次の音素の前半(例えば、母音・子音遷移)とを含む音素遷移(「複音」)である。一部の波形接続型合成器は、実際、音節の時間スケールに「複音」方法を適用して、いわゆる半音節(すなわち、半分の音節、音節遷移)を使用する。波形接続型合成自体は、音声データベースから選択した単位を繋げ(連結し)、任意選択の復号化を経て、結果として得られる音声信号を出力する。波形接続型合成システムは録音された音声の断片を使用するので、「自然」に聞こえる最高の可能性を有する。
波形接続型合成技法はまた単位選択合成を含む。以前の波形接続型合成器と比べて、単位選択合成は、特定の複音の数千の例を含むことができるインベントリから(直ちに)最適な合成単位を自動的に選択し、それらを連結して合成音声を生成する。
複雑性が低いデバイス(例えば、携帯電話)へのTTS技術の従来の適用例は、処理および記憶能力が限られた環境でのTTS合成音声の品質を犠牲にすることを余儀なくされていた。具体的には、携帯電話などの複雑性が低いデバイスは、通常、従来のデスクトップまたはラップトップ・パーソナル・コンピュータ・デバイスなどの複雑性が高いデバイスと比較してはるかに低い処理および記憶能力を備えて設計されている。この結果、低品質のTTS技術が複雑性が低いデバイスに組み込まれている。例えば、携帯デバイスへのTTS技術の従来の適用例は、メモリ占有領域が小さく、演算要件が中庸であるホルマント合成技術を使用していた。
本発明によれば、処理および記憶能力が制限されているデバイス(移動体デバイスなど)に適用された時でも高品質TTS技術が使用可能である。本発明の原理を、携帯電話120への高品質TTS技術の適用例を示す図1を参照しながら説明する。以下の説明では、高品質TTS技術は波形接続型合成技術によって例示されている。ただし、本発明の原理は波形接続型合成技術に限定されるわけではない。逆に、本発明の原理は、TTS技術が実際には所与のデバイスに適用できないほど複雑な任意の状況に適用するように意図されている。
携帯電話の一例では、TTS技術は音声ダイヤルを支援するために使用されることができる。一般に、車の運転中など、ユーザがキーパッドまたは画面に注意を向けられない時はいつでも、音声ダイヤルは極めて望ましい。このシナリオでは、「職場のジョンに電話する」と言う方が運転中に細かいダイヤル・パッドで10桁の文字列をダイヤルしようとするよりも安全なのは確かである。
音声ダイヤルとそれと同等のコマンドおよび制御は、小占有領域ASRエンジンで利用可能な自動音声認識(ASR)技術によって可能になる。メモリ占有領域が小さいため、ASRはデバイス自体で実行できる。
音声ダイヤルによって個人の安全を増すことができる一方、音声ダイヤル・プロセスは不注意から完全に免れるものではない。一部の便利な電話機では、音声ダイヤル装置はテキスト・メッセージまたは低品質TTSを介してフィードバック(例えば、「ジョン・ドーさんですかジョン・ミラーさんですか?」)を提供する。
合成音声によるフィードバック・メッセージの高品質な(自然に聞こえる、分かりやすい)表現には最新のTTS技術が必要である。理想的には、TTSモジュールもデバイス120上で実行され、ユーザにフィードバックを提供してASRエンジンが音声入力を正しく解釈したことを保証する。ただし、上記のように、現在の高品質TTSは多数の現在のデバイス上で利用可能なレベルを超えるレベルの処理およびメモリのサポートを必要とする。
実際、最新のTTS技術は多数の現在のデバイス上で利用可能なレベルを超えるレベルの処理およびメモリのサポートを必要とするというのが実態であるようである。
以下に詳述するように、本発明によって高品質TTSは中庸の処理および記憶能力を有するデバイス内でも使用できる。この機能は、十分なレベルの処理および記憶能力を所有する追加のデバイス(例えば、デスクトップおよびラップトップ・コンピュータ)の処理力を活用することで使用可能になる。ここで、活用プロセスは高機能デバイスと低機能デバイスとの間の通信によって使用可能になる。
図1は、そのような構成の一実施形態を示す図である。図1に示すように、TTS環境100は、高機能デバイス(例えば、コンピュータ)110、低機能デバイス(例えば、携帯電話)120、およびユーザ130を含む。ここで、高機能デバイス110および低機能デバイス120は同期化プロセスの一部として通信するように構成できる。この同期化プロセスによって、ユーザ130は、高機能デバイス110上の情報データベース(例えば、カレンダ、連絡先/電話帳など)が低機能デバイス120の情報データベースと同期していることを確認できる。一般の情報データベースの変更(例えば、新しい連絡先の生成、既存の連絡先情報の変更)は、ユーザの高機能デバイス110との対話またはユーザの低機能デバイス120との対話によって実行できることを理解されたい。
なお、高機能デバイス110と低機能デバイス120との間の情報の同期化はさまざまな方法で実行できることに注目されたい。さまざまな実施形態で、有線接続(例えば、USB接続)または無線接続(例えば、Bluetooth、GPRS、またはその他の任意の無線標準)を使用できる。さまざまな同期化ソフトウェアを使用して同期化プロセスに影響を与えることができる。利用可能な同期化ソフトウェアの現在の例は、Palm,Inc.社製のHotSyncおよびアップル・コンピュータ社製のiSyncを含む。本発明の原理は高機能デバイス110と低機能デバイス120との間の接続の特定の選択または送受信を調整する特定の同期化ソフトウェアによって変わるものではない。
一般に、同期化プロセスは、低機能デバイス120に高品質TTS情報が提供できる構造化方式を提供する。代替実施形態では、所期の目的を達成するために、サードパーティの同期化ソフトウェア・パッケージとは別に専用のソフトウェア・アプリケーションを設計することができる。この通信のパイプを用いて、低機能デバイス120内のTTSシステムは、高機能デバイス110内の処理および記憶能力を活用することができる。具体的には、波形接続型合成技術の場合、TTS技術の処理および記憶が集約した部分は高機能デバイス110内に常駐する。この構造の一実施形態を図2に示す。
図2に示すように、高機能デバイス110はTTSシステム210を含む。一実施形態では、TTSシステム210はテキスト解析モジュール212と音声合成モジュール214とを含む波形接続型合成システムである。テキスト解析モジュール212自体は、別々であるが絡み合った機能を備えた一連のモジュールを含むことができる。一実施形態では、テキスト解析モジュール212は入力テキストを解析し、それを目的の一連の音声記号および声調(基本周波数、継続時間、および振幅)に変換する。音声合成モジュール214に提供される特定の出力は実施態様により異なることがあるが、音声合成モジュールの基本機能は音声出力を生成することである。この音声出力は音声出力データベース220内に記憶される。
音声出力データベース220内に記憶されるTTS出力は、高機能デバイス110上で全面的に実行されるTTS処理の結果を表す。したがって、低機能デバイス120の処理および記憶能力はこれまで必要とされていなかった。
一実施形態では、TTSシステム210を用いてキャリア・フレーズおよびスロット情報の事前合成された音声を生成することができる。キャリア・フレーズの一例は、「番号[スロット3]の「スロット2」の[スロット1]に電話して欲しいですか?」である。この例では、スロット1は名前、スロット2は場所、スロット3は電話番号を表し、「番号[703−555−1212]の[職場]の[ジョン・ドー]に電話して欲しいですか?」という組み合わせ出力を生成することができる。この例が示すように、スロット要素1、2、3の各々は、キャリア・フレーズの音声充填文字を表す。キャリア・フェーズとスロット情報の両方を高機能デバイス110で事前合成し、低機能デバイス120にダウンロードしてそれ以降ユーザに対して再生することができるというのが本発明の特徴である。
図3は、事前合成されたキャリア・フレーズとスロット情報のこの枠組みをサポートする低機能デバイス120の一実施形態を示す。図示のように、低機能デバイス120はメモリ310を含む。メモリ310は、キャリア・フレーズ部312およびスロット情報部314を含むように構成できる。キャリア・フレーズ部312は事前合成されたキャリア・データを記憶し、スロット情報部314は事前合成されたスロット・データを記憶するように構成されている。
キャリア・フレーズは大半のユーザに適用できると考えられ、したがって、低機能デバイス120上に事前読み込みできることが理解されよう。したがって、事前合成されたキャリア・フレーズは、自らが運用する高機能コンピュータ・デバイス110を用いる製造業者が生成でき、製造プロセスで、低機能デバイス120にダウンロードしてキャリア・フレーズ部312に記憶することができる。
低機能デバイス120をユーザが所有すると、低機能デバイスのカスタム化が進行することができる。このプロセスで、ユーザは、ユーザ定義のスロット・タイプでキャリア・フレーズが機能するようにカスタマイズできる。このカスタマイズのプロセスは、ユーザが操作する高機能コンピュータ・デバイス110によるカスタムのキャリア・フレーズの事前合成によって有効にできる。事前合成されたカスタムのキャリア・フレーズは低機能デバイス120にダウンロードしてキャリア・フレーズ部312に記憶することができる。
キャリア・フレーズと同様に、スロット情報もユーザが操作する高機能コンピュータ・デバイス110によって事前合成される。同期化ソフトウェアを活用する一実施形態では、同期化プロセス中に更新される一般のデータベースの別のデータ・タイプとしてスロット情報を低機能デバイス120にダウンロードすることができる。例えば、名前、場所、および番号専用のスロット情報は、ユーザのアドレス/電話帳内の各連絡先レコードの別々のデータ・タイプとして含めることができる。スロット・タイプは、ユーザ・レコード内の可変要素を表すことができる任意のデータ・タイプについて定義できることが理解されよう。
低機能デバイス120へのキャリア・フレーズおよびスロット情報の提供によって、低機能デバイス120上で簡単なTTS構成要素を実施することができる。この簡単なTTS構成要素は、キャリア・フレーズおよびスロット情報の記憶と取り出しとを調整する作用がある一般テーブル管理機能を実施するように構成できる。この結果、符号の占める領域は小さくなる。
一実施形態では、事前合成されたキャリア・フレーズおよびスロット情報は符号化(圧縮)形式でダウンロードされる。低機能デバイス120への圧縮情報の送信によって送信速度は確実に増加するが、低機能デバイス120上でTTS構成要素を実施することがさらに容易になる。
具体的には、一実施形態では、低機能デバイス120上のTTS構成要素は、低機能デバイス120上にすでに存在する音声コーダ/デコーダ(コーデック)を活用するように構成されている。音声出力を事前合成して低機能デバイス120が使用する適当な符号化フォーマットで記憶することで、取り出した符号化キャリアおよびスロット情報を低機能デバイス120の既存の音声コーデックに通すようにTTS構成要素を構成することができる。この機能によって、受信した呼の再生を「偽造」することでTTS再生を効果的に生成する。この実施形態は、低機能デバイス120上のTTS構成要素の需要をさらに最小化することで、実施の複雑性を大幅に低減する働きをする。
図3に示すように、制御要素320を用いて、それぞれメモリ部312および314からキャリア・フレーズおよびスロット情報を取り出すことでこのプロセスを実行できる。一般に、制御要素320は、確実に、メモリ310から事前合成された音声セグメントを同期して取り出してコーデック330に生成のために送る。コーデック330は、取り出された事前合成された音声セグメントに基いて可聴出力を生成する。
一実施形態では、本発明の原理を用いて、一般のテキスト・コンテンツを表す事前合成された音声セグメントを(高機能デバイス110から低機能デバイス120に)送信することができる。例えば、一般のテキスト・コンテンツは、Eメール、インスタント・メッセージ交換、株式および他の警告または警報、最新ニュースなどの動的なコンテンツを含むことができる。この動的なコンテンツは、事前合成して低機能デバイス120に送信し、後ほどコマンドによって再生することができる。
以上、本発明をその特定の実施形態に関連して詳細に説明してきたが、本発明の精神および範囲を逸脱することなく、本発明に様々な変更および修正を加えることができることを、当業者なら理解するであろう。したがって、本発明は、添付の請求の範囲およびその等効物に含まれる本発明の変形形態および修正形態を含むことを意図している。

Claims (1)

  1. 携帯デバイス上で音声を合成する方法であって、
    (1)コンピュータ・デバイスとの同期化プロセスの一部として事前合成されたスロット情報を受信する工程であって、前記スロット情報が前記コンピュータ・デバイス上のユーザ・レコード内の定義されたデータ・タイプの値を表し、前記スロット情報がキャリア・フレーズ内の所定の位置に含まれるように構成された工程と、
    (2)前記事前合成されたスロット情報をメモリ内に記憶する工程と、
    (3)前記キャリア・フレーズおよび前記事前合成されたスロット情報をユーザのための可聴出力として再生する工程とを含む、方法。
JP2011266370A 2003-04-18 2011-12-06 携帯型デバイス内のテキスト音声処理用システムおよび方法 Expired - Fee Related JP5600092B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US46376003P 2003-04-18 2003-04-18
US60/463,760 2003-04-18
US10/742,853 US7013282B2 (en) 2003-04-18 2003-12-23 System and method for text-to-speech processing in a portable device
US10/742,853 2003-12-23

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006510076A Division JP4917884B2 (ja) 2003-04-18 2004-04-15 携帯型デバイス内のテキスト音声処理用システムおよび方法

Publications (2)

Publication Number Publication Date
JP2012073643A true JP2012073643A (ja) 2012-04-12
JP5600092B2 JP5600092B2 (ja) 2014-10-01

Family

ID=33162369

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2006510076A Expired - Lifetime JP4917884B2 (ja) 2003-04-18 2004-04-15 携帯型デバイス内のテキスト音声処理用システムおよび方法
JP2011266370A Expired - Fee Related JP5600092B2 (ja) 2003-04-18 2011-12-06 携帯型デバイス内のテキスト音声処理用システムおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2006510076A Expired - Lifetime JP4917884B2 (ja) 2003-04-18 2004-04-15 携帯型デバイス内のテキスト音声処理用システムおよび方法

Country Status (7)

Country Link
US (2) US7013282B2 (ja)
EP (2) EP1618558B8 (ja)
JP (2) JP4917884B2 (ja)
KR (1) KR20050122274A (ja)
CN (1) CN1795492B (ja)
CA (1) CA2520087A1 (ja)
WO (1) WO2004095419A2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013282B2 (en) * 2003-04-18 2006-03-14 At&T Corp. System and method for text-to-speech processing in a portable device
KR20050054706A (ko) * 2003-12-05 2005-06-10 엘지전자 주식회사 음성인식을 위한 어휘 트리 구축 방법
US7636426B2 (en) * 2005-08-10 2009-12-22 Siemens Communications, Inc. Method and apparatus for automated voice dialing setup
US20070198353A1 (en) * 2006-02-22 2007-08-23 Robert Paul Behringer Method and system for creating and distributing and audio newspaper
KR100798408B1 (ko) * 2006-04-21 2008-01-28 주식회사 엘지텔레콤 Tts 기능을 제공하는 통신 단말기 및 방법
WO2008026197A2 (en) * 2006-08-28 2008-03-06 Mark Heifets System, method and end-user device for vocal delivery of textual data
EP1933300A1 (de) 2006-12-13 2008-06-18 F.Hoffmann-La Roche Ag Sprachausgabegerät und Verfahren zur Sprechtextgenerierung
TWI336879B (en) * 2007-06-23 2011-02-01 Ind Tech Res Inst Speech synthesizer generating system and method
JP2011043710A (ja) * 2009-08-21 2011-03-03 Sony Corp 音声処理装置、音声処理方法及びプログラム
US8447690B2 (en) * 2009-09-09 2013-05-21 Triceratops Corp. Business and social media system
KR101617461B1 (ko) * 2009-11-17 2016-05-02 엘지전자 주식회사 이동 통신 단말기에서의 티티에스 음성 데이터 출력 방법 및 이를 적용한 이동 통신 단말기
US9531854B1 (en) 2009-12-15 2016-12-27 Google Inc. Playing local device information over a telephone connection
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
CN102063897B (zh) * 2010-12-09 2013-07-03 北京宇音天下科技有限公司 一种用于嵌入式语音合成系统的音库压缩及使用方法
CN102201232A (zh) * 2011-06-01 2011-09-28 北京宇音天下科技有限公司 一种用于嵌入式语音合成系统的音库结构压缩及使用方法
CN102324231A (zh) * 2011-08-29 2012-01-18 北京捷通华声语音技术有限公司 一种游戏对话声音合成方法和系统
KR101378408B1 (ko) * 2012-01-19 2014-03-27 남기호 이동 단말 보조 시스템 및 이를 위한 보조장치
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9473631B2 (en) * 2013-01-29 2016-10-18 Nvideon, Inc. Outward calling method for public telephone networks
US9311911B2 (en) 2014-07-30 2016-04-12 Google Technology Holdings Llc. Method and apparatus for live call text-to-speech
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US9699564B2 (en) 2015-07-13 2017-07-04 New Brunswick Community College Audio adaptor and method
US9913039B2 (en) * 2015-07-13 2018-03-06 New Brunswick Community College Audio adaptor and method
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
CN106098056B (zh) * 2016-06-14 2022-01-07 腾讯科技(深圳)有限公司 一种语音新闻的处理方法、新闻服务器及系统
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
CN108573694B (zh) * 2018-02-01 2022-01-28 北京百度网讯科技有限公司 基于人工智能的语料扩充及语音合成系统构建方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014952A (ja) * 2000-04-13 2002-01-18 Canon Inc 情報処理装置及び情報処理方法
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3928722A (en) * 1973-07-16 1975-12-23 Hitachi Ltd Audio message generating apparatus used for query-reply system
AU632867B2 (en) * 1989-11-20 1993-01-14 Digital Equipment Corporation Text-to-speech system having a lexicon residing on the host processor
EP0542628B1 (en) * 1991-11-12 2001-10-10 Fujitsu Limited Speech synthesis system
ATE195828T1 (de) * 1995-06-02 2000-09-15 Koninkl Philips Electronics Nv Vorrichtung zur erzeugung kodierter sprachelemente in einem fahrzeug
JPH09258785A (ja) * 1996-03-22 1997-10-03 Sony Corp 情報処理方法および情報処理装置
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
JP3704925B2 (ja) * 1997-04-22 2005-10-12 トヨタ自動車株式会社 移動端末装置及びその音声出力プログラムを記録した媒体
US6931255B2 (en) * 1998-04-29 2005-08-16 Telefonaktiebolaget L M Ericsson (Publ) Mobile terminal with a text-to-speech converter
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager
US6748361B1 (en) * 1999-12-14 2004-06-08 International Business Machines Corporation Personal speech assistant supporting a dialog manager
US6510413B1 (en) * 2000-06-29 2003-01-21 Intel Corporation Distributed synthetic speech generation
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
CN2487168Y (zh) * 2000-10-26 2002-04-17 宋志颖 一种具有声控拨号功能的手机
US6625576B2 (en) * 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
CN1333501A (zh) * 2001-07-20 2002-01-30 北京捷通华声语音技术有限公司 一种动态汉语语音合成方法
CN1211777C (zh) * 2002-04-23 2005-07-20 安徽中科大讯飞信息科技有限公司 分布式语音合成方法
US7013282B2 (en) * 2003-04-18 2006-03-14 At&T Corp. System and method for text-to-speech processing in a portable device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014952A (ja) * 2000-04-13 2002-01-18 Canon Inc 情報処理装置及び情報処理方法
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器

Also Published As

Publication number Publication date
WO2004095419A3 (en) 2005-12-15
EP2264697A2 (en) 2010-12-22
JP5600092B2 (ja) 2014-10-01
EP2264697A3 (en) 2012-07-04
EP1618558A4 (en) 2006-12-27
WO2004095419A2 (en) 2004-11-04
CA2520087A1 (en) 2004-11-04
EP1618558B8 (en) 2017-08-02
US20040210439A1 (en) 2004-10-21
EP1618558B1 (en) 2017-06-14
US7013282B2 (en) 2006-03-14
EP1618558A2 (en) 2006-01-25
CN1795492B (zh) 2010-09-29
JP4917884B2 (ja) 2012-04-18
US20060009975A1 (en) 2006-01-12
KR20050122274A (ko) 2005-12-28
JP2006523867A (ja) 2006-10-19
CN1795492A (zh) 2006-06-28

Similar Documents

Publication Publication Date Title
JP5600092B2 (ja) 携帯型デバイス内のテキスト音声処理用システムおよび方法
US10720145B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
US9196241B2 (en) Asynchronous communications using messages recorded on handheld devices
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
US6625576B2 (en) Method and apparatus for performing text-to-speech conversion in a client/server environment
US20060074672A1 (en) Speech synthesis apparatus with personalized speech segments
US20090012793A1 (en) Text-to-speech assist for portable communication devices
US20080161948A1 (en) Supplementing audio recorded in a media file
US20070233472A1 (en) Voice modifier for speech processing systems
US20060224385A1 (en) Text-to-speech conversion in electronic device field
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
JP4729171B2 (ja) 電子書籍装置および音声再生システム
KR20100094529A (ko) 신호음 데이터와 오디오를 믹싱하기 위한 시스템 및 방법
US20080161057A1 (en) Voice conversion in ring tones and other features for a communication device
WO2008118038A1 (fr) Procédé d&#39;échange de messages et dispositif permettant sa mise en oeuvre
JP2009271315A (ja) 音声二次元コードから音声を再生可能な携帯電話機および音声二次元コードを含む二次元コードが表示された印刷物
US20080146197A1 (en) Method and device for emitting an audible alert
US8219402B2 (en) Asynchronous receipt of information from a user
CN1310209C (zh) 语音和乐曲再生装置
JP2006301063A (ja) コンテンツ提供システム、コンテンツ提供装置および端末装置
CN117496941A (zh) 语音数据处理方法、装置及系统
KR20220050342A (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법
JP2004085786A (ja) テキスト音声合成装置、言語処理サーバー装置、および、プログラム記録媒体
KR20060087164A (ko) 음성압축변환 제공 방법
JP2005107136A (ja) 音声および楽曲再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130325

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130328

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130516

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130816

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140814

R150 Certificate of patent or registration of utility model

Ref document number: 5600092

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees