JP2006517037A - 韻律的模擬語合成方法および装置 - Google Patents

韻律的模擬語合成方法および装置 Download PDF

Info

Publication number
JP2006517037A
JP2006517037A JP2006502907A JP2006502907A JP2006517037A JP 2006517037 A JP2006517037 A JP 2006517037A JP 2006502907 A JP2006502907 A JP 2006502907A JP 2006502907 A JP2006502907 A JP 2006502907A JP 2006517037 A JP2006517037 A JP 2006517037A
Authority
JP
Japan
Prior art keywords
prosodic
pronounced
utterance
word
nominal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006502907A
Other languages
English (en)
Inventor
コーエン、ジョーダン
エル. ロス、ダニエル
ズロカーニク、イゴール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voice Signal Technologies Inc
Original Assignee
Voice Signal Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voice Signal Technologies Inc filed Critical Voice Signal Technologies Inc
Publication of JP2006517037A publication Critical patent/JP2006517037A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

語である場合もある発音された発声を捕捉するステップと、そこから韻律的情報(パラメータ)を抽出するステップと、次に、発音された発声に対応する韻律的模擬語および名目的語を生成するために、合成した(名目的)語に韻律的パラメータを適用するステップとを含む可聴句(語)を合成するための方法および装置。

Description

本発明は音声対応の通信システムに関する。
多くの携帯電話(この場合は、電話または音声通信機能を行う少なくともデータ処理および通信装置を含んでいる)は、ユーザが機能を呼び出すためにある表現を発声することにより、その機能にアクセスすることができるようにする、音声によるインタフェース機能を備える。周知の例としては、ユーザが電話機に名前または他の予め記憶させた表現を話し、電話機がその名前に関連する番号をダイヤルすることによって応答する音声ダイヤルがある。
ユーザが実際に行いたいのは、ダイヤルする番号または呼び出す機能を確認することであり、携帯電話は、ユーザに確認メッセージを表示することができ、番号が正しい場合にはユーザは次に進むことができ、番号が間違っている場合にはこの機能を中止することができる。携帯電話デバイスと相互作用を行うために、可聴および/または視覚的ユーザ・インタフェースが使用されている。可聴確認およびユーザ・インタフェースを使用すれば、視覚的確認およびインタフェースを使用した場合と比較すると、もっと多くの手を使わない操作を行うことができる。そのため、運転者が望んでいるように、電話デバイスを見る代わりに道路を継続的に見ることができる。
電話のユーザが発音した句、語、音(本明細書においては、包括的に発声と呼ぶ)を認識するために、携帯電話においては音声認識が使用されている。それ故、音声認識は、電話帳アプリケーションで使用される場合がある。ある例の場合には、電話機は電話の話し手の出力を通して供給される可聴確認で認識した、発音した名前に応答する。ユーザは再生を聞いて電話機の認識結果を受け入れたり、拒否したりする。
人間の音声の場合、各発声は、発声音が何であるかを決定する韻律的パラメータと呼ばれる定量化することができるある品質を有する。通常、これらのものは、ピッチまたはトーン、音声素子のタイミング、および通常エネルギーとして表されるアクセントと見なされる。音声認識システムは、非韻律的であるが何であったのかを判断するのに役に立つ、声道の形状のような音声の他の特徴を使用する。聞き手は、部分的には音声の韻律的パラメータに基づいて品質を見分けることができる。また、話し手は、通信全体において、自分の音声を他人の音声から区別するために音声の韻律を使用する。それ故、人は、当然韻律を感知し、「本当の」人間の音声と機械(音声合成装置)が生成した「合成」音声とを容易に区別することができる。実際には、人間の耳は、乏しい韻律的規則を使用する合成音声を理解できない場合がある。
全体的に見て、本発明のいくつかの態様は、語である場合もある発音された発声を捕捉するステップと、そこから韻律的および非韻律的情報(パラメータ)の両方を抽出するステップと、その語を認識するステップと、次に、発音された発声に対応する韻律的模擬語句および名目的語を生成するために、語の合成した(名目的)バージョンに韻律的パラメータを適用するステップとを含む可聴句(語)を合成するための方法およびシステムを特徴とする。
ある態様によれば、本発明は、発音した発声を受信するステップと、この発音した発声から1つまたは複数の韻律的パラメータを抽出するステップと、認識した語を供給するために発音した発声を復号するステップと、認識した語に対応する名目的語を合成するステップと、名目的語および韻律的パラメータを使用して韻律的模擬語を生成するステップとを含む音声合成方法を特徴とする。
他の態様によれば、本発明は、発音した発声を受信するオーディオ入力装置と、発音した発声のピッチを検出するピッチ検出装置と、発音した発声の韻律的パラメータを決定する信号プロセッサと、発音した発声を認識し、対応する認識した語を供給する復号装置と、認識した語に対応する名目的語を合成する音声合成装置と、名目的語および韻律的パラメータを受信し、韻律的模擬語を生成する韻律的模擬語発生器とを含む音声を合成するためのシステムを特徴とする。
さらに他の態様によれば、本発明は、発音した発声を受信するための命令と、この発音した発声から1つまたは複数の韻律的パラメータを抽出するための命令と、認識した語を供給するために発音した発声を復号するための命令と、認識した語に対応する名目的語を合成するための命令と、名目的語および韻律的パラメータを使用して韻律的模擬語を生成するための命令とを含むプロセッサ上での実行することができる記憶している命令を有するコンピュータ読み取り可能媒体を特徴とする。
本発明のこれらの態様および他の態様は、特に音声作動コマンドおよびユーザ・インタフェースを含む携帯電話のような小形の移動機で改善された音声合成を行う。ある態様から見れば、可聴確認メッセージのもっと優れた合成を行うことができるこの可聴確認メッセージは、ユーザの属性に似た韻律的属性を有する。優れた音声合成はより自然であり、人間にとってもっと分かりやすいために、本発明は可聴ユーザ・インタフェースの有用性および聞き取り易さを改善する。
下記の説明および特許請求の範囲を読めば、本発明の種々の特徴および利点を理解することができるだろう。
本発明の性質および目的をもっとよく理解してもらうために、同じまたは類似の部材を同じ参照番号で示してある添付の図面を参照しながら、下記の詳細な説明を読まれたい。
すでに簡単に説明したように、人の音声は、(語または音を構成している)本質的な内容ばかりでなく、語および音が生成される方法についての情報も含む。通常、一組のパラメータ(韻律的パラメータ)が、話された語または発声がどのようにして音声化されたのか、またどんなふうな音なのかを少なくとも部分的に記述する。韻律的パラメータの例としては、ピッチ、エネルギーおよびタイミングがある。韻律的内容をもっとよく使用すれば、もっと自然でもっと分かりやすい合成音声、すなわち、合成したオーディオ・インタフェースを使用する携帯電話のような現代の通信システムで役に立つ機能を生成することができる。
本発明による電話デバイスは、音声合成回路、ロジック、およびそのスピーカを通して供給される可聴信号を生成するために実行することができるコード命令を使用する。可聴出力を合成し、生成するためにユーザが話した語の韻律的特徴を抽出し、使用することにより、電話デバイスは、ユーザの音声のように聞こえる高品質でリアルに響く音声を合成する。1つの特殊な用途は、携帯電話のユーザが話したコマンドを確認するために使用する合成した音声メッセージの品質および分かり易さを改善することである。
図1は、音声ユーザ・インタフェースを有する携帯電話デバイス10のブロック図であ
る。このシステムは、入力、出力、処理および記憶構成要素を含む。
オーディオ入力装置1000は発音した発声を受信する。オーディオ入力装置は、マイクロフォンである。より詳細に説明すると、携帯電話デバイス10による通信に使用するマイクロフォンである。
オーディオ入力装置1000は、受信したオーディオ入力信号を、ピッチ検出装置2100、および受信したオーディオ信号から韻律的および非韻律的パラメータ情報の両方を抽出するMel Frequency Cepstral Compact(MFCC)信号プロセッサ2200に送る。
復号装置/音声認識エンジン2300は、発音した発声を認識し、認識した語を音声合成装置2400に供給する。また、認識した語はテキストとして視覚的表示デバイス(図示せず)に送られる。
音声合成装置2400は、システム内に予めプログラムされていて、発音した発声の韻律的パラメータに依存しない規則を使用して、認識した語の名目的(デフォルト)形を合成する。
韻律的模擬語を生成するために、韻律的模擬語発生器2600は、名目的合成語に働きかけ、ピッチ、タイミングまたは他の韻律的パラメータを名目的合成語に適用する。韻律的模擬語発生器2600は、語を時間的に伸長したり圧縮したりして生成した韻律的模擬語の長さを調整する。図2の全語モデルの場合には、全語の始めおよび終わりは一時的な参照点としての働きをし、一方、単音レベルのモデルの場合には個々の電話は一時的参照点としての働きをする。
韻律的模擬句が生成されると、この句は可聴出力に適した形に変換される。オーディオ変換器2700は、韻律的模擬句を受信し、オーディオ出力装置2800が再生する電気信号に必要な変換を行う。
図1の実施形態は、プロセッサ20で入力/出力およびメモリ記憶構成要素以外のすべてを実施する。もちろん、同じ結果を得るために2つ以上のプロセッサを使用することができる。これは、デジタル信号プロセッサ(DSP)のような複数の専用プロセッサを使用する実施形態を含む。
記憶装置30は、プログラムされたソフトウェア命令を含んでいる機械読み取り可能媒体を含むメモリ構成要素である。この機械は命令を読んで処理するデータ・プロセッサである。命令は、システムの機能を実行するために、プロセッサ20またはその構成要素で実行される。オペレーティング・システムは、音声認識、処理、韻律的パラメータ抽出、音声合成、および模擬語生成を実行するために、記憶している命令の実行を容易にするシステムにインストールされる。記憶装置30は、本明細書に記載するソフトウェア命令、および他のプログラムに属する他のプログラム命令により共有される。例えば、携帯電話デバイスの着信音、表示グラフィックス、および他の機能を制御するためのプログラム命令は、また記憶装置30内でこれらの命令に割り当てられたメモリ空間内に常駐することができる。
図2は、受信した発音した語からの韻律的情報を使用して、合成発声を生成するためのプロセスのブロック図である。図の機能ブロックは、機能ブロックの機能を実行する図1の物理構成要素に対応する。発声はフレームに分割される。フレームの長さは、音声合成の品質に影響を与える。図2の実施形態は、フレーム毎に発声を処理する。この場合、フレームは予め定義した時間のセグメントである。音声アプリケーションの場合には、フレ
ームの長さが長すぎると、音声の合成が不正確になり品質が悪くなる恐れがある。一方、フレームの長さが短すぎると、もっと多くの計算リソース(処理、記憶装置等)が必要になる。上記実施形態の場合には、フレームの持続時間は約10〜20ミリ秒である。
マイクロフォンのような入力装置は、ステップ100において発音した発声102(例えば、「家に電話して」という句)を捕捉する。発音した発声102は、この場合は、ユーザの家の電話を呼び出すことである携帯電話デバイスがとる動作に対応する。この例の場合には、電話機はその名前が告げられた電話番号(家の電話番号)を探してダイヤルする。
システムは、その韻律的パラメータについて発音した発声102を分析し、韻律的パラメータの数値を抽出する。システムは、例えば、発音した発声のピッチを抽出する。ピッチは、通常、音声の全周波数内容を示す。ステップ110は、ピッチ検出を示す。
システムは、また、ステップ120において、例えば、発音した発声102のmel cepstraおよびエネルギー内容のようなスペクトル内容を抽出する。MFCC分析装置は、発生された音声102のMFCCケプストラムを測定する。MFCC分析装置は、ステップ122において韻律的パラメータのフレームを出力する。
復号装置または音声認識エンジンは、ステップ130において発音した発声を復号または認識する。復号装置は、一組の可能な既知の語から認識した語を選択するためにハードウェアおよびソフトウェアを使用する。復号装置は、視覚的に復号結果を表示するために、発音した発声に対応する認識した語を認識し、その語をテキスト出力132として供給する。携帯電話の表示デバイスは、ユーザにテキスト出力132を表示する。
復号装置は、また、ステップ140において合成した名目的語フレームを生成するために、認識した語および一組のデフォルト・プログラム(名目的)合成規則を使用する音声合成装置に認識した語134を送る。この実施形態の場合には、復号装置は、全語モデルを使用し、合成は語のレベルで行われる。
韻律的模擬語発生器は、認識した語の名目的合成フレーム142、フレーム112毎にピッチ内に供給される捕捉した韻律的パラメータおよび実際のフレーム124を使用して、韻律的模擬句を生成する。韻律的模擬語発生器は、韻律的パラメータをフレーム毎に名目的フレーム142に適用する。さらに、ステップ150において、韻律的模擬語発生器は、全語のレベルで、一時的に生成した模擬語を名目的語と整合する。すなわち、名目的語の始点および終点を強制的に発音した語の始点および終点に対応させることにより、認識した語134が時間の流れの中で、対応する捕捉した発音した語に整合される。
韻律的模擬語発生器は、ピッチのような捕捉した韻律的パラメータを名目的語に適用し、それにより発音した発声102の韻律を真似る。韻律的模擬語発生器は、また、必要な長さを得るために句を伸長したり、圧縮したりすることにより生成した句の長さを調整する。韻律的模擬句の伸長および圧縮は、句の長さを発音した発声の長さに一致させるために、それぞれ句からフレームを追加したり、除去したりすることにより行われる。結果は、その韻律により、その内容内の元の発音した語およびその音を真似する合成した韻律的模擬句となる。
オーディオ変換器は、生成した韻律的模擬句を受信し、適用した実際のタイミングおよびピッチ152により、名目的フレームを携帯電話のスピーカで再生するオーディオ信号に変換する(ステップ160)。スピーカは、ユーザが通常の電話通信出力を聞く同じスピーカである。
上記プロセスの最終結果は、元の発音した発声102に似ている自然な発音で聞くことができる句である。この合成模擬句は、実行するコマンドまたはダイヤルする名前を確認するために、携帯電話のユーザに対して再生される可聴確認メッセージとして使用される。
図3は、全語モデルで行う場合よりももっと優れた詳細なレベルで、語が合成される単音レベルのモデルを使用するプロセスを示す。通常、単音は音声の音響成分である。発音した言語は、発音した言語の音を形成するために使用する一組の単音を含む。例えば、「HOME」は、3つの単音「H」、「O」および「M」を含む。音声を全語レベルではなく、単音レベルで処理すると、音声合成の品質および精度を改善することができる。
マイクロフォンのような入力装置は、すでに説明したように、ステップ100で発音した発声を捕捉する。1つまたは複数の信号プロセッサおよびピッチ検出装置は、発音した発声102から韻律的パラメータ(ピッチ、エネルギーおよび/またはタイミング)を抽出する。ピッチ検出装置は、ステップ110において発音した発声のピッチを検出し、MFCC分析装置は、ステップ220においてmel cepstraおよびタイミング・パラメータを抽出する。タイミング情報の中のあるものは、音声認識システムの一部であってもよい復号装置からのものである場合がある。
復号装置は、ステップ230において音声を認識する。復号装置は、視覚的表示ユニットに認識した語の中の選択したもの232を出力し、また音素音声合成装置に個々の単音234および認識した語の整合情報を出力する。復号装置は、後で韻律的模擬句を生成する際に使用するための整合情報236を供給する。
音素音声合成装置は、復号ステップ230からの単音および整合出力を取り上げ、ステップ240において認識した語の単音レベルでの合成を行う。音声合成装置は、音素合成242からフレームを出力する。
パラメータ参照ステップ250は、名目的フレーム単音をベースとしていて、名目的フレームおよび名目的整合情報252を供給する。
韻律的模擬語発生器は、ステップ260において名目的フレームを受信し、また捕捉した実際のフレーム224、整合情報236、フレーム毎のピッチ・データ212、および名目的整合を含む名目的フレーム252を受信する。韻律的模擬語発生器は、発音した入力句102からのタイミング、エネルギーおよびピッチを有する一組の名目的フレームを出力する。これは韻律的模擬句262である。
図2の前の実施形態のところで説明したように、名目的選択が、発音した語から入手した抽出韻律的パラメータにより合成される。しかし、この実施形態の場合には、名目的語を発音した語と時間整合するのではなく、成分単音が名目−発音整合プロセスを区切る一時的索引点または境界マーカとして使用される。すなわち、図3の実施形態は、語内の単音および語自身を整合し、それにより全時間整合プロセスにもっと大きな拘束を課する。
すでに説明したように、オーディオ変換器は、韻律的模擬語262をステップ270においてオーディオ信号に変換する。オーディオ出力装置は、ステップ280において可聴信号を電話のユーザに供給する。デジタル−アナログ変換器は、デジタル韻律的模擬語信号を、電話デバイスのスピーカ上で再生することができる信号に変換する。
上記コンセプトは、上記例示としての実施形態での使用に限定されないで、他のシステムおよび環境でも使用することができる。例えば、このような技術およびデバイスは、パ
ーソナル・プラナー、玩具、自動ナビゲーション装置、ホーム・エレクトロニクス、家庭用品、および通常のコンピューティング・デバイスを含むすべての音声駆動電子デバイスでも使用することができる。
本発明のシステムおよび方法は、また、語だけに限定されないで、任意の発音した言語の語の任意の部分、または語の組合わせ、句、文、可聴ジェスチャ等にも適用することができる。それ故、これらの任意のものおよび全体を発声と呼ぶ。
これらのコンセプトは、他のヒューマン・マシン・インタフェースとの組合わせで使用することができる。例えば、携帯電話は、ダイヤルするコマンドまたは番号を確認するために、ユーザに可聴および/または視覚的フィードバックを供給するばかりでなく、このようなコマンドを実行するためのユーザの側での動作を要求することもできる。ユーザは、認識したおよび合成した語がOKであることを表示するために携帯電話上の確認ボタンを押さなければならないし、合成された可聴メッセージの最終的受け入れを行うために、「はい」または「OK」といわなければならない。
上記説明および実施形態をよく読めば、当業者であれば、本発明の本質から逸脱することなしに本発明を実行する際に種々の修正および等価的置換を行うことができることを理解することができるだろう。それ故、本発明は、上記の明示の実施形態により制限されるものではなく、添付の特許請求の範囲により制限されるものと解釈すべきである。
音声インタフェース・システムを含む携帯電話デバイスのブロック図。 全語モデルを使用する音声を合成するためのプロセスのブロック図。 単音レベルのモデルを使用する音声を合成するためのプロセスのブロック図。

Claims (14)

  1. 音声を合成するための方法であって、
    発音した発声を受信するステップと、
    前記発音した発声から1つまたは複数の韻律的パラメータを抽出するステップと、
    認識した語を供給するために前記発音した発声を復号するステップと、
    前記認識した語に対応する名目的語を合成するステップと、
    前記名目的語および前記1つまたは複数の韻律的パラメータにより、韻律的模擬語を生成するステップと、を含む方法。
  2. 1つまたは複数の韻律的パラメータがピッチを含む請求項1に記載の方法。
  3. 1つまたは複数の韻律的パラメータがタイミングを含む請求項1に記載の方法。
  4. 1つまたは複数の韻律的パラメータがエネルギーを含む請求項1に記載の方法。
  5. 前記発音した発声と前記名目的語との一時的整合をさらに含む請求項1に記載の方法。
  6. 前記発音した発声の単音と前記名目的語の単音との一時的整合をさらに含む請求項1に記載の方法。
  7. 前記韻律的模擬語の対応するオーディオ信号への変換をさらに含む請求項1に記載の方法。
  8. 前記発音した発声が電話入力装置により受信され、前記韻律的模擬語が電話出力装置に供給される請求項1に記載の方法。
  9. 音声を合成するためのシステムであって、
    発音した発声を受信するオーディオ入力装置と、
    前記発音した発声の1つまたは複数の韻律的パラメータを決定する信号プロセッサと、
    前記発音した発声を認識し、対応する認識した語を供給する復号装置と、
    前記認識した語に対応する名目的語を合成する音声合成装置と、
    前記名目的語と前記1つまたは複数の韻律的パラメータを受信し、韻律的模擬語を生成する韻律的模擬語発生器と、を備えるシステム。
  10. 前記復号装置が音声認識エンジンを備える請求項8に記載のシステム。
  11. 前記システムが携帯電話デバイス上に位置する請求項8に記載のシステム。
  12. 音声分析および処理のために実行することができる命令を含む記憶装置をさらに備える請求項8に記載のシステム。
  13. プロセッサ上で実行することができる記憶している命令を含むコンピュータ読み取り可能媒体であって、
    発音した発声を受信するための命令と、
    前記発音した発声から韻律的パラメータを抽出するための命令と、
    認識した語を供給するために前記発音した発声を復号するための命令と、
    前記認識した語に対応する名目的語を合成するための命令と、
    前記名目的語および前記韻律的パラメータにより韻律的模擬語を生成するための命令と、を含むコンピュータ読み取り可能媒体。
  14. 前記媒体が、携帯電話装置内に配置され、ユーザ・インタフェースと一緒に動作する請求項12に記載のコンピュータ読み取り可能媒体。
JP2006502907A 2003-01-24 2004-01-21 韻律的模擬語合成方法および装置 Pending JP2006517037A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US44226703P 2003-01-24 2003-01-24
US10/657,421 US8768701B2 (en) 2003-01-24 2003-09-08 Prosodic mimic method and apparatus
PCT/US2004/001520 WO2004068466A1 (en) 2003-01-24 2004-01-21 Prosodic mimic synthesis method and apparatus

Publications (1)

Publication Number Publication Date
JP2006517037A true JP2006517037A (ja) 2006-07-13

Family

ID=32738387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006502907A Pending JP2006517037A (ja) 2003-01-24 2004-01-21 韻律的模擬語合成方法および装置

Country Status (5)

Country Link
US (1) US8768701B2 (ja)
JP (1) JP2006517037A (ja)
CN (1) CN1742321B (ja)
DE (1) DE112004000187T5 (ja)
WO (1) WO2004068466A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
JP4483450B2 (ja) * 2004-07-22 2010-06-16 株式会社デンソー 音声案内装置、音声案内方法およびナビゲーション装置
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
KR100690243B1 (ko) * 2006-06-07 2007-03-12 삼성전자주식회사 휴대 단말기의 카메라 제어 장치 및 방법
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
JP5954348B2 (ja) * 2013-05-31 2016-07-20 ヤマハ株式会社 音声合成装置および音声合成方法
EP3007165B1 (en) 2013-05-31 2018-08-01 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
JP6446993B2 (ja) 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
US10586079B2 (en) 2016-12-23 2020-03-10 Soundhound, Inc. Parametric adaptation of voice synthesis
DE102016125606A1 (de) * 2016-12-23 2018-06-28 Miele & Cie. Kg Verfahren und Vorrichtung zum Betreiben eines Haushaltgeräts und Haushaltgerät
US10600404B2 (en) * 2017-11-29 2020-03-24 Intel Corporation Automatic speech imitation
US10706347B2 (en) 2018-09-17 2020-07-07 Intel Corporation Apparatus and methods for generating context-aware artificial intelligence characters
US20190051302A1 (en) * 2018-09-24 2019-02-14 Intel Corporation Technologies for contextual natural language generation in a vehicle
CN113516963B (zh) * 2020-04-09 2023-11-10 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511794A (ja) * 1991-07-01 1993-01-22 Ricoh Co Ltd 音声合成装置
JPH09152884A (ja) * 1995-11-30 1997-06-10 Fujitsu Ten Ltd 音声合成装置
JPH11112633A (ja) * 1997-10-07 1999-04-23 Nec Saitama Ltd 携帯電話
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JP2000066694A (ja) * 1998-08-21 2000-03-03 Sanyo Electric Co Ltd 音声合成装置および音声合成方法
JP2000231396A (ja) * 1999-02-09 2000-08-22 Matsushita Electric Ind Co Ltd セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
JP2001184099A (ja) * 1999-12-22 2001-07-06 Yamaha Corp 音声変換装置及び音声変換方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2729487B2 (ja) 1988-07-20 1998-03-18 ライオン株式会社 集塵材
US5796916A (en) * 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
JPH0878778A (ja) * 1994-09-07 1996-03-22 Mitsubishi Electric Corp 半導体レーザ装置,及びその製造方法
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
DE19751123C1 (de) 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
JP4367808B2 (ja) * 1999-12-03 2009-11-18 富士通株式会社 音声データ圧縮・解凍装置及び方法
JP4296714B2 (ja) 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
JP4867076B2 (ja) * 2001-03-28 2012-02-01 日本電気株式会社 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
WO2002097590A2 (en) 2001-05-30 2002-12-05 Cameronsound, Inc. Language independent and voice operated information management system
EP1262954A1 (en) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for verbal entry of digits or commands
EP1271469A1 (en) 2001-06-22 2003-01-02 Sony International (Europe) GmbH Method for generating personality patterns and for synthesizing speech
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
EP1298647B1 (en) * 2001-09-28 2005-11-16 Alcatel A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder
US7321854B2 (en) * 2002-09-19 2008-01-22 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
US7124082B2 (en) * 2002-10-11 2006-10-17 Twisted Innovations Phonetic speech-to-text-to-speech system and method
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511794A (ja) * 1991-07-01 1993-01-22 Ricoh Co Ltd 音声合成装置
JPH09152884A (ja) * 1995-11-30 1997-06-10 Fujitsu Ten Ltd 音声合成装置
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JPH11112633A (ja) * 1997-10-07 1999-04-23 Nec Saitama Ltd 携帯電話
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JP2000066694A (ja) * 1998-08-21 2000-03-03 Sanyo Electric Co Ltd 音声合成装置および音声合成方法
JP2000231396A (ja) * 1999-02-09 2000-08-22 Matsushita Electric Ind Co Ltd セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
JP2001184099A (ja) * 1999-12-22 2001-07-06 Yamaha Corp 音声変換装置及び音声変換方法

Also Published As

Publication number Publication date
DE112004000187T5 (de) 2005-12-01
US20040148172A1 (en) 2004-07-29
US8768701B2 (en) 2014-07-01
CN1742321B (zh) 2010-08-18
WO2004068466A1 (en) 2004-08-12
CN1742321A (zh) 2006-03-01

Similar Documents

Publication Publication Date Title
JP2006517037A (ja) 韻律的模擬語合成方法および装置
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
JP7244665B2 (ja) エンドツーエンドの音声変換
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
TWI281146B (en) Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
JP4246792B2 (ja) 声質変換装置および声質変換方法
JPH10507536A (ja) 言語認識
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
WO2002097590A2 (en) Language independent and voice operated information management system
CN101901598A (zh) 一种哼唱合成方法和系统
US10143027B1 (en) Device selection for routing of communications
WO2008147649A1 (en) Method for synthesizing speech
EP1899955B1 (en) Speech dialog method and system
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
US20070055524A1 (en) Speech dialog method and device
CN113421571B (zh) 一种语音转换方法、装置、电子设备和存储介质
EP1271469A1 (en) Method for generating personality patterns and for synthesizing speech
WO2018173295A1 (ja) ユーザインタフェース装置及び方法、並びに音操作システム
US11172527B2 (en) Routing of communications to a device
JP2005208394A (ja) 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
CN114464151B (zh) 修音方法及装置
JP2004271620A (ja) 携帯端末
JP6911398B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN113870828A (zh) 音频合成方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100506

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426