JP2006517037A

JP2006517037A - 韻律的模擬語合成方法および装置

Info

Publication number: JP2006517037A
Application number: JP2006502907A
Authority: JP
Inventors: コーエン、ジョーダン; エル．ロス、ダニエル; ズロカーニク、イゴール
Original assignee: Voice Signal Technologies Inc
Current assignee: Voice Signal Technologies Inc
Priority date: 2003-01-24
Filing date: 2004-01-21
Publication date: 2006-07-13
Also published as: DE112004000187T5; US20040148172A1; US8768701B2; CN1742321B; WO2004068466A1; CN1742321A

Abstract

語である場合もある発音された発声を捕捉するステップと、そこから韻律的情報（パラメータ）を抽出するステップと、次に、発音された発声に対応する韻律的模擬語および名目的語を生成するために、合成した（名目的）語に韻律的パラメータを適用するステップとを含む可聴句（語）を合成するための方法および装置。

Description

本発明は音声対応の通信システムに関する。

多くの携帯電話（この場合は、電話または音声通信機能を行う少なくともデータ処理および通信装置を含んでいる）は、ユーザが機能を呼び出すためにある表現を発声することにより、その機能にアクセスすることができるようにする、音声によるインタフェース機能を備える。周知の例としては、ユーザが電話機に名前または他の予め記憶させた表現を話し、電話機がその名前に関連する番号をダイヤルすることによって応答する音声ダイヤルがある。

ユーザが実際に行いたいのは、ダイヤルする番号または呼び出す機能を確認することであり、携帯電話は、ユーザに確認メッセージを表示することができ、番号が正しい場合にはユーザは次に進むことができ、番号が間違っている場合にはこの機能を中止することができる。携帯電話デバイスと相互作用を行うために、可聴および／または視覚的ユーザ・インタフェースが使用されている。可聴確認およびユーザ・インタフェースを使用すれば、視覚的確認およびインタフェースを使用した場合と比較すると、もっと多くの手を使わない操作を行うことができる。そのため、運転者が望んでいるように、電話デバイスを見る代わりに道路を継続的に見ることができる。

電話のユーザが発音した句、語、音（本明細書においては、包括的に発声と呼ぶ）を認識するために、携帯電話においては音声認識が使用されている。それ故、音声認識は、電話帳アプリケーションで使用される場合がある。ある例の場合には、電話機は電話の話し手の出力を通して供給される可聴確認で認識した、発音した名前に応答する。ユーザは再生を聞いて電話機の認識結果を受け入れたり、拒否したりする。

人間の音声の場合、各発声は、発声音が何であるかを決定する韻律的パラメータと呼ばれる定量化することができるある品質を有する。通常、これらのものは、ピッチまたはトーン、音声素子のタイミング、および通常エネルギーとして表されるアクセントと見なされる。音声認識システムは、非韻律的であるが何であったのかを判断するのに役に立つ、声道の形状のような音声の他の特徴を使用する。聞き手は、部分的には音声の韻律的パラメータに基づいて品質を見分けることができる。また、話し手は、通信全体において、自分の音声を他人の音声から区別するために音声の韻律を使用する。それ故、人は、当然韻律を感知し、「本当の」人間の音声と機械（音声合成装置）が生成した「合成」音声とを容易に区別することができる。実際には、人間の耳は、乏しい韻律的規則を使用する合成音声を理解できない場合がある。

全体的に見て、本発明のいくつかの態様は、語である場合もある発音された発声を捕捉するステップと、そこから韻律的および非韻律的情報（パラメータ）の両方を抽出するステップと、その語を認識するステップと、次に、発音された発声に対応する韻律的模擬語句および名目的語を生成するために、語の合成した（名目的）バージョンに韻律的パラメータを適用するステップとを含む可聴句（語）を合成するための方法およびシステムを特徴とする。

ある態様によれば、本発明は、発音した発声を受信するステップと、この発音した発声から１つまたは複数の韻律的パラメータを抽出するステップと、認識した語を供給するために発音した発声を復号するステップと、認識した語に対応する名目的語を合成するステップと、名目的語および韻律的パラメータを使用して韻律的模擬語を生成するステップとを含む音声合成方法を特徴とする。

他の態様によれば、本発明は、発音した発声を受信するオーディオ入力装置と、発音した発声のピッチを検出するピッチ検出装置と、発音した発声の韻律的パラメータを決定する信号プロセッサと、発音した発声を認識し、対応する認識した語を供給する復号装置と、認識した語に対応する名目的語を合成する音声合成装置と、名目的語および韻律的パラメータを受信し、韻律的模擬語を生成する韻律的模擬語発生器とを含む音声を合成するためのシステムを特徴とする。

さらに他の態様によれば、本発明は、発音した発声を受信するための命令と、この発音した発声から１つまたは複数の韻律的パラメータを抽出するための命令と、認識した語を供給するために発音した発声を復号するための命令と、認識した語に対応する名目的語を合成するための命令と、名目的語および韻律的パラメータを使用して韻律的模擬語を生成するための命令とを含むプロセッサ上での実行することができる記憶している命令を有するコンピュータ読み取り可能媒体を特徴とする。

本発明のこれらの態様および他の態様は、特に音声作動コマンドおよびユーザ・インタフェースを含む携帯電話のような小形の移動機で改善された音声合成を行う。ある態様から見れば、可聴確認メッセージのもっと優れた合成を行うことができるこの可聴確認メッセージは、ユーザの属性に似た韻律的属性を有する。優れた音声合成はより自然であり、人間にとってもっと分かりやすいために、本発明は可聴ユーザ・インタフェースの有用性および聞き取り易さを改善する。

下記の説明および特許請求の範囲を読めば、本発明の種々の特徴および利点を理解することができるだろう。

本発明の性質および目的をもっとよく理解してもらうために、同じまたは類似の部材を同じ参照番号で示してある添付の図面を参照しながら、下記の詳細な説明を読まれたい。
すでに簡単に説明したように、人の音声は、（語または音を構成している）本質的な内容ばかりでなく、語および音が生成される方法についての情報も含む。通常、一組のパラメータ（韻律的パラメータ）が、話された語または発声がどのようにして音声化されたのか、またどんなふうな音なのかを少なくとも部分的に記述する。韻律的パラメータの例としては、ピッチ、エネルギーおよびタイミングがある。韻律的内容をもっとよく使用すれば、もっと自然でもっと分かりやすい合成音声、すなわち、合成したオーディオ・インタフェースを使用する携帯電話のような現代の通信システムで役に立つ機能を生成することができる。

本発明による電話デバイスは、音声合成回路、ロジック、およびそのスピーカを通して供給される可聴信号を生成するために実行することができるコード命令を使用する。可聴出力を合成し、生成するためにユーザが話した語の韻律的特徴を抽出し、使用することにより、電話デバイスは、ユーザの音声のように聞こえる高品質でリアルに響く音声を合成する。１つの特殊な用途は、携帯電話のユーザが話したコマンドを確認するために使用する合成した音声メッセージの品質および分かり易さを改善することである。

図１は、音声ユーザ・インタフェースを有する携帯電話デバイス１０のブロック図であ
る。このシステムは、入力、出力、処理および記憶構成要素を含む。
オーディオ入力装置１０００は発音した発声を受信する。オーディオ入力装置は、マイクロフォンである。より詳細に説明すると、携帯電話デバイス１０による通信に使用するマイクロフォンである。

オーディオ入力装置１０００は、受信したオーディオ入力信号を、ピッチ検出装置２１００、および受信したオーディオ信号から韻律的および非韻律的パラメータ情報の両方を抽出するＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｍｐａｃｔ（ＭＦＣＣ）信号プロセッサ２２００に送る。

復号装置／音声認識エンジン２３００は、発音した発声を認識し、認識した語を音声合成装置２４００に供給する。また、認識した語はテキストとして視覚的表示デバイス（図示せず）に送られる。

音声合成装置２４００は、システム内に予めプログラムされていて、発音した発声の韻律的パラメータに依存しない規則を使用して、認識した語の名目的（デフォルト）形を合成する。

韻律的模擬語を生成するために、韻律的模擬語発生器２６００は、名目的合成語に働きかけ、ピッチ、タイミングまたは他の韻律的パラメータを名目的合成語に適用する。韻律的模擬語発生器２６００は、語を時間的に伸長したり圧縮したりして生成した韻律的模擬語の長さを調整する。図２の全語モデルの場合には、全語の始めおよび終わりは一時的な参照点としての働きをし、一方、単音レベルのモデルの場合には個々の電話は一時的参照点としての働きをする。

韻律的模擬句が生成されると、この句は可聴出力に適した形に変換される。オーディオ変換器２７００は、韻律的模擬句を受信し、オーディオ出力装置２８００が再生する電気信号に必要な変換を行う。

図１の実施形態は、プロセッサ２０で入力／出力およびメモリ記憶構成要素以外のすべてを実施する。もちろん、同じ結果を得るために２つ以上のプロセッサを使用することができる。これは、デジタル信号プロセッサ（ＤＳＰ）のような複数の専用プロセッサを使用する実施形態を含む。

記憶装置３０は、プログラムされたソフトウェア命令を含んでいる機械読み取り可能媒体を含むメモリ構成要素である。この機械は命令を読んで処理するデータ・プロセッサである。命令は、システムの機能を実行するために、プロセッサ２０またはその構成要素で実行される。オペレーティング・システムは、音声認識、処理、韻律的パラメータ抽出、音声合成、および模擬語生成を実行するために、記憶している命令の実行を容易にするシステムにインストールされる。記憶装置３０は、本明細書に記載するソフトウェア命令、および他のプログラムに属する他のプログラム命令により共有される。例えば、携帯電話デバイスの着信音、表示グラフィックス、および他の機能を制御するためのプログラム命令は、また記憶装置３０内でこれらの命令に割り当てられたメモリ空間内に常駐することができる。

図２は、受信した発音した語からの韻律的情報を使用して、合成発声を生成するためのプロセスのブロック図である。図の機能ブロックは、機能ブロックの機能を実行する図１の物理構成要素に対応する。発声はフレームに分割される。フレームの長さは、音声合成の品質に影響を与える。図２の実施形態は、フレーム毎に発声を処理する。この場合、フレームは予め定義した時間のセグメントである。音声アプリケーションの場合には、フレ
ームの長さが長すぎると、音声の合成が不正確になり品質が悪くなる恐れがある。一方、フレームの長さが短すぎると、もっと多くの計算リソース（処理、記憶装置等）が必要になる。上記実施形態の場合には、フレームの持続時間は約１０〜２０ミリ秒である。

マイクロフォンのような入力装置は、ステップ１００において発音した発声１０２（例えば、「家に電話して」という句）を捕捉する。発音した発声１０２は、この場合は、ユーザの家の電話を呼び出すことである携帯電話デバイスがとる動作に対応する。この例の場合には、電話機はその名前が告げられた電話番号（家の電話番号）を探してダイヤルする。

システムは、その韻律的パラメータについて発音した発声１０２を分析し、韻律的パラメータの数値を抽出する。システムは、例えば、発音した発声のピッチを抽出する。ピッチは、通常、音声の全周波数内容を示す。ステップ１１０は、ピッチ検出を示す。

システムは、また、ステップ１２０において、例えば、発音した発声１０２のｍｅｌｃｅｐｓｔｒａおよびエネルギー内容のようなスペクトル内容を抽出する。ＭＦＣＣ分析装置は、発生された音声１０２のＭＦＣＣケプストラムを測定する。ＭＦＣＣ分析装置は、ステップ１２２において韻律的パラメータのフレームを出力する。

復号装置または音声認識エンジンは、ステップ１３０において発音した発声を復号または認識する。復号装置は、一組の可能な既知の語から認識した語を選択するためにハードウェアおよびソフトウェアを使用する。復号装置は、視覚的に復号結果を表示するために、発音した発声に対応する認識した語を認識し、その語をテキスト出力１３２として供給する。携帯電話の表示デバイスは、ユーザにテキスト出力１３２を表示する。

復号装置は、また、ステップ１４０において合成した名目的語フレームを生成するために、認識した語および一組のデフォルト・プログラム（名目的）合成規則を使用する音声合成装置に認識した語１３４を送る。この実施形態の場合には、復号装置は、全語モデルを使用し、合成は語のレベルで行われる。

韻律的模擬語発生器は、認識した語の名目的合成フレーム１４２、フレーム１１２毎にピッチ内に供給される捕捉した韻律的パラメータおよび実際のフレーム１２４を使用して、韻律的模擬句を生成する。韻律的模擬語発生器は、韻律的パラメータをフレーム毎に名目的フレーム１４２に適用する。さらに、ステップ１５０において、韻律的模擬語発生器は、全語のレベルで、一時的に生成した模擬語を名目的語と整合する。すなわち、名目的語の始点および終点を強制的に発音した語の始点および終点に対応させることにより、認識した語１３４が時間の流れの中で、対応する捕捉した発音した語に整合される。

韻律的模擬語発生器は、ピッチのような捕捉した韻律的パラメータを名目的語に適用し、それにより発音した発声１０２の韻律を真似る。韻律的模擬語発生器は、また、必要な長さを得るために句を伸長したり、圧縮したりすることにより生成した句の長さを調整する。韻律的模擬句の伸長および圧縮は、句の長さを発音した発声の長さに一致させるために、それぞれ句からフレームを追加したり、除去したりすることにより行われる。結果は、その韻律により、その内容内の元の発音した語およびその音を真似する合成した韻律的模擬句となる。

オーディオ変換器は、生成した韻律的模擬句を受信し、適用した実際のタイミングおよびピッチ１５２により、名目的フレームを携帯電話のスピーカで再生するオーディオ信号に変換する（ステップ１６０）。スピーカは、ユーザが通常の電話通信出力を聞く同じスピーカである。

上記プロセスの最終結果は、元の発音した発声１０２に似ている自然な発音で聞くことができる句である。この合成模擬句は、実行するコマンドまたはダイヤルする名前を確認するために、携帯電話のユーザに対して再生される可聴確認メッセージとして使用される。

図３は、全語モデルで行う場合よりももっと優れた詳細なレベルで、語が合成される単音レベルのモデルを使用するプロセスを示す。通常、単音は音声の音響成分である。発音した言語は、発音した言語の音を形成するために使用する一組の単音を含む。例えば、「ＨＯＭＥ」は、３つの単音「Ｈ」、「Ｏ」および「Ｍ」を含む。音声を全語レベルではなく、単音レベルで処理すると、音声合成の品質および精度を改善することができる。

マイクロフォンのような入力装置は、すでに説明したように、ステップ１００で発音した発声を捕捉する。１つまたは複数の信号プロセッサおよびピッチ検出装置は、発音した発声１０２から韻律的パラメータ（ピッチ、エネルギーおよび／またはタイミング）を抽出する。ピッチ検出装置は、ステップ１１０において発音した発声のピッチを検出し、ＭＦＣＣ分析装置は、ステップ２２０においてｍｅｌｃｅｐｓｔｒａおよびタイミング・パラメータを抽出する。タイミング情報の中のあるものは、音声認識システムの一部であってもよい復号装置からのものである場合がある。

復号装置は、ステップ２３０において音声を認識する。復号装置は、視覚的表示ユニットに認識した語の中の選択したもの２３２を出力し、また音素音声合成装置に個々の単音２３４および認識した語の整合情報を出力する。復号装置は、後で韻律的模擬句を生成する際に使用するための整合情報２３６を供給する。

音素音声合成装置は、復号ステップ２３０からの単音および整合出力を取り上げ、ステップ２４０において認識した語の単音レベルでの合成を行う。音声合成装置は、音素合成２４２からフレームを出力する。

パラメータ参照ステップ２５０は、名目的フレーム単音をベースとしていて、名目的フレームおよび名目的整合情報２５２を供給する。
韻律的模擬語発生器は、ステップ２６０において名目的フレームを受信し、また捕捉した実際のフレーム２２４、整合情報２３６、フレーム毎のピッチ・データ２１２、および名目的整合を含む名目的フレーム２５２を受信する。韻律的模擬語発生器は、発音した入力句１０２からのタイミング、エネルギーおよびピッチを有する一組の名目的フレームを出力する。これは韻律的模擬句２６２である。

図２の前の実施形態のところで説明したように、名目的選択が、発音した語から入手した抽出韻律的パラメータにより合成される。しかし、この実施形態の場合には、名目的語を発音した語と時間整合するのではなく、成分単音が名目−発音整合プロセスを区切る一時的索引点または境界マーカとして使用される。すなわち、図３の実施形態は、語内の単音および語自身を整合し、それにより全時間整合プロセスにもっと大きな拘束を課する。

すでに説明したように、オーディオ変換器は、韻律的模擬語２６２をステップ２７０においてオーディオ信号に変換する。オーディオ出力装置は、ステップ２８０において可聴信号を電話のユーザに供給する。デジタル−アナログ変換器は、デジタル韻律的模擬語信号を、電話デバイスのスピーカ上で再生することができる信号に変換する。

上記コンセプトは、上記例示としての実施形態での使用に限定されないで、他のシステムおよび環境でも使用することができる。例えば、このような技術およびデバイスは、パ
ーソナル・プラナー、玩具、自動ナビゲーション装置、ホーム・エレクトロニクス、家庭用品、および通常のコンピューティング・デバイスを含むすべての音声駆動電子デバイスでも使用することができる。

本発明のシステムおよび方法は、また、語だけに限定されないで、任意の発音した言語の語の任意の部分、または語の組合わせ、句、文、可聴ジェスチャ等にも適用することができる。それ故、これらの任意のものおよび全体を発声と呼ぶ。

これらのコンセプトは、他のヒューマン・マシン・インタフェースとの組合わせで使用することができる。例えば、携帯電話は、ダイヤルするコマンドまたは番号を確認するために、ユーザに可聴および／または視覚的フィードバックを供給するばかりでなく、このようなコマンドを実行するためのユーザの側での動作を要求することもできる。ユーザは、認識したおよび合成した語がＯＫであることを表示するために携帯電話上の確認ボタンを押さなければならないし、合成された可聴メッセージの最終的受け入れを行うために、「はい」または「ＯＫ」といわなければならない。

上記説明および実施形態をよく読めば、当業者であれば、本発明の本質から逸脱することなしに本発明を実行する際に種々の修正および等価的置換を行うことができることを理解することができるだろう。それ故、本発明は、上記の明示の実施形態により制限されるものではなく、添付の特許請求の範囲により制限されるものと解釈すべきである。

音声インタフェース・システムを含む携帯電話デバイスのブロック図。全語モデルを使用する音声を合成するためのプロセスのブロック図。単音レベルのモデルを使用する音声を合成するためのプロセスのブロック図。

Claims

音声を合成するための方法であって、
発音した発声を受信するステップと、
前記発音した発声から１つまたは複数の韻律的パラメータを抽出するステップと、
認識した語を供給するために前記発音した発声を復号するステップと、
前記認識した語に対応する名目的語を合成するステップと、
前記名目的語および前記１つまたは複数の韻律的パラメータにより、韻律的模擬語を生成するステップと、を含む方法。
１つまたは複数の韻律的パラメータがピッチを含む請求項１に記載の方法。
１つまたは複数の韻律的パラメータがタイミングを含む請求項１に記載の方法。
１つまたは複数の韻律的パラメータがエネルギーを含む請求項１に記載の方法。
前記発音した発声と前記名目的語との一時的整合をさらに含む請求項１に記載の方法。
前記発音した発声の単音と前記名目的語の単音との一時的整合をさらに含む請求項１に記載の方法。
前記韻律的模擬語の対応するオーディオ信号への変換をさらに含む請求項１に記載の方法。
前記発音した発声が電話入力装置により受信され、前記韻律的模擬語が電話出力装置に供給される請求項１に記載の方法。
音声を合成するためのシステムであって、
発音した発声を受信するオーディオ入力装置と、
前記発音した発声の１つまたは複数の韻律的パラメータを決定する信号プロセッサと、
前記発音した発声を認識し、対応する認識した語を供給する復号装置と、
前記認識した語に対応する名目的語を合成する音声合成装置と、
前記名目的語と前記１つまたは複数の韻律的パラメータを受信し、韻律的模擬語を生成する韻律的模擬語発生器と、を備えるシステム。
前記復号装置が音声認識エンジンを備える請求項８に記載のシステム。
前記システムが携帯電話デバイス上に位置する請求項８に記載のシステム。
音声分析および処理のために実行することができる命令を含む記憶装置をさらに備える請求項８に記載のシステム。
プロセッサ上で実行することができる記憶している命令を含むコンピュータ読み取り可能媒体であって、
発音した発声を受信するための命令と、
前記発音した発声から韻律的パラメータを抽出するための命令と、
認識した語を供給するために前記発音した発声を復号するための命令と、
前記認識した語に対応する名目的語を合成するための命令と、
前記名目的語および前記韻律的パラメータにより韻律的模擬語を生成するための命令と、を含むコンピュータ読み取り可能媒体。
前記媒体が、携帯電話装置内に配置され、ユーザ・インタフェースと一緒に動作する請求項１２に記載のコンピュータ読み取り可能媒体。