JPH07181997A

JPH07181997A - 韻律学的情報を自動的に抽出する方法および装置

Info

Publication number: JPH07181997A
Application number: JP6293858A
Authority: JP
Inventors: Bertil Lyberg; リュベルグベルティル
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1993-11-03
Filing date: 1994-11-01
Publication date: 1995-07-21
Also published as: DE69425874D1; EP0664537A3; EP0664537B1; EP0664537A2; DE69425874T2; US5677992A; SE9303623D0; SE9303623L; SE516526C2

Abstract

(57)【要約】【目的】音声中におけるアクセントの強弱を決定する方
法及び装置を提供する。【構成】基本音調モデルジェネレータ３は実際の音声の
基本音調をモデル化する。基本音調減衰検出部６は、基
本音調最小点検出部５によって検出された実際の音声の
基本音調の最小値に基づき、基本音調の減衰を決定す
る。この基本音調の減衰は基本音調減衰比較部７におい
てモデルの基本音調の減衰と比較される。両者の差に基
づき、モデルジェネレータはモデルを修正する。基本音
調変動／減衰比較部８は基本音調の変動／減衰比を決定
する。変動／減衰比比較部９は実際の音声の基本音調の
変動／減衰比とモデルの基本音調の変動／減衰比を比較
する。両者の差に基づき、モデルジェネレータはモデル
の基本音調の変動、減衰を修正する。モデルジェネレー
タから文アクセント配置等の韻律学的情報が抽出され
る。

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は人工的な音声分析に関する。本発
明は、正確な音声分析を通じて、話者によってなされた
文章中の単語のアクセントの強弱およびシーケンスを確
立することを意図している。本発明は、音声分析によっ
て、音声認識をより向上せしめ、それと同時に、音声中
の抑揚が生み出され得る。

【０００２】本発明は、１つの言語から他の言語への人
工的な翻訳に正確な再現性がもたらされ得るようにす
る。さらに、元の言語におけるアクセントの強弱が、第
２の言語においても再現され得る。

【０００３】

【従来の技術】人工的な音声合成において、単語および
文章は、ライブラリーから作り出される。アクセントの
強弱は、それらが発生する限り、前もって決定された基
準に従って挿入される。これは、ある場合には、音が機
械的なものとして聞き取られ、またある場合には、非人
間的なものとして聞き取られることを意味している。こ
れまでにこの問題を解決するためになされてきた試みに
おいては、使用される分析方法は巨大なコンピュータを
必要とする。しかしながら、これに関連する方法および
装置は、予め定められた句を用いる限定された適用範囲
内において主として有効であると考えられる。任意のシ
ーケンスを解釈可能な情報に組み立てるための方法はま
だ見当たらない。

【０００４】音声分析において、一定の単語または句を
区別し得る装置が用いられる。この場合、単語または句
を発音する人間は、その単語または句のみを言わなけれ
ばならない。応答を分析する機械は、異なる方言を認識
しなければならないという問題、また、話者が咳払いを
しまたはかすれた声で話す場合、あるいは周囲の音が強
い場合に分析が影響を受けるといった問題を伴う。

【０００５】音声分析において、音声認識装置は、多数
の人間の音声に対して適合せしめられ、高度の音声認識
を達成するようになっている。

【０００６】

【発明が解決しようとする課題】話された言語の人工的
な再生に関連して、言語は、自然に、正確なアクセント
を付与されて再生されなければならない。音声の第２言
語への自動翻訳において、アクセントの付与は、翻訳を
行う際に決定的に重要である。単語の意味は、アクセン
トの強弱に依存して広く異なったいくつかの意味をもち
得る。別の状況においては、同一の文章の意味がアクセ
ントの強弱を置く位置に依存して異なる意味をもち得
る。これまでに、かなりの努力がこの分野に費やされて
きている。さらに、文章および文章の各部分に対するア
クセントの強弱の付与は、言語において強勢を置かれる
部分を決定する。これらの強勢が、第２言語において正
確に再生されるべきことが要求される。この問題を解決
するいかなる方法もこれまでに見い出されてはいない。

【０００７】また、純粋に人工的に生成される音声は、
正確なアクセントを伴って自然に再生されることが望ま
しい。この状況は、種々の場合において音声を生成する
機械がより広範囲にわたって使用される際に現れる。現
在、機械によって生成される音声は、大抵の人々によっ
ては、理解し解釈するのがむづかしい。すなわち、大抵
の人々が解釈可能な音声を生成する方法および装置を見
つけ出すことが強く要求されている。人々が機械によっ
て生成された音声を理解するのはむづかしいと見なすこ
とが、このような装置に対する抵抗を生み出す。よっ
て、かかる抵抗を減じる必要がある。

【０００８】個々の単語中によく開発されたアクセント
の強弱および高低を伴った言語間の翻訳において、単語
または文の真の意味を認識することは非常にむづかし
い。正確なアクセントの強弱を付与することが困難であ
ることから、翻訳がこれらの言語間において実行される
ときにもまた困難が伴う。アクセントの強弱が不正確に
付与され得るという事実は、誤訳あるいは聴取者が単語
または文の意味を完全に聞き逃してしまうという危険性
を増大せしめる。

【０００９】種々のシステムを制御および管理する際
に、話された単語を用いねばならない場合がある。この
例として、例えば、種々の通信ネットワークに導入され
る拡張されたサービスがある。これらのサービスを利用
するため、ユーザーは現在種々のコードを使用しなけれ
ばならない。この場合、少数の簡単なコードを記憶して
おくことは可能であるが、もし前もって必要なコードが
一定の付加的な情報が入力されなければならないような
ものであるなら、状況はより複雑になる。かかる場合、
ユーザーは、備忘録またはそれに類するものを持つこと
を強制される。場合によっては、たぶんユーザーは、コ
ードおよび情報の入力順序を思い出すことができると信
じている。もし入力が不正確に行われるならば、例えば
時間または日付が誤っている可能性がある。通常、シス
テムが情報を正確に受け取ったという確認を得ることは
できない。もし情報を受け取るシステムが言葉によって
情報を受け取ることができるならば、ユーザーまたは加
入者は、より効率よくサービスおよびその他の機能を利
用することができるだろう。電話ネットワークにおいて
言葉を通じてサービスを覚えておくことは、例えば、特
定の数字コードを覚えておくことより容易である。ま
た、もしコーディングが煩雑であれば、例えば、電話ネ
ットワークにおいてこのようなサービスを利用すること
に対する抵抗が生じる。

【００１０】例えば、電話ネットワークまたは通信シス
テムを制御するとき、機械システムまたは電子システム
に対して言葉によって命令を出すことは、オペレータに
対してかなりの安心感を与える。現在、オペレータはキ
ーボードまたはそれに類するものを通じて情報を入力し
ている。キーボード等による入力には、言葉による入力
に比べてより多くの時間がかかる。話された言葉を用い
て種々のシステムに命令を与えることは、上述の分野以
外の多くの分野において非常に望まれる特徴である。本
発明は、上述の問題を解決することを目的とするもので
ある。

【００１１】

【解決するための手段】本発明は、話されたシーケンス
においてアクセントの強弱を決定する方法および装置に
関する。話された音声中において認識されたシーケンス
から、音声モデルが生成される。話されたシーケンスを
モデル化された音声と比較することによって、それらの
差が得られる。この差は、モデル化された音声を修正す
るために、また話されたシーケンスにおけるアクセント
の強弱を決定するために使用される。音声中のアクセン
トの強弱が決定された後、一義的に単語または文の意味
が決定され得る。その後、これは種々の関連において、
例えば、意味およびイントネーションは維持したままで
第１言語から第２言語に翻訳する際に使用される。本発
明はまた、言語によるマンマシン通信においても使用さ
れ得る。

【００１２】すなわち、本発明は、話されたシーケンス
から音声中のアクセントの強弱を決定する方法に関す
る。話されたシーケンスのモデルが形成される。モデル
は話されたシーケンスと比較され、それによって、それ
らの間の差が得られる。この差はモデルに影響を及ぼ
し、モデルは、話されたシーケンスにより良く一致する
ように修正される。これによって、音声中のアクセント
の強弱を決定することが可能になる。

【００１３】本発明をさらに展開することによって、話
されたシーケンスおよびモデル化された音声の基本音調
および変動が決定される。それぞれの基本音調と変動と
の比がとられる。これらの比の間の差はモデルに影響を
及ぼし、モデルは、話されたシーケンスにより良く一致
するように修正される。さらに、これらの比の間の差か
ら、文アクセント配置が得られる。

【００１４】相対的な文アクセントの強弱が、基本音調
の変動と減衰との比を分類することによって決定され、
それによって、強勢を置かれた部分または個々の単語が
決定され得る。さらに、音声のアクセントの高低が基本
音調の減衰から決定され得る。

【００１５】本発明による装置は、音声の基本音調を抽
出する第１の素子を有している。加えて、第２の素子に
おいて人口的な音声が生成される。話されたシーケンス
および人工的な音声の基本音調が決定され、互いに比較
される。検出された差が第２の素子に影響を及ぼし、人
口的な音声は修正される。さらに、話されたシーケンス
中のアクセントの強弱がこれに基づいて決定される。

【００１６】第１の素子は、また、話されたシーケンス
の基本音調の変動と減衰の第１の比を決定する。第２の
素子は、人口的な音声のほかに、人工的な音声の基本音
調と減衰との第２の比を生成する。第３の素子は、第１
の比と第２の比とを比較する。差が形成され、それによ
って、文アクセント配置が決定され得る。

【００１７】第３の素子は、基本音調の変動と減衰との
比を分類する。この分類によって、第３の素子は、相対
的な文アクセントの強弱および強勢を置かれた部分また
は単語を決定する。第３の素子による基本音調の減衰の
チェックにより、音声のアクセントの高低が決定され
る。基本音調の変動と減衰との関係は、第３の素子によ
って、音声の基本音調のダイナミックレンジを決定する
ために使用される。

【００１８】

【発明の効果】本発明によれば、話された単語が最大限
に使用される。すなわち、言葉によるコマンドを用い
て、システムに対し機能を変更すべく命令を与えること
ができる。例えば現在の電話システムにおいて、加入者
は、音声によってコマンドを与えることにより、種々の
形式のサービスを制御することが可能になる。

【００１９】１つの言語が別の言語に翻訳される場合、
本発明によれば、単語の正確な翻訳が得られる可能性が
増す。例えば、異なるアクセントの強弱を伴った同じ発
音の単語は、ある種の言語においては広く異なる意味を
有していることが知られている。本発明によれば、アク
セント付けが決定され得ることによってこれらの単語を
識別することが可能になる。さらに、文アクセントアク
セントの強弱が、文の意味を変更し得る。本発明によれ
ば後者が決定され得るという事実に起因して、言語間の
翻訳において正確な意味が得られうる。加えて、第１の
言語における文アクセント配置または単語中のアクセン
トの強弱が、翻訳がなされる第２の言語において対応す
る配置を与えられ得る。音声による応答が機械から得ら
れる別の状況においては、自然な音声を得ることがで
き、そしてこの自然な音声は、アクセントの強弱が自然
であるということに起因して理解を高める。その結果、
人々によって人工的なものと感じられない自然な方法で
マンマシン通信が可能になる。

【００２０】

【実施例】以下、添付図面を参照しながら本発明の好ま
しい実施例について説明する。図１において、話された
シーケンスまたは音声がシステムに入力される。音声
は、音声認識装置１内に受け取られ、そしてここで、テ
キスト列が生成される。音声認識は、音声認識装置に接
続された辞書を使用する。音声認識装置は、辞書的アク
セントの強弱を伴ったテキスト列および異音列を生成す
る。

【００２１】構文解析部２において、テキスト列の構文
が解析される。この情報、およびテキスト列並びに異音
列は、基本音調モデルジェネレータ３に入力される。入
力された情報から、基本音調がＦ(t) ＝Ｆ(t)decl ＋Ｆ
(t)var、ここで、Ｆ(t)declは基本音調の減衰を、Ｆ(t)
varは基本音調の変動をそれぞれ表す、としてモデル化
される。これは、モデル化された基本音調が、基本音調
の減衰と基本音調の変動との重ね合わせから形成される
ことを意味する。図２は、この構成の意味を示すもので
ある。基本音調は、また、基本音調抽出子４においてテ
キスト列から抽出される。その後、基本音調最小点検出
部５において基本音調の最小点が検出される。基本音調
の最小点は、基本音調モデルジェネレータ３によって生
成される最小値に、部分毎に一致する。基本音調減衰検
出部６において、基本音調の最小値から、文の基本音調
の減衰が決定され、決定された基本音調の減衰は、その
後、基本音調減衰比較部７において、基本音調モデルジ
ェネレータ３からのモデル化された基本音調の減衰と比
較される。基本音調の減衰とモデル化された基本音調の
減衰の間に差が生じる。生じた差は、基本音調モデルジ
ェネレータ３に入力される。モデルジェネレータ３にお
いて、この差は、モデル化されたシグナルの修正のため
に使用される。基本音調減衰検出部６において発生した
基本音調の減衰は、基本音調変動／減衰比較部８に送ら
れる。基本音調の変動と基本音調の減衰との重ね合わせ
からなる基本音調がまた、基本音調抽出子４から基本音
調変動／減衰比較部８に送られる。

【００２２】基本音調の変動は、その後、基本音調か
ら、基本音調減衰検出部６において決定された基本音調
の減衰を引き算することによって決定される。そして、
基本音調の変動と基本音調の減衰と比がとられ、その値
が変動／減衰比比較部９に入力される。この表現は、話
者のアクセントの高低の位置とは無関係である。また、
モデル化された基本音調の変動と減衰との比がとられ
る。これら２つの比の間に差が生じる。この差は、モデ
ルジェネレータ３に入力される。その後、モデリングに
おけるパラメータ値が変更せしめられ、そしてモデルに
おける基本音調の減衰および変動が修正される。文アク
セント配置がまた、文アクセントを文中における可能な
文アクセント配置に置かれ得るように最適化された状態
で得られる。得られた文アクセント配置において基本音
調の変動と減衰との比を分類することによって、相対的
な文アクセントの強弱が文中において決定され、話者に
よって強勢を置かれた単語が得られる。基本音調の減衰
を決定することにより、話者のアクセントの高低がまた
分類され得る。さらに、基本音調の減衰に対する基本音
調における変動の偏差が、話者の基本音調のダイナミッ
クレンジを特定する。

【００２３】本発明は、上述の実施例に限定されるもの
ではなく、特許請求の範囲の各請求項に記載の構成の範
囲内において種々の変形例を考案することができる。

【図面の簡単な説明】

【図１】本発明の構成を示すブロック図である。

【図２】基本音調の減衰およびこれに重ね合わされた基
本音調を示すグラフである。

【符号の説明】１音声認識装置２構文解析部３基本音調モデルジェネレータ４基本音調抽出子５基本音調最小点検出部６基本音調減衰検出部７基本音調減衰比較部８基本音調変動／減衰比較部９変動／減衰比比較部

Claims

【特許請求の範囲】

【請求項１】実際の音声のシーケンスから文アクセン
トの強弱を決定する方法において、モデルと呼ばれる人工的な音声が生成され、前記文アク
セントの強弱の期待される配置に対する１つまたはそれ
以上の部分が前記モデル中において選択され、前記モデ
ルが前記実際の音声と比較され、前記モデルと前記実際
の音声との間におけるアクセントの強弱配置および／ま
たは特徴の差が決定され、その結果が前記モデルに影響
を及ぼし、前記実際の音声における文アクセントの強弱
が前記差を用いて決定されることを特徴とする方法。
【請求項２】前記実際の音声の基本音調の変動と減衰
との比が形成され、前記形成された比が、前記モデルの
基本音調の変動と減衰との比と比較され、それによって
前記２つの比の間の差によって文アクセント配置が決定
されることを特徴とする請求項１に記載の方法。
【請求項３】音声における相対的な文アクセントの強
弱が、基本音調の変動と減衰との比を分類することによ
って得られ、それによって強勢を置かれた文または個々
の単語が決定されることを特徴とする請求項１に記載の
方法。
【請求項４】音声のアクセントの高低が基本音調の減
衰を決定することによって決定されることを特徴とする
請求項１または請求項２に記載の方法。
【請求項５】音声の基本音調のダイナミックレンジ
が、前記基本音調の変動と減衰との関係によって与えら
れることを特徴とする請求項１に記載の方法。
【請求項６】実際の音声のシーケンスの文アクセント
の強弱を決定する装置において、前記実際の音声の基本
音調を抽出する第１の素子と、人工的な音声およびその
基本音調を生成する第２の素子を備え、前記第２の素子
は、前記文アクセントの強弱の期待される配置を決定
し、前記実際の音声が前記人工的な音声と比較され、そ
れによって、前記第２の素子は前記人工的な音声と前記
実際の音声との間のアクセントの強弱配置および／また
は特徴の差を決定し、前記シーケンスにおける文アクセ
ントの強弱が前記差を用いて決定されることを特徴とす
る装置。
【請求項７】前記第１の素子は、前記シーケンスの基
本音調の変動と減衰との第１の比を生成し、前記第２の
素子は、前記人工的な音声の基本音調の変動と減衰との
第２の比を生成するものであり、さらに、前記第１およ
び第２の比の間の差を決定する第３の素子を備えてお
り、それによって、音声中の文アクセント配置が決定さ
れることを特徴とする請求項６に記載の装置。
【請求項８】前記第３の素子は、基本音調の変動と減
衰との比を分類し、文または個々の単語中の強勢を置か
れた部分を決定することを特徴とする請求項６または請
求項７に記載の装置。
【請求項９】前記第３の素子は、基本音調の減衰を決
定することによって音声のアクセントの高低を決定する
ことを特徴とする請求項６〜請求項８のいずれかに記載
の装置。
【請求項１０】前記第３の素子は、基本音調の変動と
減衰の間の関係を決定し、それによって、音声の基本音
調のダイナミックレンジが決定されることを特徴とする
請求項６〜請求項９のいずれかに記載の装置。