JPH0850498A

JPH0850498A - 音声をテキストに変換するための方法および装置

Info

Publication number: JPH0850498A
Application number: JP7137215A
Authority: JP
Inventors: Bertil Lyberg; リュベルグベルティル
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1994-05-10
Filing date: 1995-05-10
Publication date: 1996-02-20
Also published as: DE69519328D1; US5752227A; EP0683483A3; DE69519328T2; SE9401613L; SE513456C2; ES2153021T3; EP0683483A2; SE9401613D0; EP0683483B1

Abstract

(57)【要約】【目的】音声のイントネーションパターンまたは音の高
低を用いて音声をテキストに変換するための方法および
装置を提供する。【構成】音声認識ユニット１は入力音声から音素を識別
し、単語解釈ユニット２は音素を単語、句又は文として
解釈し音声モデルを確立する。分析ユニット９は音声モ
デルの基本的な音の高低変化のイントネーションパター
ンを決定する。抽出ユニット５は入力音声から基本的な
音の高低変化を抽出し、分析ユニット６は入力音声の基
本的な音の高低変化のイントネーションパターンを決定
する。コンパレータユニット７、８は入力音声と音声モ
デルとのイントネーションパターンを比較し、入力音声
の単語、句等のイントネーションパターンに最もよく一
致するイントネーションパターンをもつ音声モデルの単
語、句等を識別する。テキスト選択ユニット１０は入力
音声に最もよく一致する単語、句等の表現を選択する。

Description

【発明の詳細な説明】

【０００１】

【発明の背景】本発明は、音声をテキストに変換するた
めの方法および装置に関する。

【０００２】本発明は話されたシーケンスからテキスト
列を生成し、単語および句を選択するために言語のイン
トネーションパターン、すなわち抑揚、または音の高低
を用いる。

【０００３】種々の音声認識法が既に知られている。例
えば、いくつかの周知の音声認識システムにおいては、
音声認識装置は数人の異なる人間の音声を認識するよう
にトレーニングされ、この音声認識の過程で形成された
単語および句のライブラリーが、音声認識を行うために
システムによって用いられる。

【０００４】１９７０年代以来、音声認識において基本
的な音の高低変化の情報を用いることは文献的に知られ
ている。基本的な音の高低変化の情報は、単語が基本的
な音の高低変化曲線に依存して異なる意味をもちうるよ
うな言語の場合に特に重要である。

【０００５】しかしながら、基本的な音の高低変化曲線
は、例えば無声音を考慮に入れると一般に連続的ではな
い。例えば、“ｓ”や“ｐ”のようないくつかの無声音
については、基本的な音の高低変化は存在しない。加え
て、基本的な音の高低変化曲線は、それに続く一定の無
音休止によって著しく混乱せしめられる。このため、基
準パターンにマッチングせしめることによって基本的な
音の高低変化曲線から情報を直接引き出すことは一般に
実現不可能である。

【０００６】さらに、単語の強勢は文の内容に依存す
る。米国特許第５，２２０，６３９号の特許明細書に
は、基本的な音の高低変化を用いることによって、５つ
の音の高低変化に対する隠れたマルコフモデル(Hidden
Markov model) を確立すること、そして、音の高低変化
の情報の助けによって識別されうるにすぎない音節の認
識のために統計的な抑揚を用いることが記載されてい
る。この米国特許明細書には、隠れたマルコフ法を用い
ることによって個々の音節を認識するために、一連の音
節が、音節の個々の認識、マルコフの音の高低変化およ
び認識された各部分の組み合わせによっていかにして認
識されるのかが記載されている。認識された個々の音節
は、その後、対応する漢字を決定するべく言語デコーダ
においてマルコフ中国語モデルによって用いられる。特
に、音の高低の周波数検出器が未知の音声信号の音の高
低の周波数に関係する特性を検出するために使用され、
検出された特性は、音の高低認識装置に含まれたパーソ
ナルコンピュータに送られる。そして、このパーソナル
コンピュータによって、５つの異なる音の高低の隠れた
マルコフモデル確立が計算される。本質的には、音声信
号がライブラリーと比較され、個々の音節における異な
る強勢の確立が計算される。このシステムの価値は、多
音節語を特徴とする言語においては限られたものとな
る。さらには、このシステムによれば、異なる単語およ
び強勢の大きなライブラリーが形成されなければなら
ず、また、各分析毎にこのライブラリーにアクセスされ
なければならない。実際、このシステムは中国の特定の
地方に対してだけでなく、メッセージをシステムにアド
レスする特定の人間に対しても適応せしめられている。
したがって、各ユーザーは自己の音声によってシステム
をトレーニングさせなればならない。加えて、このシス
テムはそれぞれの言語毎に変更せしめられなければなら
ない。それ故、このシステムの応用範囲は非常に限られ
てしまう。

【０００７】テレックス装置を用いる音声情報伝送は、
米国特許第４，４８９，４３３号の特許明細書に記載さ
れている。米国特許第４，４８９，４３３号に係る発明
においては、音声は、伝送された後読み取り可能な文字
メッセージに変換され、主として日本語への適用が意図
されている。日本語のアクセントは音の高低のアクセン
トであり、音の高低の周波数が突然に低周波数側に変化
した瞬間における音節間の位置の関数として識別され得
る。単語アクセントコードが、一般に単語の特定の音節
におけるアクセントによって引き起こされる音の高低の
周波数および基本的な音の高低の周波数における突然の
変化を表す。米国特許第４，４８９，４３３号に係る発
明は、異なる単語のアクセントに対する多数の記憶され
たテンプレートを用いることに基礎をおいており、一連
のパルスを、藤崎モデルが入力信号に適合せしめられる
ように適合せしめるコンパレータを使用する（図７を参
照されたい）。そのとき、パルスの大きさおよび位置は
アクセントを意味する。このモデルは、パルスが喉頭の
筋肉におけるＥＭＧ（筋電図的）活動に対応するという
アイデアに基づいている。記憶されたテンプレートから
基本的な音の高低曲線を生成することは不可能である。
なぜなら、単語のアクセントは文の内容に依存して変化
するからである。さらには、基本的な音の高低曲線は不
連続であるという事実を全く考慮に入れることができな
い。

【０００８】音声認識において、話されたシーケンスを
簡単かつ迅速に、正確に認識しうる方法を見いだすこと
が望ましい。これに関連する１つの問題は、発音が同じ
単語を認識し、これらを識別することである。別の問題
は、文の強勢を識別することである。同一の単語を用い
て構成されているが異なる強勢をもった文は、種々の言
語において異なった意味をもち得る。さらに別の問題
は、方法が当該話者に対して適応せしめられる必要がな
く、方法がいずれの話者によっても使用され得ることよ
うにすることである。

【０００９】米国特許第５，２２０，６３９号の特許明
細書には、明細書中に記載されたシステムが、メッセー
ジをシステムに対してアドレスするユーザーに対して適
応せしめられていることが記載されている。システムを
利用するユーザーはそれぞれ、自己の音声を用いてシス
テムをトレーニングせしめなければならない。米国特許
第５，２２０，６３９号に係る発明は、中国の特定の地
方に対してのみ適応せしめられている。この発明が他の
言語に適用せしめられる場合には、モデルはそれぞれの
言語に対して変更せしめられねばならない。

【００１０】したがって、一般に種々の言語に適用可能
な方法を見い出すことが要請されている。適用言語に依
存しない方法は、米国特許第５，２２０，６３９号の特
許明細書中に開示されておらず、示唆もされていない。
上述のように、米国特許第４，４８９，４３３号は、テ
レックス装置を用いた音声情報伝送に関するものである
が、日本語の音声認識にのみ関係しており、基本的な音
の高低曲線が不連続であるという事実が全く考慮されて
いない。上述のように、無声音においてはいかなる音の
高低も存在しない。すなわち、基準パターンにマッチン
グせしめることによって基本的な音の高低曲線から情報
を直接引き出すことは一般に不可能である。なぜなら、
基本的な音の高低曲線は、一般にそれに続く一定の無声
休止によって著しく混乱せしめられるからである。

【００１１】加えて、単語のアクセントは文の内容に大
きく依存する。上述のような解決法において適用され得
る一般化された方法を案出することは困難である。

【００１２】本発明の課題は、簡単かつ迅速に音声を認
識する手段として音声のイントネーションパターン、す
なわち抑揚、または音の高低を用いて、音声をテキスト
に変換するための方法および装置を提供することによっ
て上に概説した問題を解決することにある。

【００１３】

【発明の要約】上記の課題を解決すべく、本発明によれ
ば、音声をテキストに変換するための方法であって、テ
キストに変換すべき入力音声のセグメントから多数個の
音素を識別するステップと、音素を可能な単語または単
語の組み合わせとして解釈することによって音声モデル
を確立するステップと、音声モデルの基本的な音の高低
変化のイントネーションパターンを決定することによっ
て基本的な音の高低変化の最大値および最小値と、最大
値および最小値のそれぞれの位置を決定するステップ
と、入力音声の基本的な音の高低変化を決定するステッ
プと、入力音声の基本的な音の高低変化のイントネーシ
ョンパターンを決定することによって基本的な音の高低
変化の最大値および最小値と、最大値および最小値のそ
れぞれの位置を決定するステップと、入力音声のイント
ネーションパターンと音声モデルのイントネーションパ
ターンとを比較することによって、入力音声の対応する
単語および／または単語の組み合わせのイントネーショ
ンパターンに最もよく一致するイントネーションパター
ンをもつ音声モデルの単語および／または単語の組み合
わせを識別するステップと、入力音声に最もよく一致す
る単語または単語の組み合わせの表現を与えるステップ
とからなることを特徴とする方法が構成される。音声モ
デルから形成された単語および／または単語の組み合わ
せの表現は、関係するテキストのプリントアウトの形式
によって与えられる。入力音声からの多数個の音素の識
別は隠れたマルコフモデルを用いることによってなされ
る。

【００１４】好ましくは、識別された音素は組み合わせ
られて異音列を形成し、確立された音声モデルは単語の
異なる音または音の組み合わせ、および無声音部分を含
んでいる。

【００１５】好ましくは、音声モデルにおける単語は語
義的にチェックされ、音声モデルにおける句は構文的に
チェックされ、言語として成り立たない単語および句は
音声モデルから排除される。また好ましくは、音声モデ
ルにおける単語の綴りおよび発音記号がチェックされ
る。

【００１６】本発明による方法は、発音は同じであるが
異なった音の強勢をもった単語の意味を識別し、意味が
文の強勢に依存して変化する句を識別するように適合せ
しめられていることが好ましい。

【００１７】さらに、本発明による方法は、トレーニン
グなしに種々の言語において生じる音素を識別し、特定
の言語において存在しない音素を排除するように適合せ
しめられていることが好ましい。

【００１８】上記の課題を解決すべく、さらに本発明に
よれば、音声をテキストに変換するための装置であっ
て、テキストに変換すべき入力音声のセグメントから多
数個の音素を識別する音声認識手段と、音素を可能な単
語または単語の組み合わせとして解釈することによって
音声モデルを確立する単語解釈手段と、音声モデルの基
本的な音の高低変化のイントネーションパターンを決定
することによって基本的な音の高低変化の最大値および
最小値と、最大値および最小値のそれぞれの位置を決定
する第１分析手段と、入力音声から基本的な音の高低変
化を抽出する抽出手段と、入力音声の基本的な音の高低
変化のイントネーションパターンを決定することによっ
て基本的な音の高低変化の最大値および最小値と、最大
値および最小値のそれぞれの位置を決定する第２分析手
段と、入力音声のイントネーションパターンと音声モデ
ルのイントネーションパターンとを比較することによっ
て、入力音声の対応する単語および／または単語の組み
合わせのイントネーションパターンに最もよく一致する
イントネーションパターンをもつ音声モデルの単語およ
び／または単語の組み合わせを識別する比較手段と、入
力音声に最もよく対応する単語および／または単語の組
み合わせの表現を選択し、与えるテキスト選択手段を有
することを特徴とする装置が構成される。テキスト選択
手段は、好ましくは、入力音声に最もよく一致する単語
および／または単語の組み合わせをプリントアウトする
ためのプリンタを有している。入力音声から多数個の音
素を識別することは、隠れたマルコフモデルを用いてな
されることが好ましい。

【００１９】好ましくは、音声認識手段によって識別さ
れた音素は、音声認識手段によって組み合わせられて異
音列を形成し、単語解釈手段によって確立された音声モ
デルは単語の異なる音または音の組み合わせ、および無
声音部分を含んでいる。

【００２０】本発明による音声をテキストに変換するた
めの装置は、また、音声モデルにおける単語を語義的に
チェックし、音声モデルにおける句を構文的にチェック
し、言語として成り立たない単語および句を前記音声モ
デルから排除するチェック手段を有していることが好ま
しい。チェック手段は音声モデルにおける単語の綴りお
よび発音記号をチェックするものであることが好まし
い。

【００２１】さらに好ましくは、本発明による装置の比
較手段は、発音は同じであるが異なる強勢をもつ単語の
意味を識別し、また、意味が文の強勢に依存して変化す
る句を識別すべく適合せしめられている。

【００２２】さらに好ましくは、本発明による装置の音
声認識手段は、トレーニングなしに、種々の言語におい
て生じる音素を識別することによって特定の言語におい
て存在しない音素を排除するべく適合せしめられてい
る。

【００２３】さらに本発明によれば、上述した音声をテ
キストに変換するための装置を含み、または上述した音
声をテキストに変換するための方法に従って作動する話
された単語に応答するシステムが構成される。このシス
テムは、好ましくは、話された単語からテキスト情報を
生成するための音声応答単語処理ユニットを有してい
る。また、このシステムは、好ましくは、通信システ
ム、あるいは通信システムの一部をなしている。このシ
ステムは、例えば、音声応答テレックス装置を有してい
る。

【００２４】本発明による方法および装置によれば、異
なる単語の意味を強勢の関数として識別することができ
る。さらには、本発明による方法および装置によれば、
文の意味を文の強勢の関数として識別することができ
る。基本的な音の高低の情報が本発明による方法および
装置によって用いられる方法は、これまでに開示されて
はいない。基本的な音の高低の情報を用いることによっ
て、一方で当該言語には存在せず、他方でテキストに変
換されるべき入力音声のセグメントにおいて現れた強勢
に一致しない単語および句を排除することが可能とな
る。これによって音声を正確に一義的に認識することが
可能となる。音声認識手段による異なる音素の識別は、
音声モデルに対する可能な単語および句の構造の識別を
容易にする。この情報は、その後、語義的および構文的
な基準、入力音声において可能な単語および句を見つけ
出すために用いられる。本発明によれば、発音は同じで
あるが異なった音の強勢をもった多数の単語および句を
記憶する必要なく、異なる単語および句を強勢の位置の
関数として識別される。すなわち、本発明によれば、単
語および句の実際の意味を識別する可能性が著しく増大
する。また、本発明によれば、従来技術と比較して、著
しく短時間で単語および句を識別することができる。加
えて、発明によれば、音声をより正確に識別することが
でき、また、望ましくない結果を引き起こし得る誤訳の
危険性を著しく減少せしめることができる。

【００２５】本発明による方法および装置は、また、通
常の（正常な）音声を受けるように適合せしめられてお
り、例えば、米国特許第５，２２０，６３９号が適用さ
れる場合のように、音節が個々に発音されることを必要
としない。

【００２６】従来のシステム、例えば、米国特許第５，
２２０，６３９号によるシステムにおいては、多数個の
単語がシステム内にプログラムされている。このシステ
ムはまた、情報をシステムに入力することが予定される
多数の話者に適合せしめられている。これに対して、本
発明によれば、不特定の話者がランダムに音声情報を入
力することができ、システムは関係する人間に適合せし
められる必要がない。また本発明による方法および装置
によれば、種々の言語において存在する知られた音素の
すべてに対してプログラムされ得る。また、特定の言語
において存在しない音素は排除され得る。これは、本発
明がかなり広範囲にわたって適用可能であることを意味
する。

【００２７】例えば、米国特許第５，２２０，６３９号
に係る発明によれば、多数の統計的モデルがプログラム
されており、これらのモデルは音声と比較されて、ポン
製に最もよく一致するモデルが選択される。すなわち、
この形式の従来のシステムは、本発明によるシステムと
は異なり、単語または文の強勢を考慮しない。したがっ
て、従来のシステムによれば単語および句の誤訳が生じ
るおそれがある。

【００２８】

【実施例】以下、添付図面を参照しながら本発明の好ま
しい実施例につき説明する。図２は、本発明による音声
をテキストに変換するための装置の構成の概要を説明す
る簡単なブロック図である。図２において、テキストに
変換されるべき入力音声のセグメントが、第１ユニット
Ａの入力に適用される。入力音声のセグメントはまた第
２ユニットＢの入力にも接続されている。第１ユニット
Ａの出力は、第２ユニットＢの別の入力に接続されてい
る。第２ユニットＢの出力は入力音声に対応するテキス
トであり、すなわち本発明によれば、入力音声の対応す
る単語およびそれらの組み合わせのイントネーションパ
ターンに最もよく一致するイントネーションパターンを
有する音声モデルが、後述する方法で、第２ユニットＢ
からテキストの形式でプリントアウトされる。

【００２９】第１ユニットＡの入力に適用された入力音
声のセグメントは、多数個の音素として認識される。ユ
ニットＡはこれらの音素を可能な単語およびそれらの組
み合わせとして解釈することによって音声のモデルを確
立するように適合せしめられている。音声モデルの基本
的な音の高低のイントネーションパターン、そしてそれ
によって基本的な音の高低の最大値および最小値、並び
にこれら最大値および最小値のそれぞれの位置が決定さ
れる。入力音声の基本的な音の高低のイントネーション
パターン、そしてそれによって基本的な音の高低の最大
値および最小値、並びにこれら最大値および最小値のそ
れぞれの位置が第２ユニットＢによって抽出される。抽
出された入力音声のイントネーションパターンは音声モ
デルのイントネーションパターンと比較される。そし
て、入力音声のイントネーションパターンに対応しない
音声モデルの単語およびそれらの組み合わせ、並びに文
が音声モデルから排除される。単語の解釈がまたユニッ
トＡによって実行される。本質的に、ユニットＡによっ
て実行される単語の解釈の過程において、音素および／
または発音されなかった音素のどれかが判読される。こ
の単語解釈過程の結果は、音声モデルの多数の可能な解
釈となる。音声モデルを形成する可能な単語がまた、単
語解釈過程において、綴り字法および発音記号への書換
えを備えた辞書によってチェックされる。当該言語には
存在しない単語は排除される。音声モデルを形成する可
能な句および文の構文、すなわち文法的構造がまたチェ
ックされ、当該言語の原則と矛盾する句および文を排除
する。さらには、強勢とは関係のない単語および句の意
味が第２ユニットＢによって決定される。最後に、第２
ユニットＢは、プリントアウトの形式で、入力音声に一
致するテキストを生成する。

【００３０】図１は、上で図２を参照して概説した音声
からテキストへの変換装置の構成をより詳細に説明した
ブロック図である。図１において、テキストに変換され
るべき入力音声のセグメントが、音声認識ユニット１お
よび抽出ユニット５に対してパラレルに適用される。そ
して、これらのユニットにおいて入力音声の基本的な音
の高低が抽出される。音声認識ユニット１は、例えば、
隠れたマルコフモデルまたは等価モデル(equivalent mo
del)を用いることによって周知の方法で作動し、入力音
声から多数個の音素を識別する。そして、識別された音
素は組み合わせられて異音列、すなわち、同一の音素の
２つまたはそれ以上の発声学的および音響学的に異なる
形式のうちの１つを形成する。異音列は、音声認識ユニ
ット１から出力された後、単語解釈ユニット２の入力に
適用される。単語解釈ユニット２において、音素は入力
音声の単語モデルの確立に対して可能な単語またはそれ
らの組み合わせとして解釈される。可能な単語およびそ
れらの組み合わせ、すなわち句は、綴り字法および発音
記号への書換えを備えた辞書３に適用される。そしてこ
こで、単語は語義的にチェックされる。当該言語には存
在しない可能な単語はすべて排除される。この過程によ
って確立され、単語の異なる発音またはそれらの組み合
わせ、並びに無声音部分から形成された音声の単語モデ
ルは、音声認識ユニット１および分析ユニット９に適用
される。分析ユニット９はモデルの基本的な音の高低の
イントネーションパターン、そしてそれによって基本的
な音の高低の最大値および最小値、並びにこれら最大値
および最小値のそれぞれの位置を決定すべく適合せしめ
られている。基本的な音の高低の最大値および最小値、
並びにこれら最大値および最小値のそれぞれの位置は、
それからモデルが形成される可能な単語のイントネーシ
ョンの記述を与える。語義的に生成された情報から分析
ユニット９によって形成された単語レベルイントネーシ
ョンパターンは、分析ユニット９の単語レベル部９’を
経てコンパレータユニット７に適用される。

【００３１】音声認識ユニット１は、辞書３によってそ
れに適用された単語モデルから、１つまたはそれ以上の
当該単語が入力音声の対応する音に一致するかどうかを
決定する。

【００３２】抽出ユニット５によって入力音声から抽出
された基本的な音の高低は、分析ユニット６に適用され
る。単語解釈ユニット２に適用された音声認識ユニット
１の出力、すなわち異音列はまた分析ユニット６にも適
用される。分析ユニット６は入力音声の基本的な音の高
低のイントネーションパターン、そしてそれによって基
本的な音の高低の最大値および最小値、並びにこれら最
大値および最小値のそれぞれの位置を決定すべく適合せ
しめられている。音声認識ユニット１の出力を分析ユニ
ット６に適用することによって、イントネーションパタ
ーンの最大値および最小値の異音列における位置が決定
され得る。上述のように、基本的な音の高低の最大値お
よび最小値、並びにそれら最大値および最小値のそれぞ
れの位置は、入力音声の単語および句のイントネーショ
ンの記述を与える。この記述は、図１に示したように、
コンパレータユニット７およびコンパレータユニット８
に適用される。

【００３３】コンパレータユニット７は、入力音声のイ
ントネーションパターンと単語モデルのイントネーショ
ンパターンとの間において、単語レベルでの比較を行う
べく適合せしめられている。入力音声のイントネーショ
ンパターンに一致しないイントネーションパターンをも
つモデルの単語は排除される。この排除がなされたこと
は単語解釈ユニット２に報告され、単語解釈ユニット２
は、その後、辞書３と協同して残りの単語について単語
解釈を続行し、これらの単語を組み合わせて句を形成す
る。

【００３４】この過程によって生じる、すなわち辞書３
から出力される句モデルは、構文分析ユニット４によっ
てチェックされる。その構文が当該言語に一致しない句
モデルは、この構文チェックの間に排除される。排除さ
れた句に関する情報は辞書３にフィードバックされる。
辞書３は、この情報を受け取ると、次の処理のために構
文分析ユニット４に対して新たな句モデル案を送る。本
質的に当該言語において可能な句、すなわち構文分析ユ
ニット４によって受入れ可能であると判定された句は分
析ユニット９に送られ、そしてここで、基本的な音の高
低曲線のイントネーションパターンの記述、すなわち、
その曲線の最大値および最小値、並びにそれら最大値お
よび最小値のそれぞれの位置が得られる。イントネーシ
ョンパターンの記述は、分析ユニット９に送られ、そし
てそこから分析ユニット９の句レベル部９”を経てコン
パレータユニット８に送られる。

【００３５】コンパレータユニット８は、句モデルの文
強勢を、入力音声の基本的な音の高低において検出され
た強勢と比較する。入力音声のイントネーションパター
ンに一致しないイントネーションパターンをもつ句モデ
ルは排除される。排除された句に関する情報はコンパレ
ータユニット８からテキスト選択ユニット１０に送られ
る。テキスト選択ユニット１０の入力は単語解釈ユニッ
ト２の出力に接続されている。すなわち、単語解釈ユニ
ット２から出力されたテキスト列は、テキスト選択ユニ
ット１０に適用される。図１に示したように、構文分析
ユニット４によって生成されたテキスト列もまたテキス
ト選択ユニット１０に適用される。

【００３６】テキスト選択ユニット１０は単語解釈ユニ
ット２からのテキスト列を構文分析ユニット４によって
生成されたテキスト列を比較する。この過程の結果、入
力音声に一致するテキストが生成されてテキスト選択ユ
ニット１０から出力される。

【００３７】こうして、テキスト選択ユニット１０の出
力は、入力音声の対応する単語およびそれらの組み合わ
せのイントネーションパターンに最もよく一致するイン
トネーションパターンをもつ音声モデルとなる。テキス
ト選択ユニット１０の音声モデルの出力は、好ましく
は、それらから音声モデルが形成される単語およびそれ
らの組み合わせのプリントアウトの形式でなされる。テ
キスト選択ユニット１０の出力は、別の形式、例えば、
単語およびそれらの組み合わせのビジュアルディスプレ
イの形式でも行われ得る。

【００３８】本発明による音声をテキストに変換するた
めの方法および装置は、簡単かつ迅速に音声を認識する
手段として、基本的な音の高低の最大値および最小値、
並びにそれら最大値および最小値のそれぞれの位置、す
なわちイントネーションパターンを用いるものであり、
従来の音声認識の技術において重要な発展をもたらすも
のである。従来技術は、音声を認識する手段として言語
のイントネーションパターンを用いることを開示してい
ないし、示唆もしていない。

【００３９】イントネーションパターンを音声認識過程
において用いることは、種々の単語および文の意味が強
勢の関数として識別され得るという長所を有している。
これは重要なことである。なぜなら、種々の言語におい
て、同一の単語によって構成されるが異なる強勢をもつ
文は異なる意味をもち得るからである。上述のように、
これまでに当業者によって開示されていない基本的な音
の高低の情報を用いることにより、簡単、迅速かつ効率
的に音声の正確な識別を行うことが可能となる。従来技
術と本発明との別の重要な差異は、本発明による音声を
テキストに変換するための方法および装置が特定の話者
に対して適合せしめられる必要がなく、よって、特別の
トレーニングなしにすべての話者に対して使用され得る
ということにある。さらに、本発明は、種々の言語にお
いて現れる既知の音素のすべてに対してプログラムさ
れ、特定の言語に存在しない音素を特に排除する。本発
明はその適用において非常にフレキシブルである。本発
明と従来技術との間のこれらの差異は、実用上において
も技術的にも重要であり、そしてそれ故、音声をテキス
トに変換することに使用された時に著しい効果をもたら
す。

【００４０】本発明が種々の言語において適用され、音
声を、簡単、迅速かつ効率的に正確に識別し、テキスト
に変換することを可能にするという事実は、音声をテキ
ストに変換する周知のシステムに関する技術的かつ商業
的重要性を増大せしめる。

【００４１】本発明が広範囲にわたって使用され得ると
いうことは、当業者にとって自明であろう。特に、本発
明は、話された単語に応答するシステム、例えば、通信
システムあるいは音声応答コンピュータシステムにおい
て適用され得る。

【００４２】通信の分野において、音声応答システム
は、通信システム、例えば、音声応答テレックス装置の
少なくとも一部を構成しており、そしてこの場合、話さ
れた単語は意図された受取人に伝送すべく対応するテキ
ストに翻訳される。

【００４３】話された命令に応答する音声応答コンピュ
ータシステム、例えば、ワードプロセッサーにおいて、
音声認識システムによって生成されたテキストは多数の
アプリケーション、とりわけ、レポートまたはテキスト
メッセージの形成、あるいは言語変換技術を用いた別の
言語への翻訳に対して使用されうる。本発明はまた、教
育システムまたは言語トレーニングシステムに対しても
適用され得る。

【００４４】本発明は、これらの実施例に限定されるも
のではなく、特許請求の範囲に記載した事項の範囲内に
おいて種々の変形例を案出することができることは言う
までもない。

【図面の簡単な説明】

【図１】本発明による音声をテキストに変換するための
装置の構成を説明するブロック図である。

【図２】本発明による音声をテキストに変換するための
装置の構成の概要を説明する簡単なブロック図である。

【符号の説明】

１音声認識ユニット２単語解釈ユニット３辞書４構文分析ユニット５抽出ユニット６分析ユニット７コンパレータユニット８コンパレータユニット９分析ユニット１０テキスト選択ユニットＡ第１ユニットＢ第２ユニット

Claims

【特許請求の範囲】

【請求項１】音声をテキストに変換するための方法で
あって、テキストに変換すべき入力音声のセグメントから多数個
の音素を識別するステップと、前記音素を可能な単語または単語の組み合わせとして解
釈することによって音声モデルを確立するステップと、前記音声モデルの基本的な音の高低変化のイントネーシ
ョンパターンを決定することによって前記基本的な音の
高低変化の最大値および最小値と、前記最大値および最
小値のそれぞれの位置を決定するステップと、前記入力音声の基本的な音の高低変化を決定するステッ
プと、前記入力音声の基本的な音の高低変化のイントネーショ
ンパターンを決定することによって前記基本的な音の高
低変化の最大値および最小値と、前記最大値および最小
値のそれぞれの位置を決定するステップと、前記入力音声の前記イントネーションパターンと前記音
声モデルの前記イントネーションパターンとを比較する
ことによって、前記入力音声の対応する単語および／ま
たは単語の組み合わせのイントネーションパターンに最
もよく一致するイントネーションパターンをもつ前記音
声モデルの単語および／または単語の組み合わせを識別
するステップと、前記入力音声に最もよく一致する単語または単語の組み
合わせの表現を与えるステップとからなることを特徴と
する方法。
【請求項２】それによって前記音声モデルが形成され
る前記単語および／または単語の組み合わせの前記表現
が、プリントアウトの形式で与えられることを特徴とす
る請求項１に記載の方法。
【請求項３】前記識別された音素は組み合わせられて
異音列を形成し、前記確立された音声モデルは単語の異
なる音または音の組み合わせ、および無声音部分を含ん
でいることを特徴とする請求項１または請求項２に記載
の方法。
【請求項４】前記識別された音素は組み合わせられて
異音列を形成し、前記異音列から音声モデルが確立さ
れ、前記音声モデルにおける単語は語義的にチェックさ
れ、前記音声モデルにおける句は構文的にチェックさ
れ、言語として成り立たない単語および句は前記音声モ
デルから排除されることを特徴とする請求項１〜請求項
３のいずれかに記載の方法。
【請求項５】前記音声モデルにおける単語の綴りおよ
び発音記号がチェックされることを特徴とする請求項４
に記載の方法。
【請求項６】発音は同じであるが異なった音の強勢を
もった単語の意味を識別し、意味が文の強勢に依存して
変化する句を識別するように適合せしめられていること
を特徴とする請求項１〜請求項５のいずれかに記載の方
法。
【請求項７】トレーニングなしに種々の言語において
生じる音素を識別し、特定の言語において存在しない音
素を排除するように適合せしめられていることを特徴と
する請求項１〜請求項６のいずれかに記載の方法。
【請求項８】前記入力音声から多数個の音素を識別す
るステップは、隠れたマルコフモデルを用いることによ
って実行されることを特徴とする請求項１〜請求項７の
いずれかに記載の方法。
【請求項９】音声をテキストに変換するための装置で
あって、テキストに変換すべき入力音声のセグメントから多数個
の音素を識別する音声認識手段と、前記音素を可能な単語または単語の組み合わせとして解
釈することによって音声モデルを確立する単語解釈手段
と、前記音声モデルの基本的な音の高低変化のイントネーシ
ョンパターンを決定することによって前記基本的な音の
高低変化の最大値および最小値と、前記最大値および最
小値のそれぞれの位置を決定する第１分析手段と、前記入力音声から基本的な音の高低変化を抽出する抽出
手段と、前記入力音声の基本的な音の高低変化のイントネーショ
ンパターンを決定することによって前記基本的な音の高
低変化の最大値および最小値と、前記最大値および最小
値のそれぞれの位置を決定する第２分析手段と、前記入力音声の前記イントネーションパターンと前記音
声モデルの前記イントネーションパターンとを比較する
ことによって、前記入力音声の対応する単語および／ま
たは単語の組み合わせのイントネーションパターンに最
もよく一致するイントネーションパターンをもつ前記音
声モデルの単語および／または単語の組み合わせを識別
する比較手段と、前記入力音声に最もよく対応する単語および／または単
語の組み合わせの表現を選択し、与えるテキスト選択手
段を有することを特徴とする装置。
【請求項１０】前記テキスト選択手段は、前記入力音
声に最もよく一致する単語および／または単語の組み合
わせをプリントアウトするためのプリンタを有している
ことを特徴とする請求項９に記載の装置。
【請求項１１】前記音声認識手段によって識別された
前記音素は、前記音声認識手段によって組み合わせられ
て異音列を形成し、前記単語解釈手段によって確立され
た前記音声モデルは単語の異なる音または音の組み合わ
せ、および無声音部分を含んでいることを特徴とする請
求項９または請求項１０に記載の装置。
【請求項１２】前記音声モデルにおける単語を語義的
にチェックし、前記音声モデルにおける句を構文的にチ
ェックし、言語として成り立たない単語および句を前記
音声モデルから排除するチェック手段を有していること
を特徴とする請求項９〜請求項１１のいずれかに記載の
装置。
【請求項１３】前記チェック手段は前記音声モデルに
おける単語の綴りおよび発音記号をチェックすることを
特徴とする請求項１２に記載の装置。
【請求項１４】前記比較手段は、発音は同じであるが
異なる強勢をもつ単語の意味を識別し、また、意味が文
の強勢に依存して変化する句を識別すべく適合せしめら
れていることを特徴とする請求項９〜請求項１３のいず
れかに記載の装置。
【請求項１５】前記音声認識手段は、トレーニングな
しに、種々の言語において生じる音素を識別することに
よって特定の言語において存在しない音素を排除するべ
く適合せしめられていることを特徴とする請求項９〜請
求項１４のいずれかに記載の装置。
【請求項１６】前記入力音声から多数個の音素を識別
することが、隠れたマルコフモデルを用いることによっ
てなされることを特徴とする請求項９〜請求項１５のい
ずれかに記載の装置。
【請求項１７】請求項９〜請求項１６のいずれかに記
載の装置を含み、または請求項１〜請求項８のいずれか
に記載の方法に従って作動する話された単語に応答する
システム。
【請求項１８】話された単語からテキスト情報を生成
するための音声応答単語処理ユニットを有していること
を特徴とする請求項１７に記載のシステム。
【請求項１９】通信システム、あるいは前記通信シス
テムの一部をなしていることを特徴とする請求項１７に
記載のシステム。
【請求項２０】音声応答テレックス装置を有している
ことを特徴とする請求項１９に記載のシステム。