JP3414735B2

JP3414735B2 - 複合ワードを有する言語のための音声認識装置

Info

Publication number: JP3414735B2
Application number: JP51600693A
Authority: JP
Inventors: ケイ．ベイカー，ジェイムズ; ジー．バンバーグ，ポール; エム．ロバーツ，ジェド; ビー．ファング，カロライン; ベーベン，スティーン; エル．イー．エラーマン，クラウディア
Original assignee: ドラゴンシステムズインコーポレイテッド
Priority date: 1992-03-06
Filing date: 1993-03-03
Publication date: 2003-06-09
Anticipated expiration: 2018-06-09
Also published as: EP0634042B1; WO1993018506A1; JPH07507880A; US5754972A; DE69330427T2; EP0634042A1; ATE203119T1; EP0634042A4; DE69330427D1

Description

【発明の詳細な説明】関連特許の参照本出願の主題は、本出願の譲受人に譲渡された“Spee
ch Recognition Apparatus and Method"という表題の付
された米国特許第4,783,803号明細書に開示の主題と、
“Interactive Speech Recognition Apparatus"という
表題の付された米国特許第4,866,778号明細書に開示の
主題と、“Method for Interactive Speech Recognitio
n and Training"という表題の付された米国特許第5,02
7,406号明細書に開示の主題に関連するものである。こ
れらの特許明細書を適宜参照されたい。

背景本発明は一般に音声認識装置に関するものであり詳述
すると、複合ワードないし複合語を認識するための方法
および装置に関するものである。

人間の音声を認識するためのデータ処理装置、たとえ
ば口述内容を転写できる装置などが開発されている。コ
ンピュータ技術の進歩ならびに音声認識アルゴリズムの
進歩により、これらの装置はますますより強力なものに
なっている。たとえば、本発明の譲受人は30,000個のワ
ードないし単語を認識できる装置を現在販売している。
本装置の特徴の多くのものが上記米国特許第4,783,803
号明細書に叙述されている。

現在の多くの音声認識装置が、認識されるべき単語の
発声に応答して発生される音響信号の表示を音響的記述
または語彙の中の単語のモデルと整合させることにより
作動する。典型的にはアナログ−ディジタル変換器が認
識されるべき単語を話すことにより発生される音響信号
をディジタル表示に変換する。このディジタル表示が引
き続き周波数領域信号に変形される。周波数領域信号は
一連のフレームから構成され、それぞれのフレームが、
短い時間間隔にわたる複数の周波数バンドのうちの一つ
における音響信号振幅を与える。かかる装置は、認識さ
れるべき単語から誘導される一連のフレームを、装置の
ためのアクティブなまたは活動状態の語彙に記憶された
一連のノードまたはフレームモデルと比較することによ
り通常作動する。

初期のフレーム整合装置の性能は、比較的貧弱であっ
た。所与の単語を構成する個別の音はその単語の任意の
２つの発声において、正確に同様の速度でまたは正確に
同様の態様で話されることはほとんどない。結果的に、
２つの技術がこれらの装置の性能を改善するため開発さ
れた。第１の技術が確率的な整合である。確率的な整合
によれば、装置は、ある発声ないし言葉の所定のフレー
ムが、ある単語の音響モデルにおける所定のノードに対
応する可能性ないし尤度を決定する。尤度決定は、話さ
れたフレームの各周波数バンドの実際の振幅がフレーム
モデルとして記憶される周波数バンドの予想振幅とどの
程度接近して整合するかの関数である。

確率的整合はさらに各周波数バンドにおける実際の振
幅および予想される振幅との間の偏差がかかる値につい
ての予想される偏差にどの程度匹敵するかを考慮する。
確率的整合が、音声認識装置をして同様の単語の種々の
発声について生ずる可聴信号の変化を処理する改善され
た能力をもつようにさせる。それは、装置が音声認識の
仕事の間に普通に存在する雑音をより効率良く取り扱う
のを可能にする。

フレーム整合装置の性能を改善した第２の技術が動的
プログラミングである。動的プログラミングが、発声に
より発生されたフレームの並びと単語のモデルに包含さ
れるノードの並びとの間の最適な整合またはほぼ最適な
整合を見出すための方法を提供する。それは、単語の音
響モデルにおける各ノードの持続時間を伸張および収縮
し、同様の単語の種々の発声において生ずる自然の変動
を補償することによりこれを行う。

確率的整合および動的プログラミングが、話された単
語がデータ処理装置によって認識されるところの正確さ
を十分改善するけれども、両方の技術はコンピュータ操
作が集約的である。動的プログラミングおよび確率的な
整合により要求される比較を遂行することは非常に多数
のコンピュータ命令を要求し得る。結果的に、活動状態
の語彙に記憶される単語数が増大するに応じて、言葉を
識別するのに必要とされる時間も増大する。

従来技術は、多量の語彙認識装置により導入される過
剰なコンピュータ操作の需要を取り扱うための種々の方
法を開発している。一つの方法が、装置が任意の一時に
認識できる語彙を全語彙の部分集合に限定する人為的な
文法を具備する装置を提供する。

多量の語彙認識をより効率良くするための別の従来技
術が普通、「前フィルタリング」または「枝刈り（prun
ing）」と呼ばれる。前フィルタリングおよび枝刈りの
両方が、別途のコンピュータ操作を是認するように見え
ないこれら音響モデルを別途の考察から除去することに
より、プログラムが考慮するところの比較の数を低減す
ることを含む。たとえば、米国特許第4,783,803号に開
示された装置において、動的プログラミングアルゴリズ
ムが、言葉の各フレームが受け取られた後に、その活動
状態の語彙の各単語ごとにスコアないし得点を発生す
る。この得点は受け取られたフレームが所与の単語とあ
る程度まで整合するという尤度に対応する。活動状態の
語彙の各単語ごとの得点が更新された後に、それは任意
の単語について発生される最も良い得点と比較される。
所与の単語についての得点と最も良い得点との間の差が
一定の閾値を越えれば、その所与の単語が活動語彙から
除去されそして今後のフレームはもはやそれと比較され
ない。

米国特許第4,782,803号に叙述の装置は、言語モデル
を使用することにより、コンピュータ操作需要および混
同の可能性を別途低減する。その前に話される単語が与
えられれば、言語モデルが装置の語彙の各単語の発生の
相対的可能性を予想する。言語モデル確率が、大きな一
塊の本文を分析しそしてこれから語彙の各単語が語彙の
それぞれの他の単語によって先行される回数を決定する
ことにより計算される。

話された単語を認識する際に、従来技術の装置は、典
型的には、たぶん話された単語であるらしい単語の選択
リストを表示する。ところで、ある従来技術装置が選択
のためオペレータのために任意の単語を表示するまでに
必要とされる時間量は認識語彙の大きさとともに増大す
る。大語彙装置において従来技術の装置は比較的緩慢で
ある。後の従来技術の装置が、アルファベットフィルタ
リングなどの方法を利用し装置の応答時間を改善する。
アルファベットフィルタリングが使用者ないしユーザを
して話された単語に包含される文字列を指定することに
よって探索のフィールドを狭くするのを可能にする。か
かる装置の特徴は米国特許第4,866,778号に別途叙述さ
れている。

現在の音声認識装置の性能は少し前の類似の装置と比
較したとき印象的である。それにも拘らず、別途改善の
必要性が依然として存する。たとえば多くの仕事のため
実用的な使用目的の音声認識装置のために、単語からな
る大量の語彙を認識できることが必要である。これら単
語からなる重要な部分集合が複合語である。複合語を構
成するものが、いずれの言語が言及せられているかに依
存して変化し得る。たとえば、フランス語およびイタリ
ア語において、冠詞および前置詞が母音字から始まると
ころの他の単語と組み合わされ、「l'art（the art）」
および「dell'orologio（of the clock）」などの複合
語を生ずる。スペイン語において、「ponerlo（to pu
t）」の場合におけるように動詞が代名詞と組み合わさ
れる。ドイツ語において、複合語が案出されそしてたと
えば「finance minister」について「Finantzministe
r」（大蔵大臣）などのように英語の複合名刺とほぼ同
様に使用されている。日本語と中国語において、大部分
の語彙が一連の文字として現れる複合語からなる。単語
境界がこれら二つの言語の話し言葉から容易に識別でき
ない。なぜなら各対の文字間に等しい間隔があるからで
ある。

従来装置がアメリカ英語における単語の約95％の適用
範囲を実現する。成分を組み合わせることにより形成さ
れる単語の大きな割合を有する言語において匹敵し得る
適用範囲を実現することはさらに相当困難である。従来
装置によれば、所望される適用範囲の水準を実現するた
めに、装置の活動状態語彙は、有意義な数の複合語のた
めに音響モデルを発生および記憶することにより拡張さ
れる必要があろう。かかる方法は実際的でない量の記憶
容量を含むであろう。さらに、コンピュータ操作効率の
良い音声認識装置を設計するという問題は、装置のライ
ブラリに記憶される音響モデルの数を有意義に増大する
ことによってさらに一層困難となる。

従って、本発明の目的は、ユーザにより話された複合
語を認識する改善された単語認識装置を提供することで
ある。

本発明のさらに別の目的は、認識されるべき複合語を
その活動状態語彙に組み込むことを要求しない単語認識
装置を提供することである。

本発明のさらに別の目的は、複合語であるという高い
可能性ないし尤度を有する話された成語要素ないし形成
要素を自動的に組み合わせる単語認識装置を提供するこ
とである。

本発明の目的は、ユーザをして、複合語（形成要素か
らなる発声ストリング）へと組み合わせることのできる
装置を提供することでもある。

本発明の別の目的が、連続した言葉としてユーザによ
り発声される複合語を認識する単語認識装置を提供する
ことである。

本発明のさらに別の目的が、ユーザが、隔離された形
成要素として装置により以前に認識された単語をしてあ
る複合語へと組み合わされるようにすることができる単
語認識装置を提供することである。

本発明の別の目的が、ユーザが、複合語として装置に
より以前に認識された単語をして隔離された形成要素へ
分割できるようにする単語認識装置を提供することであ
る。

本発明の他の目的、特徴および利益が以下の好ましい
実施例の説明および請求の範囲から明らかとなろう。

発明の概要簡単にいうと、本発明は所定の語彙からの一つまたは
それ以上の単語の連続を包含する言葉から複合語を認識
するための装置および関連の方法である。言葉のなかの
複数の単語のうちの少なくとも一つの単語は、連続状態
の少なくとも２つの形成要素を包含するそしてこれらの
形成要素が語彙中の単語である複合語である。

装置は単語認識要素を具備する。単語認識要素は、ユ
ーザにより発声された言葉の処理に応答し複合語に対応
する単語を識別するために第１のモードで選択的に動作
する。単語認識装置はさらに、ユーザにより発声される
形成要素の連続物の処理に応答して、複合語に対応する
単語を識別するため第２のモードで選択的に動作し、こ
の場合、各形成要素が複合語中に対応的に配置された形
成要素を表わす。任意であるが、単語認識装置は隔離状
態で発声されるかまたは連続した音声として発声される
単語からなる言葉から複合語を認識するための要素をも
具備してもよい。

本装置はさらに単語認識装置のモードを決定するため
にユーザにより制御される要素をも具備する。ユーザ制
御要素は、ユーザにより発生される可聴ないし聴覚信号
またはユーザにより発生されるキーボード命令に応答し
得、単語認識装置のモードを決定する。

任意であるが、本装置は上述の第２モードのサブモー
ドで動作する。サブモードにおいて、単語認識要素は、
ユーザにより装入される処理キーワードに応答し、複合
語に対応する単語を識別する。各キーワードは複合語中
の対応的に配置された文字を表わす。キーワードは任意
のアルファベットタイプ表示に対応し得る。たとえば、
キーワードは国際通信アルファベット語に対応してもよ
い。代替例として、それらはドイツ語電話コード語でも
よい。さらにユーザはユーザにより発生される聴覚信号
を通じてまたはユーザにより発生されるキーボード命令
を通じてキーワードを入れられる。このサブモードによ
り包含される機能は、単語認識要素の動作の独立した第
３のモードとしても実施可能である。

代替え実施例において、本発明は所定の語彙からの一
つまたはそれ以上の発声された単語からなる連続物を包
含する言葉から単語を認識するための装置および関連の
方法である。本装置は単語認識装置およびモード選択の
ためのユーザ制御要素を包含する。

単語認識装置は、ユーザにより発声されたキーワード
の連続物の処理に応答し、発声された単語のうちの一つ
についての現在の候補単語リストとして、語彙のなかの
第１の複数の単語を決定および表示するため第１のモー
ドで選択的に動作可能である。それぞれのキーワードは
発声された単語のなかの対応的に配置された単語成分を
表わす。さらに、表示されたリスト中の複数の単語のそ
れぞれがキーワードの連続物により表示される単語成分
の連続物から始まる。単語成分は形成要素および文字か
らなる群から選択される。

単語認識装置はまた、ユーザにより入れられる一つま
たはそれ以上の命令に応答し、現在の候補単語リストか
ら発声単語の少なくとも一部を識別するため第２のモー
ドで選択的に動作する。これらの命令は現在の候補単語
リスト中のｎ番目の単語の最初のｋ個の文字を表わす
（ここで、ｋおよびｎは整数でありそしてｋ個の文字は
発声単語の最初のｋ個の文字を表わす）。ユーザは聴覚
信号を通じてまたはキーボード命令を通じて命令を入れ
られる。

第２の動作モードにおいて、単語認識装置はまた、ユ
ーザにより入れられる命令に応答して、発声単語につい
ての現在の候補単語リストとして語彙の中の第２の複数
の単語を決定する。この第２の複数の単語のうちのそれ
ぞれの単語はｋ個の文字から始まりそして現在の候補単
語リストとして表示される。

任意であるが、単語認識装置は、ユーザにより入れら
れる一つまたはそれ以上の命令に応答しｎ番目の単語に
おいて追加のｉ個の文字を識別し得る。この場合、ｉは
整数でありそしてｉ個の文字は先に識別されたｋ個の文
字に続く最初のｉ個の文字を表わす。

さらに、単語認識装置はユーザにより入れられる一つ
またはそれ以上の命令に応答し、先に識別されたｋ個の
文字からｊ個の文字を除外可能である。この場合、ｊは
整数でありそしてｊ個の文字はｎ番目の単語のｋ番目の
文字の直前のｊ個の文字を表わす。

単語認識装置は連続音声として発声される一つまたは
それ以上の単語を包含する言葉から単語を認識するため
の要素をも具備する。代替え例として、単語認識装置は
単語を認識するための要素を具備してもよく、ここで、
言葉は隔離状態で発声される一つまたはそれ以上の単語
を含む。

単語認識装置は、発声単語の残りを決定するために、
発声単語の一部の識別に応答し、選択的に動作する完了
要素を包含してもよい。完了要素は、ユーザにより入れ
られるキーワードまたは形成要素の連続物を処理するた
めの要素を具備してもよく、キーワードまたは形成要素
はそれぞれ発声単語の残りに対応的に配置された文字を
表わし、発声単語の残りとしてキーワードまたは形成要
素の連続物により表示される文字の連続物を識別する。

別の実施例において、本発明は、所定の語彙からの一
つまたはそれ以上の単語の連続物を含む言葉から複合語
を認識するための装置および方法を含み、この場合、単
語のうちの少なくとも一つは連続状態の少なくとも２つ
の形成要素を含む複合語である。この実施例によれば、
本発明のプロセッシング要素と、単語認識要素と組合せ
要素とを含む。

プロセッシング要素はユーザにより発声される形成要
素の連続物を処理しそして発声された形成要素のそれぞ
れに、複合語に包含される発声された形成要素の尤度を
表わすスコアないし得点を関連付ける。

単語認識要素は、これら関連付けられる得点に応答し
て、所定の基準に対応する組み合わされた得点を有する
連続的に発声された形成要素を複合語として識別する。
本発明によれば、各形成要素は、複合語における対応的
に配置される形成要素を表わす。

組合せ要素は単語認識手段により識別される連続形成
要素の組合せを表わす信号を発生する。信号は複合語を
表わす。

任意であるが、本実施例は、識別された複合語を、識
別された形成要素を表わす信号に分解するためのユーザ
によって制御される要素を具備する。かかるユーザ制御
要素はユーザにより発生される聴覚信号またはユーザに
より発生されるキーボード命令に応答し得る。

別の実施例において、本発明は所定の語彙からの一つ
またはそれ以上の単語の連続物を包含する言葉から複合
を認識するための装置および方法を含む。連続物のなか
の単語のうちの少なくとも一つは、少なくとも２つの連
続状態の形成要素を含む複合語である。形成要素は語彙
のなかの単語である。本装置は複合語を表わすそして連
続状態で発声される形成要素のうちの選択されたものに
対応する信号を発生するためのユーザ制御要素を具備す
る。

図面の簡単な説明第１図は本発明による複合語認識装置を具備する音声
認識装置の模式図である。

第２図は、第３図の実施例の動作を別途図示する動作
流れ図である。

第３図は、第２図の流れ図に従う本発明の好ましい実
施例の動作を図示するブロック図である。

第４図は、本発明の別の好ましい実施例の動作を図示
する動作流れ図である。

第５図〜第11図は、第４図に従う本発明の好ましい実
施例の動作を表わす例を示す。

詳細な説明第１図は、本発明による複合語認識装置を具備する音
声認識装置10の模式ブロック図である。本装置10は発声
された単語の発声を検出しそしてその発声を表わすディ
ジタル信号を発生するための要素を具備する。これらの
要素は、マイクロホン14、アナログ−ディジタル変換器
16、ピーク振幅検出器18、高速フーリエ変換（FFT）網2
0および発声検出器22を含む。これらの要素により発生
される信号はIBM互換性のある386型または486型のパー
ソナルコンピュータなどのプログラム可能なコンピュー
タ24に供給される。コンピュータ24には装置10により認
識される単語を表示するためのビデオモニター26が装備
されている。コンピュータ24はキーボードを別途具備
し、オペレータがマイクロホン以外の手段によりコンピ
ュータ24と通信できるようにする。モニター26、キーボ
ード28およびそれらの各接続部分30、32はパーソナルコ
ンピュータで普通使用されているタイプのものである。

発声単語がマイクロホン14を通して装置10に入る。マ
イクロホン14は、それに入る発声単語を指示するアナロ
グ出力信号を発生する。マイクロホン出力信号はアナロ
グ−ディジタル変換器16の入力に接続される。アナログ
−ディジタル変換器16はマイクロホン14により発生され
るアナログ信号を、マイクロホン出力信号の振幅を表わ
すディジタル値の並びに変換する。アナログ−ディジタ
ル変換器16の出力はピーク振幅検出器18および高速フー
リエ変換網20の入力に供給される。

当技術分野で良く知られるタイプである高速フーリエ
変換網20がアナログ−ディジタル変換器16の出力をフレ
ームの並びに変換する。各フレームは比較的短い時間に
わたる所定周波数におけるマイクロホン出力信号の振幅
を指示する。本発明によれば、フーリエ変換網20は50分
の１秒ごとに一フレームを出力する。この出力は、デー
タ線34および入力ポート36を通じて、コンピュータ24の
システムバス38に供給される。フーリエ変換網20はさら
に出力線39に中断信号をも供給する。この信号はシステ
ムバス38を通じてコンピュータ24の中央処理ユニット40
へ結合される。フーリエ変換網20により発生される中断
に応答して、中央処理ユニット40は、線34に提供され
る、各連続フレームを表わすデータを読取り、そしてこ
れをランダムアクセスメモリ42に記憶する。高速フーリ
エ変換網20はさらに線44を通じてフレームクロック信号
をピーク振幅検出器18に供給する。

ディジタル信号処理の分野でよく知られるタイプのピ
ーク振幅検出器18は、ピーク振幅値を発声検出器22の入
力に供給する。フーリエ変換網20からの信号によりクロ
ック同期される発声検出器22は、ピーク振幅入力を所定
の閾値と比較する。発声検出器22への入力が十分長い時
間の間、プリセット閾値を越えれば、発声検出器22はそ
の出力に中断44を発生する。その中断44は、発声検出器
22が、発声の始まりのようにみえるものを検出したこと
を中央処理ユニットへ合図する。

コンピュータ24はさらに尤度プロセッサ46をも包含す
る。尤度プロセッサ46は、ユーザにより発声された被検
出単語におそらく対応するであろうシステム辞書中の単
語を決定するよう設計された特別の目的のプロセッサで
ある。標準的に、システム辞書は音響単語モデル（すな
わち音響ライブラリ）とアルファベット単語のリスト
（すなわちバックアップライブラリ）の両方を包含す
る。尤度プロセッサ46は、中央プロセッサ40により読み
取られたデータとランダムアクセスメモリ42に記憶され
る予め定義された音響モデルとを比較することにより発
声された単語について可能性のある整合を決定する。あ
る従来装置によれば、尤度プロセッサはさらにアルファ
ベット単語リストを探索する。音響モデルが標準的には
アルファベットリストに包含される単語について記憶さ
れない。音響モデルおよびアルファベットリストを使用
するいくつかの探索方法が従来技術で使用されている。
これらは米国特許第4,783,803号、米国特許第4,886,778
号および米国特許第5,027,406号に詳細に述べられてい
る。

さらに、第１図には複合語認識装置12が図示されてい
る。本発明による複合語認識装置12はユーザにより発声
される複合語を認識する責がある。上述したごとく、複
合語を構成するものは、装置10がその中で動作している
ところの所定言語に依存し異なり得る。ところで、本出
願において終始使用される複合語という用語は、それぞ
れがシステム語彙中の単語として取り扱われる２つまた
はそれ以上の形成要素の連続物から作られる単語を包括
的に指す。

尤度コンピュータ操作および複合語認識コンピュータ
操作の両方はプロセッサ集約性である。こうして、装置
10の性能は専用要素をこれらコンピュータ操作を実行す
るのに割り当てることにより高められ得る。ところで、
当業者には明瞭であるように、これらコンピュータ操作
は、ソフトウエア制御の下で中央プロセッサ40により良
好に実行されよう。さらに複合語認識装置12は尤度プロ
セッサ46の一部としてもまた包含されよう。

第２図は本発明の一つの実施例による動作流れ図50を
図示する。流れ図50に図示される「通常モード」ブロッ
ク52は従来技術の口述装置である。典型的には、これら
の装置は複合語が音響モデルまたはアルファベットリス
トとしてシステムライブラリに記憶されなければ複合語
を認識できない。

動作において、隔離されるまたは連続的単語の連続か
らなる発声に応答して、通常モードは発声単語ごとに候
補単語リストを発生する。もし発声単語が表示された候
補リストにあれば、決定ブロック54により図示されるご
とく単語が（手動的にまたは自動的に）選択され（56）
そして装置は通常の口述モードにとどまる。ところで、
複合語でありそうなことであるが、もし発声単語が表示
候補リストになければ、ユーザはいくつかの選択肢58の
うちの任意の一つから選択可能である。ブロック60によ
り図示される一つの選択肢はユーザが発声される複合語
を表わす文字の並びを入れることである。この動作のサ
ブモードは「つづりモード」と呼ばれる。複合語の定義
と同様に、文字の定義は、ユーザが活動しているところ
の言語により変化し得る。ところで、例として、英語で
はユーザは単語のつづり、すなわち一時に一文字を入れ
られる。同様に、ユーザは国際通信アルファベット（た
とえば、“a"について“alpha"を“b"について“bravo"
など）を使用可能である。ユーザは、ブロック62により
示されるごとく、正しくつづられた単語を受け取りそし
て通常の口述モードに復帰する。

決定ブロック64により示されるごとく、第２の選択肢
は、所定の複合語が複合語を構成する形成要素および／
または文字の組合せを話すことにより入れられる動作モ
ードをユーザが選択することである。この選択肢の一つ
の実施例68によればユーザが複合語へ組み合わされるべ
き一連の形成要素を発声する。たとえば、ユーザが“pu
t"の前に“through"を発声し、複合語“throughput"を
入れるかも知れない。代替実施例66において、ユーザ
は、単語認識装置が複合語へと変換するところの一つま
たはそれ以上の形成要素との組合せにおいて一つまたは
それ以上の文字を発声してもよい。たとえばユーザが
“cultural"の前に“s"、“o"、“c"、“i"および“o"
を入れ、単語“sociocultural"を表現し、そして単語全
体をつづるのを避けるかも知れない。ユーザは、複合語
が完成されるまで形成要素および／または文字を入れ続
ける。決定ブロック70により図示されるごとく複合語の
完了の際に、ユーザはブロック72により示されるごとく
単語を受け取りそして通常の口述モード52へ復帰する。

第３図は、第２図の流れ図50により叙述される複合語
認識装置の動作を示すブロック図を示す。図示されるご
とく、装置80は複合語認識要素82およびユーザ制御要素
84を具備する。総括的に、本装置80は連続音声または隔
離状態のいずれかとして発声される一つまたはそれ以上
の形成要素F1〜F6を包含する入力の言葉86を検出する。
複合語認識装置は、形成要素F1〜F6のうちのいずれが組
み合わされ複合語を形成するかを決定しそしてその決定
に応答してこれらの形成要素を適当な複合語へ組み合わ
せる。これは第３図において出力表示88として図示され
る組合せF1F2、F3F4およびF5F6により図示されている。

上述したごとく、本装置80はいくつかのユーザ選択可
能なモードのうちの任意のモードで動作する。ユーザは
ユーザ制御要素84を通じて所定の動作モードを選択す
る。ユーザ制御要素84は、たとえば第１図に図示される
マイクロホン14またはキーボード28としてもよい。

第１の動作モードが入力形成要素F1およびF2により図
示される。入力形成要素F1およびF2が通常の音声として
発声される複合語を表わす。本発明によれば、もし単語
が活動ライブラリまたはバックアップライブラリに存在
すれば、非複合語が従来技術の装置で識別されそして表
示されるのとほぼ同様の仕方で、複合語認識装置82はラ
イブラリからその単語を選択しそしてそれをユーザのた
めに表示する。

入力形成要素F3およびF4により示される第２の動作モ
ードにおいて、単語認識装置82は、発声される始めの複
合語デリミッター（区切り）および発声される終わりの
複合語デリミッター（区切り）との間で発声される。こ
れら形成要素を複合語へ組み合わせる。例として、ユー
ザが“begin compound"、“F3"、“F4"、“end compoun
d"と発声するかも知れない。第３図に図示されるごとく
これは形成要素F3およびF4の組み合わせを表わす複合語
の出力表示F3F4を示す。

第２の動作モードの代替実施例において、ユーザは形
成要素および文字の両方を組み合わせることを選択可能
である。たとえば、ユーザが“begin compound"、“Arb
eit"、“Samuel"、“Moral",“end compound"と発声す
るかも知れない。この例において、“Samuel"は文字
“s"についてのドイツ語電話アルファベット文字であ
る。文字を表わす他のコードを使用してもよい。

第３の動作モードにおいて、単語認識装置82は、一連
の逐次に発声される形成要素が、複合語としてユーザの
ために組み合わされそして表示されるべきかどうかを自
動的に決定する。単語認識装置82はこのことを、検出さ
れる形成要素の連続を処理しそして検出された形成要素
がその直前または直後に検出される形成要素のうちのい
ずれかと一緒に、ある複合語に包含される尤度を表わす
得点をそれぞれの認識形成要素に関連付けることにより
これを行う。もし、形成要素が隔離状態で存在するのと
は対照的に組み合わされるべき見込みがあれば、単語認
識装置82は形成要素を複合語へと組み合わせる。

任意の形成要素の群が隔離状態で存するかまたは複合
語へと組み合わされるべきかどうかの相対的可能性を決
定するのに使用される一つの技術が、言語モデルを使用
することである。言語モデルは、前に発声された一つま
たはそれ以上の単語が与えられれば、システム語彙中の
各単語の発生の相対的可能性ないし尤度を予想する。

第３の動作モードの一つの実施例において、複合語認
識装置82は、ユーザ命令に応答し、前に識別された複合
語をその識別された形成要素へ分解する。

第４図は、本発明の代替え実施例による動作流れ図10
0を示す。第２図においてのように、流れ図100で図示さ
れている「通常モード」ブロック102は従来技術の口述
装置を表わす。第２図の実施例におけるごとく、そして
決定ブロック103により示されるごとく、もし発生され
た単語が候補リスト103上にあれば、単語が選択されそ
して装置は通常の口述モードにとどまる。また、第２図
の実施例と同様に、もし単語が候補リスト上になけれ
ば、ユーザはいくつかの選択肢を有する。選択肢の選択
は決定ブロック106により表示されている。第４図の実
施例によれば、ユーザが単語成分を通じてまたは候補リ
ストに包含される単語の一部を指定することにより複合
語を指定し得る。さらに、ユーザは文字を入れることに
より部分的に指定された複合語を完成し得る。

単語成分が形成要素および文字の両方を包含する。ユ
ーザはこれらの形成要素および／または文字を第２図の
実施例とほぼ同様に入れる。ところで、第４図の実施例
によれば、第１図の複合語認識装置12は、ユーザにより
入れられる文字および形成要素に応答して、自動的に候
補リストを発生し（114）そしてそのリストを表示する
（116）。一つの実施例によれば、複合語認識装置12
は、システムライブラリのその探索を、ユーザにより入
れられる形成要素および／または文字から始まる単語に
限定する。ところで、発声される命令を通じて入れられ
る形成要素および／または文字の場合、複合語認識装置
はその探索において、発声されたものであるという相当
な確率を有するとそれが決定するところの任意の形成要
素および／または文字を包含可能である。追加の文字お
よび／または形成要素を入れることにより、ユーザは単
語認識装置の探索の範囲を別途限定できる。

決定ブロック118により指示されるごとく、もし複合
語が選択肢リスト上に現れればユーザはそれを選択する
（120）。もしユーザがある単語を候補リストから選択
すれば、装置は自動的に通常の口述モード102へ復帰す
る。代わりに、もし単語が候補リスト上に現れなけれ
ば、ユーザは決定ブロック106から入手できるいくつか
の選択肢のうちの任意のものをもう一度選択可能であ
る。

第４図の図示の実施例によれば、ユーザに利用できる
別の選択肢が、候補リスト上に現れる単語の一部を選択
することである。この選択肢はブロック110により表示
されている。形成要素を入れる場合と同様、候補リスト
上の単語の一部を指定することは、複合語全体を一文字
ずつつづることに代わり、時間の節約となる。ブロック
110により図示されているように、候補リスト上の単語
の所望部分は単語番号（ｎ）および単語の最初の（ｋ）
個の文字を指定することにより選択される。ある単語の
一部が選択されるとき、複合語認識装置12はその探索動
作を、選択される文字から始まるシステムライブラリ中
の単語に限定する。さらに、ブロック122により図示さ
れるごとく、単語認識装置は対応的に候補リストを更新
する。更新された候補リストはユーザのために表示され
る。ふたたび、もし複合語がリスト上に現れれば、ユー
ザはそれを選択しそして装置は通常の口述モードへ復帰
する。もし単語が候補リストに現れなければ、装置は決
定ブロック106へ復帰しそしてユーザが使用されるべき
所定の選択肢を選択するのを許容する。

本発明の他の実施例によれば、ユーザは候補選択リス
トから選択される単語内の別の文字を任意に選択可能で
ある。ユーザはさらに前に選択された文字を選択しなく
ともよい。たとえば、ユーザは候補リスト中の第２番目
の単語の最初の３つの文字を指定してもよい。上述した
ごとく、候補リストは対応的に更新される。もし単語が
６文字の長さであれば、ユーザは引き続き装置に１文
字、２文字または３文字前進するよう命令可能であり、
それにより単語の最初の４文字、５文字または６文字を
効率よく選択する。同様に、ユーザは装置に１文字、２
文字または３文字後退するよう命令可能であり、それに
より単語の最初の２文字、１文字または０文字を指定可
能である。候補選択リストはそれぞれの新規な文字選択
で更新される。

決定ブロック106から利用できる別途の選択肢がブロ
ック112から開始する。この選択肢は、ユーザが一つま
たはそれ以上の文字を入れ、複合語を完成するのを許容
する。ブロック122および124により指示されるごとく、
完全な単語が入れられると、ユーザは単語を受け入れそ
して装置は通常の口述モードに復帰する。

第５図〜第11図は、第３図および第４図の実施例の動
作を示す一例を図示する。この例全体を通じて、「装入
するあるいは入れる」という言葉は、発声することによ
りそしてキーボードを使用することにより命令を入れる
ことの両方を呼称するのに使用される。第５図に示され
るごとく、ユーザは複合語“thermoregulatory"を発声
する。単語が認識されないと仮定すると、カーソル線13
0および定義窓132が両方とも空白のままとどまる。選択
肢窓134は空白のままとどまってもよいしまたは正しく
ない選択物を簡単に包含してもよい。第４図の決定ブロ
ック106により、ユーザはいくつかの選択肢のうちの任
意のものを選択する。第５図の例において、ユーザは、
命令“Begin Compound Mode"を入れることにより単語成
分を入れることを選択する。

ユーザは、文字であるところの単語成分または形成要
素であるところの単語成分を入れるという選択肢を有す
る。第６図の例において、ユーザは形成要素“therm"を
入れる。これは、複合語認識装置をして、形成要素“th
erm"から始まる単語について辞書を探索するようにす
る。さらに、“therm"は定義窓132中に表示される。図
示の実施例によれば、９つの可能性のある候補が、好ま
しくは発生可能性値に基づいて順序付けられた仕方で、
選択肢窓134に表示される。図示の例において単語認識
装置は一定状態の下で形成要素“therm"を正しく識別し
ているが、認識装置は、発声された形成要素が“therm"
以外であったという相当な確率が存することを決定する
かも知れない。たとえば、認識装置は“term"または“d
erm"を等しく可能性のある選択物であると同定するかも
知れない。このような状況において、一つの好ましい実
施例によれば、初めに発声される単語（たとえばthermo
regulatory）および発声される形成要素（たとえばthe
rm）の両方に単語認識装置が割り当てるところの確率が
あれば、単語認識要素は最も可能性のある選択物を表示
する。

所望される単語が選択物窓134に表示されない間、ユ
ーザは表示される選択物の任意のものの一部を選択する
という選択肢を有する。この場合、ユーザは命令“sele
ct six first six"を入れる。これは、選択物リストの
第６番目の単語の最初の６文字を選択する。

最初の６個の文字（たとえば“thermo"）が線で囲ま
れた状態で第６番目の候補“thermodynamic"を包含する
結果的に得られる定義窓132が第７図で参照番号136によ
り図示されている。“thermo"の選択は複合語認識装置
をして選択肢窓134に図示される候補リストを更新す
る。第７図に示されるごとく、すべての９個の選択物が
ここに形成要素“thermo"から始まる。第７図の選択肢
はいずれも、“thermoregulatory"と共通の最初の６つ
以上の文字を持たないので、ユーザは文字である単語成
分を入れるための選択肢を実行する。

「つづりモード」の選択肢を使用する従来装置におい
て、ユーザによりつづられる文字は、他に指定されなけ
れば、識別されるべき単語の初めに配置される。ところ
で本発明によれば、もしつづり文字135が先に発声され
た形成要素（たとえば“therm"）のすぐ後に続けば、つ
づり文字は、ユーザにより他に指定されなければ、発声
された形成要素の後に続くと仮定される。もしつづり文
字が命令（たとえば、select six、first six）のすぐ
後に続けば、つづり文字は選択される文字（たとえば、
本例で、第６番目の単語の第７番目の文字）の後に続く
と仮定される。もしつづり文字が形成要素または選択型
命令によって先行されなければ、つづり文字は、従来装
置におけるごとく、認識されるべき単語の初めに配置さ
れる。

第７図の例において、ユーザは文字“r"をその対応す
る国際通信アルファベット文字（たとえばromeo）を介
して入れる。他の実施例において、国際通信アルファベ
ットは西欧アルファベット文字を入れるのに使用され
る。もちろん、他の言語について異なる文字／記号が使
用可能である。

第８図に図示されるごとく、複合語認識装置は“r"を
定義窓に組み込み、“thermodynamic"の“dynamic"の部
分を除去する。単語認識装置はさらに選択物窓134に表
示されている候補リストを更新する。ユーザは順次第２
番目の単語の最初の９文字を選択するという選択肢を実
行する。

従って、第９図は文字“thermoreg"が番号136におい
て線で取り囲まれた状態で定義窓132中に単語“thermor
egulation"を示す。選択物窓は、その最初の９文字とし
て“thermoreg"を有する候補だけを包含する。第９図の
定義窓132に依然と図示されている第８図の第２番目の
選択が所望される複合語と共通の最初の９つ以上の文字
を有することを理解するとき、ユーザは命令“forward
four"を入れる。

第10図に示されるごとく、これは定義窓132の囲み部
分136に包含される追加の４つの文字を生ずる。同様
に、もしユーザがあまりに多数の文字が誤って包含され
たことを理解すれば、「後退」命令が以前に選択された
文字を解放する。たとえば、“back four"命令が、第９
図の定義窓132の囲み部分136に包含された文字“oreg"
の解放を招くであろう。

“forward four"命令の後に、所望される複合語と共
通の追加の文字を包含する別途の選択物はない。かくし
て、ユーザはもう一度つづりモードを入れそして単語を
完成する。残りの文字“o"“r"“y"をそれらの国際通信
アルファベット記号を介して入れることに続いて、ユー
ザは第11図の定義窓132に表示される完成された単語を
許容する。従って、定義窓132の中の単語は、カーソル
線130へ移送される。

本発明は、その精神またはその本質的特徴を逸脱する
ことなく他の特定の形式で具体化され得る。それゆえ、
現在の実施例はすべて単なる例示であり本発明を制限す
るものと考えるべきではなく、本発明の思想は発明の詳
細な説明によってではなく以下の請求の範囲により指示
されるものであり、そして本発明の均等の範囲内にある
すべての変更は請求の範囲に包含されるべきものであ
る。

フロントページの続き (72)発明者バンバーグ，ポールジー. アメリカ合衆国 01701 マサチューセッツ，フラミンガム，グレゴリーロード 14 (72)発明者ロバーツ，ジェドエム. アメリカ合衆国 02160 マサチューセッツ，ニュートン，リーウッドロード７ (72)発明者ファング，カロラインビー. アメリカ合衆国 02178 マサチューセッツ，ベルモント，コンコードアベニュー 653 (72)発明者ベーベン，スティーンアメリカ合衆国 02168 マサチューセッツ，ニュートン，コッターロード 51 (72)発明者エラーマン，クラウディアエル．イー. アメリカ合衆国 02129 マサチューセッツ，チャールズタウン，バーノンストリート 14 １／２ (56)参考文献特開平３−179498（ＪＰ，Ａ) 特開昭63−73300（ＪＰ，Ａ) 特開昭63−75798（ＪＰ，Ａ) 特開昭62−154022（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G01L 15/22 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】予定された語彙からの１または複数の話さ
れたワードより成る一連のワードを含む発声ないし発話
からワードを認識するシステムにおいて、 A.（ｉ）第１のモードで選択的に動作し得、使用者によ
り話される一連のキーワードの処理に応答して、前記の
話されたワードの一つに対して、前記語彙内の第１の複
数のワードを現在候補ワードリストとして決定し、そし
て前記現在候補ワードリストを表示し、かつ、（ii）第２のモードにおいて選択的に動作し得、 a.使用者により装入される１または複数の命令に応答し
て、前記現在候補ワードリストから前記の話されたワー
ドの少なくとも一部を識別し、そして b.前記命令に応答して、前記語彙内の第２の複数のワー
ドを、前記の話されたワードに対する前記現在候補ワー
ドリストとして決定し、そして前記現在候補ワードリス
トを表示するための手段であって、前記各キーワードが前記の話されたワー
ドにおいて対応的に位置づけられたワード成分を表わ
し、前記リスト内の前記複数のワードの各々が、前記一
連のキーワードにより表わされる一連のワード成分で始
まり、前記の１または複数の命令が、前記現在候補ワー
ドリスト内のｎ番目のワードの最初のｋの文字を表わ
し、ここで、ｋおよびｎは整数であり、前記ｋの文字は前記
の話されたワードの最初のｋの文字を表わすものとす
る、前記第２の複数のワード内の各ワードが前記のｋの
文字で始まる手段を含むワード認識装置と、 B.前記ワード認識装置のモードを決定するための使用者
制御手段とを備えることを特徴とするワード認識システム。
【請求項２】前記ワード成分が構成要素および文字から
なる群から選択される請求の範囲第１項記載のワード認
識システム。
【請求項３】前記第２モードの前記命令が、使用者によ
り発生される可聴信号により装入される請求の範囲第１
項記載のワード認識システム。
【請求項４】前記第２モードの前記命令が、使用者によ
り発生されるキーボード命令により装入される請求の範
囲第１項記載のワード認識システム。
【請求項５】前記使用者制御手段が、使用者により発生
される可聴信号に応答して、前記ワード認識装置のモー
ドを決定する請求の範囲第１項記載のワード認識システ
ム。
【請求項６】前記使用者制御手段が、使用者により発生
されるキーボード命令に応答して、前記ワード認識装置
のモードを決定する請求の範囲第１記載のワード認識シ
ステム。
【請求項７】前記ワード認識装置が、隔絶的に話された
１または複数のワードを含む前記発声から前記ワードを
認識するための手段を備える請求の範囲第１項記載のワ
ード認識システム。
【請求項８】前記ワード認識装置が、連続スピーチとし
て話された１または複数のワードを含む前記発声から前
記ワードを認識するための手段を備える請求の範囲第１
項記載のワード認識システム。
【請求項９】前記１または複数の命令が、前記第ｎ番目
のワードの前記の最初のｋの文字を識別すべき命令を含
む請求の範囲第１項記載のワード認識システム。
【請求項１０】前記１または複数の命令が、ｉの追加の
文字を識別すべき命令を含み、ここでｉは整数である、
前記ｉの文字が前記ｎ番目のワード内の前記ｋの文字に
続く最初のｉの文字を表わす請求の範囲第９項記載のワ
ード認識システム。
【請求項１１】前記１または複数の命令が、先に識別さ
れた前記ｋの文字からｊの文字を排除すべき命令を含
み、ここでｊは整数である、前記ｊの文字が、前記ｎ番
目のワードのｋ番目の文字直前のｊの文字を表わす請求
の範囲第９項記載のワード認識システム。
【請求項１２】前記ワード認識装置が、前記の話された
ワードの一部の前記識別に応答して選択的に動作し得、
前記の話されたワードの残部を決定するための完成手段
を備える請求の範囲第１項記載のワード認識システム。
【請求項１３】前記完成手段が、前記の話されたワード
の前記残部において対応的に位置づけられる文字を各々
表わすところの、使用者により装入される一連のキーワ
ードを処理して、前記一連のキーワードにより表示され
る一連の文字を前記の話されたワードの前記残部として
識別する手段を備え、前記の話されたワードが、前記の
識別された残部が続く前記の識別された部分に対応して
いる請求の範囲第12項記載のワード認識システム。
【請求項１４】前記完成手段の前記キーワードが、使用
者により発生される可聴信号により装入される請求の範
囲第13項記載のワード認識システム。
【請求項１５】前記完成手段のキーワードが、使用者に
より発生されるキーボード命令により装入される請求の
範囲第13項記載の話ワード認識システム。
【請求項１６】前記完成手段が、前記の話されたワード
の前記残部において対応的に位置づけられる構成要素を
各々表わすところの、使用者により装入される一連の構
成要素を処理して、前記一連の構成要素を前記の話され
たワードの前記残部として識別する手段を備え、前記の
話されたワードが、前記の識別された残部が続く前記の
識別された部分に対応している請求の範囲第12項記載の
ワード認識システム。
【請求項１７】前記完成手段の前記構成要素が、使用者
により発生される可聴信号により装入される請求の範囲
第16項記載のワード認識システム。
【請求項１８】前記完成手段の前記構成要素が、使用者
により発生されるキーボード命令により装入される請求
の範囲第16項記載のワード認識システム。
【請求項１９】予定された語彙からの１または複数のワ
ードより成る一連のワードを含む発声ないし発話から複
合ワードを認識するためのシステムであって、前記ワー
ドの少なくとも一つが前記語彙内のワードである少なく
とも二つの構成要素を連続して含む複合ワードであるも
のにおいて、 A.使用者により話される一連の構成要素を処理して、前
記の話された構成要素の各々と、前記複合ワードに含ま
れている前記の話された構成要素の尤度を表わすスコア
を関連づけるための処理手段と、 B.関連するスコアに応答して、予定された規準に対応す
る結合されたスコアを有する順次に話された構成要素を
前記複合ワードとして識別するためのワード認識手段
と、ここで前記構成要素の各々は、前記複合ワード内に
おいて対応的に位置づけられた構成要素を表わすものと
する、 C.前記ワード認識手段により識別される前記逐次の構成
要素の組合せを表わし、かつ前記複合ワードを表わす信
号を発生するための組合せ手段と、 D.前記の識別された複合ワードを前記の識別された構成
要素を表わす信号に分解するための使用者制御手段とを備えることを特徴とする複合ワード認識システム。
【請求項２０】前記使用者制御手段が、使用者により発
生される可聴信号に応答して前記の識別された複合ワー
ドを分解する請求の範囲第19項記載の複合ワード認識シ
ステム。
【請求項２１】前記使用者制御手段が、使用者により発
生されるキーボード命令に応答して、前記に識別された
命令ワードを分解する請求の範囲第19項記載の複合ワー
ド認識システム。
【請求項２２】予定された語彙からの１または複数の話
されたワードより成る一連のワードを含む発声ないし発
話からワードを認識するコンピュータ実施方法におい
て、（ｉ）選択的に第１のモードにおいて、使用者により話
される一連のキーワードの処理に応答して、前記の話さ
れたワードの一つに対して、前記語彙内の第１の複数の
ワードを現在候補ワードリストとして決定し、そして前
記現在候補ワードリストを表示し、かつ、（ii）選択的に第２のモードにおいて、 a.使用者により装入される１または複数の命令に応答し
て、前記現在候補ワードリストから前記の話されたワー
ドの少なくとも一部を識別し、そして b.前記命令に応答して、前記語彙内の第２の複数のワー
ドを、前記の話されたワードに対する前記現在候補ワー
ドリストとして決定し、そして前記現在候補ワードリス
トを表示することによりワードを認識する諸段階を含み、前記各キー
ワードが前記の話されたワードにおいて対応的に位置づ
けられたワード成分を表わし、前記リスト内の前記複数
のワードの各々が、前記一連のキーワードにより表わさ
れる一連のワード成分で始まり、前記の１または複数の
命令が、前記現在候補ワードリスト内のｎ番目のワード
の最初のｋの文字を表わし、ここで、ｋおよびｎは整数であり、前記ｋの文字は前記
の隔絶されたワードの最初のｋの文字を表わすものとす
る、前記第２の複数のワード内の各ワードが前記のｋの
文字で始まることを特徴とするコンピュータ実施方法。
【請求項２３】前記ワード成分が構成要素および文字か
らなる群から選択される請求の範囲第22項記載のコンピ
ュータ実施方法。
【請求項２４】前記第２モードの前記命令を、使用者に
より発生される可聴信号により装入することを含む請求
の範囲第22項記載のコンピュータ実施方法。
【請求項２５】前記第２モードの前記命令を、使用者に
より発生されるキーボード命令により装入する請求の範
囲第22項記載のコンピュータ実施方法。
【請求項２６】前記動作モードを使用者により発生され
る可聴信号により決定することを含む請求の範囲第22項
記載のコンピュータ実施方法。
【請求項２７】前記動作モードを使用者により発生され
るキーボード命令により決定することを含む請求の範囲
第22項記載のコンピュータ実施方法。
【請求項２８】１または複数の前記ワード隔絶されたワ
ードとして話すことを含む請求の範囲第22項記載のコン
ピュータ実施方法。
【請求項２９】１または複数の前記ワードを連続スピー
チとして話すことを含む請求の範囲第22項記載のコンピ
ュータ実施方法。
【請求項３０】前記１または複数の命令が、前記第ｎ番
目のワードの前記最初のｋの文字を識別すべき命令を含
む請求の範囲第22項記載のコンピュータ実施方法。
【請求項３１】前記１または複数の命令が、ｉの追加の
文字を識別すべき命令を含み、ここでｉは整数である、
前記ｉの文字が前記ｎ番目のワード内の前記ｋの文字に
続く最初のｉの文字を表わす請求の範囲第30項記載のコ
ンピュータ実施方法。
【請求項３２】前記１または複数の命令が、先に識別さ
れた前記ｋの文字からｊの文字を排除すべき命令を含
み、ここでｊは整数である、前記ｊの文字が、前記ｎ番
目のワードのｋ番目の文字直前のｊの文字を表わす請求
の範囲第30項記載のコンピュータ実施方法。
【請求項３３】前記の話されたワードの一部の前記識別
に応答して前記の話されたワードの残部を選択的に決定
することを含む請求の範囲第22項記載のコンピュータ実
施方法。
【請求項３４】前記の話されたワードの前記残部におい
て対応的に位置づけられる文字を各々表わすところの、
使用者により装入される一連のキーワードを処理して、
前記一連のキーワードにより表示される一連の文字を前
記の話されたワードの前記残部として識別することを含
み、前記の話されたワードが、前記の識別された残部が
続く前記の識別された部分に対応している請求の範囲第
33項記載のコンピュータ実施方法。
【請求項３５】前記完成手段の前記キーワードを使用者
により発生される可聴信号により装入することを含む請
求の範囲第34項記載のコンピュータ実施方法。
【請求項３６】前記完成手段のキーワードを、使用者に
より発生されるキーボード命令により装入する請求の範
囲第34項記載のコンピュータ実施方法。
【請求項３７】前記の話されたワードの前記残部におい
て対応的に位置づけられる構成要素を各々表わすところ
の、使用者により装入される一連の構成要素を処理し
て、前記一連の構成要素を前記の話されたワードの前記
残部として識別することを含み、前記の話されたワード
が、前記の識別された残部が続く前記の識別された部分
に対応している請求の範囲第33項記載のコンピュータ実
施方法。
【請求項３８】前記構成要素を使用者により発生される
可聴信号により装入する請求の範囲第37項記載のコンピ
ュータ実施方法。
【請求項３９】前記構成要素を使用者により発生される
キーボード命令により装入する請求の範囲第37項記載の
コンピュータ実施方法。
【請求項４０】予定された語彙からの１または複数のワ
ードより成る一連のワードを含む発声ないし発話から複
合ワードを認識するためのコンピュータ実施方法であっ
て、前記ワードの少なくとも一つが前記語彙内のワード
である少なくとも二つの構成要素を連続して含む複合ワ
ードであるものにおいて、 A.使用者により話される一連の構成要素を処理して、前
記の話された構成要素の各々と、前記複合ワードに含ま
れている前記の話された構成要素の尤度を表わすスコア
を関連づけ、 B.前記スコアに応答して、予定された規準に関してある
スコアを有する順次に話された構成要素を前記複合ワー
ドとして識別し、ここで前記構成要素の各々は、前記複
合ワード内において対応的に位置づけられた構成要素を
表わすものとする、 C.前記識別段階において識別される前記逐次の構成要素
の結合を表わし、かつ前記複合ワードを表わす信号を発
生し D.前記の識別された複合ワードを前記の識別された構成
要素を表わす信号に分解する諸段階を含むことを特徴とするコンピュータ実施方法。
【請求項４１】前記構成要素を分解するための前記命令
が、使用者により発生される可聴信号である請求の範囲
第40項記載のコンピュータ実施方法。
【請求項４２】前記構成要素を分解するための前記命令
が、使用者により発生されるキーボード命令である請求
の範囲第40項記載のコンピュータ実施方法。