JP3414735B2 - 複合ワードを有する言語のための音声認識装置 - Google Patents

複合ワードを有する言語のための音声認識装置

Info

Publication number
JP3414735B2
JP3414735B2 JP51600693A JP51600693A JP3414735B2 JP 3414735 B2 JP3414735 B2 JP 3414735B2 JP 51600693 A JP51600693 A JP 51600693A JP 51600693 A JP51600693 A JP 51600693A JP 3414735 B2 JP3414735 B2 JP 3414735B2
Authority
JP
Japan
Prior art keywords
word
user
spoken
words
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP51600693A
Other languages
English (en)
Other versions
JPH07507880A (ja
Inventor
ケイ. ベイカー,ジェイムズ
ジー. バンバーグ,ポール
エム. ロバーツ,ジェド
ビー. ファング,カロライン
ベーベン,スティーン
エル.イー. エラーマン,クラウディア
Original Assignee
ドラゴン システムズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドラゴン システムズ インコーポレイテッド filed Critical ドラゴン システムズ インコーポレイテッド
Publication of JPH07507880A publication Critical patent/JPH07507880A/ja
Application granted granted Critical
Publication of JP3414735B2 publication Critical patent/JP3414735B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

【発明の詳細な説明】 関連特許の参照 本出願の主題は、本出願の譲受人に譲渡された“Spee
ch Recognition Apparatus and Method"という表題の付
された米国特許第4,783,803号明細書に開示の主題と、
“Interactive Speech Recognition Apparatus"という
表題の付された米国特許第4,866,778号明細書に開示の
主題と、“Method for Interactive Speech Recognitio
n and Training"という表題の付された米国特許第5,02
7,406号明細書に開示の主題に関連するものである。こ
れらの特許明細書を適宜参照されたい。
背景 本発明は一般に音声認識装置に関するものであり詳述
すると、複合ワードないし複合語を認識するための方法
および装置に関するものである。
人間の音声を認識するためのデータ処理装置、たとえ
ば口述内容を転写できる装置などが開発されている。コ
ンピュータ技術の進歩ならびに音声認識アルゴリズムの
進歩により、これらの装置はますますより強力なものに
なっている。たとえば、本発明の譲受人は30,000個のワ
ードないし単語を認識できる装置を現在販売している。
本装置の特徴の多くのものが上記米国特許第4,783,803
号明細書に叙述されている。
現在の多くの音声認識装置が、認識されるべき単語の
発声に応答して発生される音響信号の表示を音響的記述
または語彙の中の単語のモデルと整合させることにより
作動する。典型的にはアナログ−ディジタル変換器が認
識されるべき単語を話すことにより発生される音響信号
をディジタル表示に変換する。このディジタル表示が引
き続き周波数領域信号に変形される。周波数領域信号は
一連のフレームから構成され、それぞれのフレームが、
短い時間間隔にわたる複数の周波数バンドのうちの一つ
における音響信号振幅を与える。かかる装置は、認識さ
れるべき単語から誘導される一連のフレームを、装置の
ためのアクティブなまたは活動状態の語彙に記憶された
一連のノードまたはフレームモデルと比較することによ
り通常作動する。
初期のフレーム整合装置の性能は、比較的貧弱であっ
た。所与の単語を構成する個別の音はその単語の任意の
2つの発声において、正確に同様の速度でまたは正確に
同様の態様で話されることはほとんどない。結果的に、
2つの技術がこれらの装置の性能を改善するため開発さ
れた。第1の技術が確率的な整合である。確率的な整合
によれば、装置は、ある発声ないし言葉の所定のフレー
ムが、ある単語の音響モデルにおける所定のノードに対
応する可能性ないし尤度を決定する。尤度決定は、話さ
れたフレームの各周波数バンドの実際の振幅がフレーム
モデルとして記憶される周波数バンドの予想振幅とどの
程度接近して整合するかの関数である。
確率的整合はさらに各周波数バンドにおける実際の振
幅および予想される振幅との間の偏差がかかる値につい
ての予想される偏差にどの程度匹敵するかを考慮する。
確率的整合が、音声認識装置をして同様の単語の種々の
発声について生ずる可聴信号の変化を処理する改善され
た能力をもつようにさせる。それは、装置が音声認識の
仕事の間に普通に存在する雑音をより効率良く取り扱う
のを可能にする。
フレーム整合装置の性能を改善した第2の技術が動的
プログラミングである。動的プログラミングが、発声に
より発生されたフレームの並びと単語のモデルに包含さ
れるノードの並びとの間の最適な整合またはほぼ最適な
整合を見出すための方法を提供する。それは、単語の音
響モデルにおける各ノードの持続時間を伸張および収縮
し、同様の単語の種々の発声において生ずる自然の変動
を補償することによりこれを行う。
確率的整合および動的プログラミングが、話された単
語がデータ処理装置によって認識されるところの正確さ
を十分改善するけれども、両方の技術はコンピュータ操
作が集約的である。動的プログラミングおよび確率的な
整合により要求される比較を遂行することは非常に多数
のコンピュータ命令を要求し得る。結果的に、活動状態
の語彙に記憶される単語数が増大するに応じて、言葉を
識別するのに必要とされる時間も増大する。
従来技術は、多量の語彙認識装置により導入される過
剰なコンピュータ操作の需要を取り扱うための種々の方
法を開発している。一つの方法が、装置が任意の一時に
認識できる語彙を全語彙の部分集合に限定する人為的な
文法を具備する装置を提供する。
多量の語彙認識をより効率良くするための別の従来技
術が普通、「前フィルタリング」または「枝刈り(prun
ing)」と呼ばれる。前フィルタリングおよび枝刈りの
両方が、別途のコンピュータ操作を是認するように見え
ないこれら音響モデルを別途の考察から除去することに
より、プログラムが考慮するところの比較の数を低減す
ることを含む。たとえば、米国特許第4,783,803号に開
示された装置において、動的プログラミングアルゴリズ
ムが、言葉の各フレームが受け取られた後に、その活動
状態の語彙の各単語ごとにスコアないし得点を発生す
る。この得点は受け取られたフレームが所与の単語とあ
る程度まで整合するという尤度に対応する。活動状態の
語彙の各単語ごとの得点が更新された後に、それは任意
の単語について発生される最も良い得点と比較される。
所与の単語についての得点と最も良い得点との間の差が
一定の閾値を越えれば、その所与の単語が活動語彙から
除去されそして今後のフレームはもはやそれと比較され
ない。
米国特許第4,782,803号に叙述の装置は、言語モデル
を使用することにより、コンピュータ操作需要および混
同の可能性を別途低減する。その前に話される単語が与
えられれば、言語モデルが装置の語彙の各単語の発生の
相対的可能性を予想する。言語モデル確率が、大きな一
塊の本文を分析しそしてこれから語彙の各単語が語彙の
それぞれの他の単語によって先行される回数を決定する
ことにより計算される。
話された単語を認識する際に、従来技術の装置は、典
型的には、たぶん話された単語であるらしい単語の選択
リストを表示する。ところで、ある従来技術装置が選択
のためオペレータのために任意の単語を表示するまでに
必要とされる時間量は認識語彙の大きさとともに増大す
る。大語彙装置において従来技術の装置は比較的緩慢で
ある。後の従来技術の装置が、アルファベットフィルタ
リングなどの方法を利用し装置の応答時間を改善する。
アルファベットフィルタリングが使用者ないしユーザを
して話された単語に包含される文字列を指定することに
よって探索のフィールドを狭くするのを可能にする。か
かる装置の特徴は米国特許第4,866,778号に別途叙述さ
れている。
現在の音声認識装置の性能は少し前の類似の装置と比
較したとき印象的である。それにも拘らず、別途改善の
必要性が依然として存する。たとえば多くの仕事のため
実用的な使用目的の音声認識装置のために、単語からな
る大量の語彙を認識できることが必要である。これら単
語からなる重要な部分集合が複合語である。複合語を構
成するものが、いずれの言語が言及せられているかに依
存して変化し得る。たとえば、フランス語およびイタリ
ア語において、冠詞および前置詞が母音字から始まると
ころの他の単語と組み合わされ、「l'art(the art)」
および「dell'orologio(of the clock)」などの複合
語を生ずる。スペイン語において、「ponerlo(to pu
t)」の場合におけるように動詞が代名詞と組み合わさ
れる。ドイツ語において、複合語が案出されそしてたと
えば「finance minister」について「Finantzministe
r」(大蔵大臣)などのように英語の複合名刺とほぼ同
様に使用されている。日本語と中国語において、大部分
の語彙が一連の文字として現れる複合語からなる。単語
境界がこれら二つの言語の話し言葉から容易に識別でき
ない。なぜなら各対の文字間に等しい間隔があるからで
ある。
従来装置がアメリカ英語における単語の約95%の適用
範囲を実現する。成分を組み合わせることにより形成さ
れる単語の大きな割合を有する言語において匹敵し得る
適用範囲を実現することはさらに相当困難である。従来
装置によれば、所望される適用範囲の水準を実現するた
めに、装置の活動状態語彙は、有意義な数の複合語のた
めに音響モデルを発生および記憶することにより拡張さ
れる必要があろう。かかる方法は実際的でない量の記憶
容量を含むであろう。さらに、コンピュータ操作効率の
良い音声認識装置を設計するという問題は、装置のライ
ブラリに記憶される音響モデルの数を有意義に増大する
ことによってさらに一層困難となる。
従って、本発明の目的は、ユーザにより話された複合
語を認識する改善された単語認識装置を提供することで
ある。
本発明のさらに別の目的は、認識されるべき複合語を
その活動状態語彙に組み込むことを要求しない単語認識
装置を提供することである。
本発明のさらに別の目的は、複合語であるという高い
可能性ないし尤度を有する話された成語要素ないし形成
要素を自動的に組み合わせる単語認識装置を提供するこ
とである。
本発明の目的は、ユーザをして、複合語(形成要素か
らなる発声ストリング)へと組み合わせることのできる
装置を提供することでもある。
本発明の別の目的が、連続した言葉としてユーザによ
り発声される複合語を認識する単語認識装置を提供する
ことである。
本発明のさらに別の目的が、ユーザが、隔離された形
成要素として装置により以前に認識された単語をしてあ
る複合語へと組み合わされるようにすることができる単
語認識装置を提供することである。
本発明の別の目的が、ユーザが、複合語として装置に
より以前に認識された単語をして隔離された形成要素へ
分割できるようにする単語認識装置を提供することであ
る。
本発明の他の目的、特徴および利益が以下の好ましい
実施例の説明および請求の範囲から明らかとなろう。
発明の概要 簡単にいうと、本発明は所定の語彙からの一つまたは
それ以上の単語の連続を包含する言葉から複合語を認識
するための装置および関連の方法である。言葉のなかの
複数の単語のうちの少なくとも一つの単語は、連続状態
の少なくとも2つの形成要素を包含するそしてこれらの
形成要素が語彙中の単語である複合語である。
装置は単語認識要素を具備する。単語認識要素は、ユ
ーザにより発声された言葉の処理に応答し複合語に対応
する単語を識別するために第1のモードで選択的に動作
する。単語認識装置はさらに、ユーザにより発声される
形成要素の連続物の処理に応答して、複合語に対応する
単語を識別するため第2のモードで選択的に動作し、こ
の場合、各形成要素が複合語中に対応的に配置された形
成要素を表わす。任意であるが、単語認識装置は隔離状
態で発声されるかまたは連続した音声として発声される
単語からなる言葉から複合語を認識するための要素をも
具備してもよい。
本装置はさらに単語認識装置のモードを決定するため
にユーザにより制御される要素をも具備する。ユーザ制
御要素は、ユーザにより発生される可聴ないし聴覚信号
またはユーザにより発生されるキーボード命令に応答し
得、単語認識装置のモードを決定する。
任意であるが、本装置は上述の第2モードのサブモー
ドで動作する。サブモードにおいて、単語認識要素は、
ユーザにより装入される処理キーワードに応答し、複合
語に対応する単語を識別する。各キーワードは複合語中
の対応的に配置された文字を表わす。キーワードは任意
のアルファベットタイプ表示に対応し得る。たとえば、
キーワードは国際通信アルファベット語に対応してもよ
い。代替例として、それらはドイツ語電話コード語でも
よい。さらにユーザはユーザにより発生される聴覚信号
を通じてまたはユーザにより発生されるキーボード命令
を通じてキーワードを入れられる。このサブモードによ
り包含される機能は、単語認識要素の動作の独立した第
3のモードとしても実施可能である。
代替え実施例において、本発明は所定の語彙からの一
つまたはそれ以上の発声された単語からなる連続物を包
含する言葉から単語を認識するための装置および関連の
方法である。本装置は単語認識装置およびモード選択の
ためのユーザ制御要素を包含する。
単語認識装置は、ユーザにより発声されたキーワード
の連続物の処理に応答し、発声された単語のうちの一つ
についての現在の候補単語リストとして、語彙のなかの
第1の複数の単語を決定および表示するため第1のモー
ドで選択的に動作可能である。それぞれのキーワードは
発声された単語のなかの対応的に配置された単語成分を
表わす。さらに、表示されたリスト中の複数の単語のそ
れぞれがキーワードの連続物により表示される単語成分
の連続物から始まる。単語成分は形成要素および文字か
らなる群から選択される。
単語認識装置はまた、ユーザにより入れられる一つま
たはそれ以上の命令に応答し、現在の候補単語リストか
ら発声単語の少なくとも一部を識別するため第2のモー
ドで選択的に動作する。これらの命令は現在の候補単語
リスト中のn番目の単語の最初のk個の文字を表わす
(ここで、kおよびnは整数でありそしてk個の文字は
発声単語の最初のk個の文字を表わす)。ユーザは聴覚
信号を通じてまたはキーボード命令を通じて命令を入れ
られる。
第2の動作モードにおいて、単語認識装置はまた、ユ
ーザにより入れられる命令に応答して、発声単語につい
ての現在の候補単語リストとして語彙の中の第2の複数
の単語を決定する。この第2の複数の単語のうちのそれ
ぞれの単語はk個の文字から始まりそして現在の候補単
語リストとして表示される。
任意であるが、単語認識装置は、ユーザにより入れら
れる一つまたはそれ以上の命令に応答しn番目の単語に
おいて追加のi個の文字を識別し得る。この場合、iは
整数でありそしてi個の文字は先に識別されたk個の文
字に続く最初のi個の文字を表わす。
さらに、単語認識装置はユーザにより入れられる一つ
またはそれ以上の命令に応答し、先に識別されたk個の
文字からj個の文字を除外可能である。この場合、jは
整数でありそしてj個の文字はn番目の単語のk番目の
文字の直前のj個の文字を表わす。
単語認識装置は連続音声として発声される一つまたは
それ以上の単語を包含する言葉から単語を認識するため
の要素をも具備する。代替え例として、単語認識装置は
単語を認識するための要素を具備してもよく、ここで、
言葉は隔離状態で発声される一つまたはそれ以上の単語
を含む。
単語認識装置は、発声単語の残りを決定するために、
発声単語の一部の識別に応答し、選択的に動作する完了
要素を包含してもよい。完了要素は、ユーザにより入れ
られるキーワードまたは形成要素の連続物を処理するた
めの要素を具備してもよく、キーワードまたは形成要素
はそれぞれ発声単語の残りに対応的に配置された文字を
表わし、発声単語の残りとしてキーワードまたは形成要
素の連続物により表示される文字の連続物を識別する。
別の実施例において、本発明は、所定の語彙からの一
つまたはそれ以上の単語の連続物を含む言葉から複合語
を認識するための装置および方法を含み、この場合、単
語のうちの少なくとも一つは連続状態の少なくとも2つ
の形成要素を含む複合語である。この実施例によれば、
本発明のプロセッシング要素と、単語認識要素と組合せ
要素とを含む。
プロセッシング要素はユーザにより発声される形成要
素の連続物を処理しそして発声された形成要素のそれぞ
れに、複合語に包含される発声された形成要素の尤度を
表わすスコアないし得点を関連付ける。
単語認識要素は、これら関連付けられる得点に応答し
て、所定の基準に対応する組み合わされた得点を有する
連続的に発声された形成要素を複合語として識別する。
本発明によれば、各形成要素は、複合語における対応的
に配置される形成要素を表わす。
組合せ要素は単語認識手段により識別される連続形成
要素の組合せを表わす信号を発生する。信号は複合語を
表わす。
任意であるが、本実施例は、識別された複合語を、識
別された形成要素を表わす信号に分解するためのユーザ
によって制御される要素を具備する。かかるユーザ制御
要素はユーザにより発生される聴覚信号またはユーザに
より発生されるキーボード命令に応答し得る。
別の実施例において、本発明は所定の語彙からの一つ
またはそれ以上の単語の連続物を包含する言葉から複合
を認識するための装置および方法を含む。連続物のなか
の単語のうちの少なくとも一つは、少なくとも2つの連
続状態の形成要素を含む複合語である。形成要素は語彙
のなかの単語である。本装置は複合語を表わすそして連
続状態で発声される形成要素のうちの選択されたものに
対応する信号を発生するためのユーザ制御要素を具備す
る。
図面の簡単な説明 第1図は本発明による複合語認識装置を具備する音声
認識装置の模式図である。
第2図は、第3図の実施例の動作を別途図示する動作
流れ図である。
第3図は、第2図の流れ図に従う本発明の好ましい実
施例の動作を図示するブロック図である。
第4図は、本発明の別の好ましい実施例の動作を図示
する動作流れ図である。
第5図〜第11図は、第4図に従う本発明の好ましい実
施例の動作を表わす例を示す。
詳細な説明 第1図は、本発明による複合語認識装置を具備する音
声認識装置10の模式ブロック図である。本装置10は発声
された単語の発声を検出しそしてその発声を表わすディ
ジタル信号を発生するための要素を具備する。これらの
要素は、マイクロホン14、アナログ−ディジタル変換器
16、ピーク振幅検出器18、高速フーリエ変換(FFT)網2
0および発声検出器22を含む。これらの要素により発生
される信号はIBM互換性のある386型または486型のパー
ソナルコンピュータなどのプログラム可能なコンピュー
タ24に供給される。コンピュータ24には装置10により認
識される単語を表示するためのビデオモニター26が装備
されている。コンピュータ24はキーボードを別途具備
し、オペレータがマイクロホン以外の手段によりコンピ
ュータ24と通信できるようにする。モニター26、キーボ
ード28およびそれらの各接続部分30、32はパーソナルコ
ンピュータで普通使用されているタイプのものである。
発声単語がマイクロホン14を通して装置10に入る。マ
イクロホン14は、それに入る発声単語を指示するアナロ
グ出力信号を発生する。マイクロホン出力信号はアナロ
グ−ディジタル変換器16の入力に接続される。アナログ
−ディジタル変換器16はマイクロホン14により発生され
るアナログ信号を、マイクロホン出力信号の振幅を表わ
すディジタル値の並びに変換する。アナログ−ディジタ
ル変換器16の出力はピーク振幅検出器18および高速フー
リエ変換網20の入力に供給される。
当技術分野で良く知られるタイプである高速フーリエ
変換網20がアナログ−ディジタル変換器16の出力をフレ
ームの並びに変換する。各フレームは比較的短い時間に
わたる所定周波数におけるマイクロホン出力信号の振幅
を指示する。本発明によれば、フーリエ変換網20は50分
の1秒ごとに一フレームを出力する。この出力は、デー
タ線34および入力ポート36を通じて、コンピュータ24の
システムバス38に供給される。フーリエ変換網20はさら
に出力線39に中断信号をも供給する。この信号はシステ
ムバス38を通じてコンピュータ24の中央処理ユニット40
へ結合される。フーリエ変換網20により発生される中断
に応答して、中央処理ユニット40は、線34に提供され
る、各連続フレームを表わすデータを読取り、そしてこ
れをランダムアクセスメモリ42に記憶する。高速フーリ
エ変換網20はさらに線44を通じてフレームクロック信号
をピーク振幅検出器18に供給する。
ディジタル信号処理の分野でよく知られるタイプのピ
ーク振幅検出器18は、ピーク振幅値を発声検出器22の入
力に供給する。フーリエ変換網20からの信号によりクロ
ック同期される発声検出器22は、ピーク振幅入力を所定
の閾値と比較する。発声検出器22への入力が十分長い時
間の間、プリセット閾値を越えれば、発声検出器22はそ
の出力に中断44を発生する。その中断44は、発声検出器
22が、発声の始まりのようにみえるものを検出したこと
を中央処理ユニットへ合図する。
コンピュータ24はさらに尤度プロセッサ46をも包含す
る。尤度プロセッサ46は、ユーザにより発声された被検
出単語におそらく対応するであろうシステム辞書中の単
語を決定するよう設計された特別の目的のプロセッサで
ある。標準的に、システム辞書は音響単語モデル(すな
わち音響ライブラリ)とアルファベット単語のリスト
(すなわちバックアップライブラリ)の両方を包含す
る。尤度プロセッサ46は、中央プロセッサ40により読み
取られたデータとランダムアクセスメモリ42に記憶され
る予め定義された音響モデルとを比較することにより発
声された単語について可能性のある整合を決定する。あ
る従来装置によれば、尤度プロセッサはさらにアルファ
ベット単語リストを探索する。音響モデルが標準的には
アルファベットリストに包含される単語について記憶さ
れない。音響モデルおよびアルファベットリストを使用
するいくつかの探索方法が従来技術で使用されている。
これらは米国特許第4,783,803号、米国特許第4,886,778
号および米国特許第5,027,406号に詳細に述べられてい
る。
さらに、第1図には複合語認識装置12が図示されてい
る。本発明による複合語認識装置12はユーザにより発声
される複合語を認識する責がある。上述したごとく、複
合語を構成するものは、装置10がその中で動作している
ところの所定言語に依存し異なり得る。ところで、本出
願において終始使用される複合語という用語は、それぞ
れがシステム語彙中の単語として取り扱われる2つまた
はそれ以上の形成要素の連続物から作られる単語を包括
的に指す。
尤度コンピュータ操作および複合語認識コンピュータ
操作の両方はプロセッサ集約性である。こうして、装置
10の性能は専用要素をこれらコンピュータ操作を実行す
るのに割り当てることにより高められ得る。ところで、
当業者には明瞭であるように、これらコンピュータ操作
は、ソフトウエア制御の下で中央プロセッサ40により良
好に実行されよう。さらに複合語認識装置12は尤度プロ
セッサ46の一部としてもまた包含されよう。
第2図は本発明の一つの実施例による動作流れ図50を
図示する。流れ図50に図示される「通常モード」ブロッ
ク52は従来技術の口述装置である。典型的には、これら
の装置は複合語が音響モデルまたはアルファベットリス
トとしてシステムライブラリに記憶されなければ複合語
を認識できない。
動作において、隔離されるまたは連続的単語の連続か
らなる発声に応答して、通常モードは発声単語ごとに候
補単語リストを発生する。もし発声単語が表示された候
補リストにあれば、決定ブロック54により図示されるご
とく単語が(手動的にまたは自動的に)選択され(56)
そして装置は通常の口述モードにとどまる。ところで、
複合語でありそうなことであるが、もし発声単語が表示
候補リストになければ、ユーザはいくつかの選択肢58の
うちの任意の一つから選択可能である。ブロック60によ
り図示される一つの選択肢はユーザが発声される複合語
を表わす文字の並びを入れることである。この動作のサ
ブモードは「つづりモード」と呼ばれる。複合語の定義
と同様に、文字の定義は、ユーザが活動しているところ
の言語により変化し得る。ところで、例として、英語で
はユーザは単語のつづり、すなわち一時に一文字を入れ
られる。同様に、ユーザは国際通信アルファベット(た
とえば、“a"について“alpha"を“b"について“bravo"
など)を使用可能である。ユーザは、ブロック62により
示されるごとく、正しくつづられた単語を受け取りそし
て通常の口述モードに復帰する。
決定ブロック64により示されるごとく、第2の選択肢
は、所定の複合語が複合語を構成する形成要素および/
または文字の組合せを話すことにより入れられる動作モ
ードをユーザが選択することである。この選択肢の一つ
の実施例68によればユーザが複合語へ組み合わされるべ
き一連の形成要素を発声する。たとえば、ユーザが“pu
t"の前に“through"を発声し、複合語“throughput"を
入れるかも知れない。代替実施例66において、ユーザ
は、単語認識装置が複合語へと変換するところの一つま
たはそれ以上の形成要素との組合せにおいて一つまたは
それ以上の文字を発声してもよい。たとえばユーザが
“cultural"の前に“s"、“o"、“c"、“i"および“o"
を入れ、単語“sociocultural"を表現し、そして単語全
体をつづるのを避けるかも知れない。ユーザは、複合語
が完成されるまで形成要素および/または文字を入れ続
ける。決定ブロック70により図示されるごとく複合語の
完了の際に、ユーザはブロック72により示されるごとく
単語を受け取りそして通常の口述モード52へ復帰する。
第3図は、第2図の流れ図50により叙述される複合語
認識装置の動作を示すブロック図を示す。図示されるご
とく、装置80は複合語認識要素82およびユーザ制御要素
84を具備する。総括的に、本装置80は連続音声または隔
離状態のいずれかとして発声される一つまたはそれ以上
の形成要素F1〜F6を包含する入力の言葉86を検出する。
複合語認識装置は、形成要素F1〜F6のうちのいずれが組
み合わされ複合語を形成するかを決定しそしてその決定
に応答してこれらの形成要素を適当な複合語へ組み合わ
せる。これは第3図において出力表示88として図示され
る組合せF1F2、F3F4およびF5F6により図示されている。
上述したごとく、本装置80はいくつかのユーザ選択可
能なモードのうちの任意のモードで動作する。ユーザは
ユーザ制御要素84を通じて所定の動作モードを選択す
る。ユーザ制御要素84は、たとえば第1図に図示される
マイクロホン14またはキーボード28としてもよい。
第1の動作モードが入力形成要素F1およびF2により図
示される。入力形成要素F1およびF2が通常の音声として
発声される複合語を表わす。本発明によれば、もし単語
が活動ライブラリまたはバックアップライブラリに存在
すれば、非複合語が従来技術の装置で識別されそして表
示されるのとほぼ同様の仕方で、複合語認識装置82はラ
イブラリからその単語を選択しそしてそれをユーザのた
めに表示する。
入力形成要素F3およびF4により示される第2の動作モ
ードにおいて、単語認識装置82は、発声される始めの複
合語デリミッター(区切り)および発声される終わりの
複合語デリミッター(区切り)との間で発声される。こ
れら形成要素を複合語へ組み合わせる。例として、ユー
ザが“begin compound"、“F3"、“F4"、“end compoun
d"と発声するかも知れない。第3図に図示されるごとく
これは形成要素F3およびF4の組み合わせを表わす複合語
の出力表示F3F4を示す。
第2の動作モードの代替実施例において、ユーザは形
成要素および文字の両方を組み合わせることを選択可能
である。たとえば、ユーザが“begin compound"、“Arb
eit"、“Samuel"、“Moral",“end compound"と発声す
るかも知れない。この例において、“Samuel"は文字
“s"についてのドイツ語電話アルファベット文字であ
る。文字を表わす他のコードを使用してもよい。
第3の動作モードにおいて、単語認識装置82は、一連
の逐次に発声される形成要素が、複合語としてユーザの
ために組み合わされそして表示されるべきかどうかを自
動的に決定する。単語認識装置82はこのことを、検出さ
れる形成要素の連続を処理しそして検出された形成要素
がその直前または直後に検出される形成要素のうちのい
ずれかと一緒に、ある複合語に包含される尤度を表わす
得点をそれぞれの認識形成要素に関連付けることにより
これを行う。もし、形成要素が隔離状態で存在するのと
は対照的に組み合わされるべき見込みがあれば、単語認
識装置82は形成要素を複合語へと組み合わせる。
任意の形成要素の群が隔離状態で存するかまたは複合
語へと組み合わされるべきかどうかの相対的可能性を決
定するのに使用される一つの技術が、言語モデルを使用
することである。言語モデルは、前に発声された一つま
たはそれ以上の単語が与えられれば、システム語彙中の
各単語の発生の相対的可能性ないし尤度を予想する。
第3の動作モードの一つの実施例において、複合語認
識装置82は、ユーザ命令に応答し、前に識別された複合
語をその識別された形成要素へ分解する。
第4図は、本発明の代替え実施例による動作流れ図10
0を示す。第2図においてのように、流れ図100で図示さ
れている「通常モード」ブロック102は従来技術の口述
装置を表わす。第2図の実施例におけるごとく、そして
決定ブロック103により示されるごとく、もし発生され
た単語が候補リスト103上にあれば、単語が選択されそ
して装置は通常の口述モードにとどまる。また、第2図
の実施例と同様に、もし単語が候補リスト上になけれ
ば、ユーザはいくつかの選択肢を有する。選択肢の選択
は決定ブロック106により表示されている。第4図の実
施例によれば、ユーザが単語成分を通じてまたは候補リ
ストに包含される単語の一部を指定することにより複合
語を指定し得る。さらに、ユーザは文字を入れることに
より部分的に指定された複合語を完成し得る。
単語成分が形成要素および文字の両方を包含する。ユ
ーザはこれらの形成要素および/または文字を第2図の
実施例とほぼ同様に入れる。ところで、第4図の実施例
によれば、第1図の複合語認識装置12は、ユーザにより
入れられる文字および形成要素に応答して、自動的に候
補リストを発生し(114)そしてそのリストを表示する
(116)。一つの実施例によれば、複合語認識装置12
は、システムライブラリのその探索を、ユーザにより入
れられる形成要素および/または文字から始まる単語に
限定する。ところで、発声される命令を通じて入れられ
る形成要素および/または文字の場合、複合語認識装置
はその探索において、発声されたものであるという相当
な確率を有するとそれが決定するところの任意の形成要
素および/または文字を包含可能である。追加の文字お
よび/または形成要素を入れることにより、ユーザは単
語認識装置の探索の範囲を別途限定できる。
決定ブロック118により指示されるごとく、もし複合
語が選択肢リスト上に現れればユーザはそれを選択する
(120)。もしユーザがある単語を候補リストから選択
すれば、装置は自動的に通常の口述モード102へ復帰す
る。代わりに、もし単語が候補リスト上に現れなけれ
ば、ユーザは決定ブロック106から入手できるいくつか
の選択肢のうちの任意のものをもう一度選択可能であ
る。
第4図の図示の実施例によれば、ユーザに利用できる
別の選択肢が、候補リスト上に現れる単語の一部を選択
することである。この選択肢はブロック110により表示
されている。形成要素を入れる場合と同様、候補リスト
上の単語の一部を指定することは、複合語全体を一文字
ずつつづることに代わり、時間の節約となる。ブロック
110により図示されているように、候補リスト上の単語
の所望部分は単語番号(n)および単語の最初の(k)
個の文字を指定することにより選択される。ある単語の
一部が選択されるとき、複合語認識装置12はその探索動
作を、選択される文字から始まるシステムライブラリ中
の単語に限定する。さらに、ブロック122により図示さ
れるごとく、単語認識装置は対応的に候補リストを更新
する。更新された候補リストはユーザのために表示され
る。ふたたび、もし複合語がリスト上に現れれば、ユー
ザはそれを選択しそして装置は通常の口述モードへ復帰
する。もし単語が候補リストに現れなければ、装置は決
定ブロック106へ復帰しそしてユーザが使用されるべき
所定の選択肢を選択するのを許容する。
本発明の他の実施例によれば、ユーザは候補選択リス
トから選択される単語内の別の文字を任意に選択可能で
ある。ユーザはさらに前に選択された文字を選択しなく
ともよい。たとえば、ユーザは候補リスト中の第2番目
の単語の最初の3つの文字を指定してもよい。上述した
ごとく、候補リストは対応的に更新される。もし単語が
6文字の長さであれば、ユーザは引き続き装置に1文
字、2文字または3文字前進するよう命令可能であり、
それにより単語の最初の4文字、5文字または6文字を
効率よく選択する。同様に、ユーザは装置に1文字、2
文字または3文字後退するよう命令可能であり、それに
より単語の最初の2文字、1文字または0文字を指定可
能である。候補選択リストはそれぞれの新規な文字選択
で更新される。
決定ブロック106から利用できる別途の選択肢がブロ
ック112から開始する。この選択肢は、ユーザが一つま
たはそれ以上の文字を入れ、複合語を完成するのを許容
する。ブロック122および124により指示されるごとく、
完全な単語が入れられると、ユーザは単語を受け入れそ
して装置は通常の口述モードに復帰する。
第5図〜第11図は、第3図および第4図の実施例の動
作を示す一例を図示する。この例全体を通じて、「装入
するあるいは入れる」という言葉は、発声することによ
りそしてキーボードを使用することにより命令を入れる
ことの両方を呼称するのに使用される。第5図に示され
るごとく、ユーザは複合語“thermoregulatory"を発声
する。単語が認識されないと仮定すると、カーソル線13
0および定義窓132が両方とも空白のままとどまる。選択
肢窓134は空白のままとどまってもよいしまたは正しく
ない選択物を簡単に包含してもよい。第4図の決定ブロ
ック106により、ユーザはいくつかの選択肢のうちの任
意のものを選択する。第5図の例において、ユーザは、
命令“Begin Compound Mode"を入れることにより単語成
分を入れることを選択する。
ユーザは、文字であるところの単語成分または形成要
素であるところの単語成分を入れるという選択肢を有す
る。第6図の例において、ユーザは形成要素“therm"を
入れる。これは、複合語認識装置をして、形成要素“th
erm"から始まる単語について辞書を探索するようにす
る。さらに、“therm"は定義窓132中に表示される。図
示の実施例によれば、9つの可能性のある候補が、好ま
しくは発生可能性値に基づいて順序付けられた仕方で、
選択肢窓134に表示される。図示の例において単語認識
装置は一定状態の下で形成要素“therm"を正しく識別し
ているが、認識装置は、発声された形成要素が“therm"
以外であったという相当な確率が存することを決定する
かも知れない。たとえば、認識装置は“term"または“d
erm"を等しく可能性のある選択物であると同定するかも
知れない。このような状況において、一つの好ましい実
施例によれば、初めに発声される単語(たとえばthermo
regulatory)および発声される形成要素(たとえばthe
rm)の両方に単語認識装置が割り当てるところの確率が
あれば、単語認識要素は最も可能性のある選択物を表示
する。
所望される単語が選択物窓134に表示されない間、ユ
ーザは表示される選択物の任意のものの一部を選択する
という選択肢を有する。この場合、ユーザは命令“sele
ct six first six"を入れる。これは、選択物リストの
第6番目の単語の最初の6文字を選択する。
最初の6個の文字(たとえば“thermo")が線で囲ま
れた状態で第6番目の候補“thermodynamic"を包含する
結果的に得られる定義窓132が第7図で参照番号136によ
り図示されている。“thermo"の選択は複合語認識装置
をして選択肢窓134に図示される候補リストを更新す
る。第7図に示されるごとく、すべての9個の選択物が
ここに形成要素“thermo"から始まる。第7図の選択肢
はいずれも、“thermoregulatory"と共通の最初の6つ
以上の文字を持たないので、ユーザは文字である単語成
分を入れるための選択肢を実行する。
「つづりモード」の選択肢を使用する従来装置におい
て、ユーザによりつづられる文字は、他に指定されなけ
れば、識別されるべき単語の初めに配置される。ところ
で本発明によれば、もしつづり文字135が先に発声され
た形成要素(たとえば“therm")のすぐ後に続けば、つ
づり文字は、ユーザにより他に指定されなければ、発声
された形成要素の後に続くと仮定される。もしつづり文
字が命令(たとえば、select six、first six)のすぐ
後に続けば、つづり文字は選択される文字(たとえば、
本例で、第6番目の単語の第7番目の文字)の後に続く
と仮定される。もしつづり文字が形成要素または選択型
命令によって先行されなければ、つづり文字は、従来装
置におけるごとく、認識されるべき単語の初めに配置さ
れる。
第7図の例において、ユーザは文字“r"をその対応す
る国際通信アルファベット文字(たとえばromeo)を介
して入れる。他の実施例において、国際通信アルファベ
ットは西欧アルファベット文字を入れるのに使用され
る。もちろん、他の言語について異なる文字/記号が使
用可能である。
第8図に図示されるごとく、複合語認識装置は“r"を
定義窓に組み込み、“thermodynamic"の“dynamic"の部
分を除去する。単語認識装置はさらに選択物窓134に表
示されている候補リストを更新する。ユーザは順次第2
番目の単語の最初の9文字を選択するという選択肢を実
行する。
従って、第9図は文字“thermoreg"が番号136におい
て線で取り囲まれた状態で定義窓132中に単語“thermor
egulation"を示す。選択物窓は、その最初の9文字とし
て“thermoreg"を有する候補だけを包含する。第9図の
定義窓132に依然と図示されている第8図の第2番目の
選択が所望される複合語と共通の最初の9つ以上の文字
を有することを理解するとき、ユーザは命令“forward
four"を入れる。
第10図に示されるごとく、これは定義窓132の囲み部
分136に包含される追加の4つの文字を生ずる。同様
に、もしユーザがあまりに多数の文字が誤って包含され
たことを理解すれば、「後退」命令が以前に選択された
文字を解放する。たとえば、“back four"命令が、第9
図の定義窓132の囲み部分136に包含された文字“oreg"
の解放を招くであろう。
“forward four"命令の後に、所望される複合語と共
通の追加の文字を包含する別途の選択物はない。かくし
て、ユーザはもう一度つづりモードを入れそして単語を
完成する。残りの文字“o"“r"“y"をそれらの国際通信
アルファベット記号を介して入れることに続いて、ユー
ザは第11図の定義窓132に表示される完成された単語を
許容する。従って、定義窓132の中の単語は、カーソル
線130へ移送される。
本発明は、その精神またはその本質的特徴を逸脱する
ことなく他の特定の形式で具体化され得る。それゆえ、
現在の実施例はすべて単なる例示であり本発明を制限す
るものと考えるべきではなく、本発明の思想は発明の詳
細な説明によってではなく以下の請求の範囲により指示
されるものであり、そして本発明の均等の範囲内にある
すべての変更は請求の範囲に包含されるべきものであ
る。
フロントページの続き (72)発明者 バンバーグ,ポール ジー. アメリカ合衆国 01701 マサチューセ ッツ,フラミンガム,グレゴリー ロー ド 14 (72)発明者 ロバーツ,ジェド エム. アメリカ合衆国 02160 マサチューセ ッツ,ニュートン,リーウッド ロード 7 (72)発明者 ファング,カロライン ビー. アメリカ合衆国 02178 マサチューセ ッツ,ベルモント,コンコード アベニ ュー 653 (72)発明者 ベーベン,スティーン アメリカ合衆国 02168 マサチューセ ッツ,ニュートン,コッター ロード 51 (72)発明者 エラーマン,クラウディア エル.イ ー. アメリカ合衆国 02129 マサチューセ ッツ,チャールズタウン,バーノン ス トリート 14 1/2 (56)参考文献 特開 平3−179498(JP,A) 特開 昭63−73300(JP,A) 特開 昭63−75798(JP,A) 特開 昭62−154022(JP,A) (58)調査した分野(Int.Cl.7,DB名) G01L 15/22 JICSTファイル(JOIS)

Claims (42)

    (57)【特許請求の範囲】
  1. 【請求項1】予定された語彙からの1または複数の話さ
    れたワードより成る一連のワードを含む発声ないし発話
    からワードを認識するシステムにおいて、 A.(i)第1のモードで選択的に動作し得、使用者によ
    り話される一連のキーワードの処理に応答して、前記の
    話されたワードの一つに対して、前記語彙内の第1の複
    数のワードを現在候補ワードリストとして決定し、そし
    て前記現在候補ワードリストを表示し、かつ、 (ii)第2のモードにおいて選択的に動作し得、 a.使用者により装入される1または複数の命令に応答し
    て、前記現在候補ワードリストから前記の話されたワー
    ドの少なくとも一部を識別し、そして b.前記命令に応答して、前記語彙内の第2の複数のワー
    ドを、前記の話されたワードに対する前記現在候補ワー
    ドリストとして決定し、そして前記現在候補ワードリス
    トを表示するための 手段であって、前記各キーワードが前記の話されたワー
    ドにおいて対応的に位置づけられたワード成分を表わ
    し、前記リスト内の前記複数のワードの各々が、前記一
    連のキーワードにより表わされる一連のワード成分で始
    まり、前記の1または複数の命令が、前記現在候補ワー
    ドリスト内のn番目のワードの最初のkの文字を表わ
    し、 ここで、kおよびnは整数であり、前記kの文字は前記
    の話されたワードの最初のkの文字を表わすものとす
    る、前記第2の複数のワード内の各ワードが前記のkの
    文字で始まる 手段を含むワード認識装置と、 B.前記ワード認識装置のモードを決定するための使用者
    制御手段と を備えることを特徴とするワード認識システム。
  2. 【請求項2】前記ワード成分が構成要素および文字から
    なる群から選択される請求の範囲第1項記載のワード認
    識システム。
  3. 【請求項3】前記第2モードの前記命令が、使用者によ
    り発生される可聴信号により装入される請求の範囲第1
    項記載のワード認識システム。
  4. 【請求項4】前記第2モードの前記命令が、使用者によ
    り発生されるキーボード命令により装入される請求の範
    囲第1項記載のワード認識システム。
  5. 【請求項5】前記使用者制御手段が、使用者により発生
    される可聴信号に応答して、前記ワード認識装置のモー
    ドを決定する請求の範囲第1項記載のワード認識システ
    ム。
  6. 【請求項6】前記使用者制御手段が、使用者により発生
    されるキーボード命令に応答して、前記ワード認識装置
    のモードを決定する請求の範囲第1記載のワード認識シ
    ステム。
  7. 【請求項7】前記ワード認識装置が、隔絶的に話された
    1または複数のワードを含む前記発声から前記ワードを
    認識するための手段を備える請求の範囲第1項記載のワ
    ード認識システム。
  8. 【請求項8】前記ワード認識装置が、連続スピーチとし
    て話された1または複数のワードを含む前記発声から前
    記ワードを認識するための手段を備える請求の範囲第1
    項記載のワード認識システム。
  9. 【請求項9】前記1または複数の命令が、前記第n番目
    のワードの前記の最初のkの文字を識別すべき命令を含
    む請求の範囲第1項記載のワード認識システム。
  10. 【請求項10】前記1または複数の命令が、iの追加の
    文字を識別すべき命令を含み、ここでiは整数である、
    前記iの文字が前記n番目のワード内の前記kの文字に
    続く最初のiの文字を表わす請求の範囲第9項記載のワ
    ード認識システム。
  11. 【請求項11】前記1または複数の命令が、先に識別さ
    れた前記kの文字からjの文字を排除すべき命令を含
    み、ここでjは整数である、前記jの文字が、前記n番
    目のワードのk番目の文字直前のjの文字を表わす請求
    の範囲第9項記載のワード認識システム。
  12. 【請求項12】前記ワード認識装置が、前記の話された
    ワードの一部の前記識別に応答して選択的に動作し得、
    前記の話されたワードの残部を決定するための完成手段
    を備える請求の範囲第1項記載のワード認識システム。
  13. 【請求項13】前記完成手段が、前記の話されたワード
    の前記残部において対応的に位置づけられる文字を各々
    表わすところの、使用者により装入される一連のキーワ
    ードを処理して、前記一連のキーワードにより表示され
    る一連の文字を前記の話されたワードの前記残部として
    識別する手段を備え、前記の話されたワードが、前記の
    識別された残部が続く前記の識別された部分に対応して
    いる請求の範囲第12項記載のワード認識システム。
  14. 【請求項14】前記完成手段の前記キーワードが、使用
    者により発生される可聴信号により装入される請求の範
    囲第13項記載のワード認識システム。
  15. 【請求項15】前記完成手段のキーワードが、使用者に
    より発生されるキーボード命令により装入される請求の
    範囲第13項記載の話ワード認識システム。
  16. 【請求項16】前記完成手段が、前記の話されたワード
    の前記残部において対応的に位置づけられる構成要素を
    各々表わすところの、使用者により装入される一連の構
    成要素を処理して、前記一連の構成要素を前記の話され
    たワードの前記残部として識別する手段を備え、前記の
    話されたワードが、前記の識別された残部が続く前記の
    識別された部分に対応している請求の範囲第12項記載の
    ワード認識システム。
  17. 【請求項17】前記完成手段の前記構成要素が、使用者
    により発生される可聴信号により装入される請求の範囲
    第16項記載のワード認識システム。
  18. 【請求項18】前記完成手段の前記構成要素が、使用者
    により発生されるキーボード命令により装入される請求
    の範囲第16項記載のワード認識システム。
  19. 【請求項19】予定された語彙からの1または複数のワ
    ードより成る一連のワードを含む発声ないし発話から複
    合ワードを認識するためのシステムであって、前記ワー
    ドの少なくとも一つが前記語彙内のワードである少なく
    とも二つの構成要素を連続して含む複合ワードであるも
    のにおいて、 A.使用者により話される一連の構成要素を処理して、前
    記の話された構成要素の各々と、前記複合ワードに含ま
    れている前記の話された構成要素の尤度を表わすスコア
    を関連づけるための処理手段と、 B.関連するスコアに応答して、予定された規準に対応す
    る結合されたスコアを有する順次に話された構成要素を
    前記複合ワードとして識別するためのワード認識手段
    と、ここで前記構成要素の各々は、前記複合ワード内に
    おいて対応的に位置づけられた構成要素を表わすものと
    する、 C.前記ワード認識手段により識別される前記逐次の構成
    要素の組合せを表わし、かつ前記複合ワードを表わす信
    号を発生するための組合せ手段と、 D.前記の識別された複合ワードを前記の識別された構成
    要素を表わす信号に分解するための使用者制御手段と を備えることを特徴とする複合ワード認識システム。
  20. 【請求項20】前記使用者制御手段が、使用者により発
    生される可聴信号に応答して前記の識別された複合ワー
    ドを分解する請求の範囲第19項記載の複合ワード認識シ
    ステム。
  21. 【請求項21】前記使用者制御手段が、使用者により発
    生されるキーボード命令に応答して、前記に識別された
    命令ワードを分解する請求の範囲第19項記載の複合ワー
    ド認識システム。
  22. 【請求項22】予定された語彙からの1または複数の話
    されたワードより成る一連のワードを含む発声ないし発
    話からワードを認識するコンピュータ実施方法におい
    て、 (i)選択的に第1のモードにおいて、使用者により話
    される一連のキーワードの処理に応答して、前記の話さ
    れたワードの一つに対して、前記語彙内の第1の複数の
    ワードを現在候補ワードリストとして決定し、そして前
    記現在候補ワードリストを表示し、かつ、 (ii)選択的に第2のモードにおいて、 a.使用者により装入される1または複数の命令に応答し
    て、前記現在候補ワードリストから前記の話されたワー
    ドの少なくとも一部を識別し、そして b.前記命令に応答して、前記語彙内の第2の複数のワー
    ドを、前記の話されたワードに対する前記現在候補ワー
    ドリストとして決定し、そして前記現在候補ワードリス
    トを表示する ことによりワードを認識する諸段階を含み、前記各キー
    ワードが前記の話されたワードにおいて対応的に位置づ
    けられたワード成分を表わし、前記リスト内の前記複数
    のワードの各々が、前記一連のキーワードにより表わさ
    れる一連のワード成分で始まり、前記の1または複数の
    命令が、前記現在候補ワードリスト内のn番目のワード
    の最初のkの文字を表わし、 ここで、kおよびnは整数であり、前記kの文字は前記
    の隔絶されたワードの最初のkの文字を表わすものとす
    る、前記第2の複数のワード内の各ワードが前記のkの
    文字で始まる ことを特徴とするコンピュータ実施方法。
  23. 【請求項23】前記ワード成分が構成要素および文字か
    らなる群から選択される請求の範囲第22項記載のコンピ
    ュータ実施方法。
  24. 【請求項24】前記第2モードの前記命令を、使用者に
    より発生される可聴信号により装入することを含む請求
    の範囲第22項記載のコンピュータ実施方法。
  25. 【請求項25】前記第2モードの前記命令を、使用者に
    より発生されるキーボード命令により装入する請求の範
    囲第22項記載のコンピュータ実施方法。
  26. 【請求項26】前記動作モードを使用者により発生され
    る可聴信号により決定することを含む請求の範囲第22項
    記載のコンピュータ実施方法。
  27. 【請求項27】前記動作モードを使用者により発生され
    るキーボード命令により決定することを含む請求の範囲
    第22項記載のコンピュータ実施方法。
  28. 【請求項28】1または複数の前記ワード隔絶されたワ
    ードとして話すことを含む請求の範囲第22項記載のコン
    ピュータ実施方法。
  29. 【請求項29】1または複数の前記ワードを連続スピー
    チとして話すことを含む請求の範囲第22項記載のコンピ
    ュータ実施方法。
  30. 【請求項30】前記1または複数の命令が、前記第n番
    目のワードの前記最初のkの文字を識別すべき命令を含
    む請求の範囲第22項記載のコンピュータ実施方法。
  31. 【請求項31】前記1または複数の命令が、iの追加の
    文字を識別すべき命令を含み、ここでiは整数である、
    前記iの文字が前記n番目のワード内の前記kの文字に
    続く最初のiの文字を表わす請求の範囲第30項記載のコ
    ンピュータ実施方法。
  32. 【請求項32】前記1または複数の命令が、先に識別さ
    れた前記kの文字からjの文字を排除すべき命令を含
    み、ここでjは整数である、前記jの文字が、前記n番
    目のワードのk番目の文字直前のjの文字を表わす請求
    の範囲第30項記載のコンピュータ実施方法。
  33. 【請求項33】前記の話されたワードの一部の前記識別
    に応答して前記の話されたワードの残部を選択的に決定
    することを含む請求の範囲第22項記載のコンピュータ実
    施方法。
  34. 【請求項34】前記の話されたワードの前記残部におい
    て対応的に位置づけられる文字を各々表わすところの、
    使用者により装入される一連のキーワードを処理して、
    前記一連のキーワードにより表示される一連の文字を前
    記の話されたワードの前記残部として識別することを含
    み、前記の話されたワードが、前記の識別された残部が
    続く前記の識別された部分に対応している請求の範囲第
    33項記載のコンピュータ実施方法。
  35. 【請求項35】前記完成手段の前記キーワードを使用者
    により発生される可聴信号により装入することを含む請
    求の範囲第34項記載のコンピュータ実施方法。
  36. 【請求項36】前記完成手段のキーワードを、使用者に
    より発生されるキーボード命令により装入する請求の範
    囲第34項記載のコンピュータ実施方法。
  37. 【請求項37】前記の話されたワードの前記残部におい
    て対応的に位置づけられる構成要素を各々表わすところ
    の、使用者により装入される一連の構成要素を処理し
    て、前記一連の構成要素を前記の話されたワードの前記
    残部として識別することを含み、前記の話されたワード
    が、前記の識別された残部が続く前記の識別された部分
    に対応している請求の範囲第33項記載のコンピュータ実
    施方法。
  38. 【請求項38】前記構成要素を使用者により発生される
    可聴信号により装入する請求の範囲第37項記載のコンピ
    ュータ実施方法。
  39. 【請求項39】前記構成要素を使用者により発生される
    キーボード命令により装入する請求の範囲第37項記載の
    コンピュータ実施方法。
  40. 【請求項40】予定された語彙からの1または複数のワ
    ードより成る一連のワードを含む発声ないし発話から複
    合ワードを認識するためのコンピュータ実施方法であっ
    て、前記ワードの少なくとも一つが前記語彙内のワード
    である少なくとも二つの構成要素を連続して含む複合ワ
    ードであるものにおいて、 A.使用者により話される一連の構成要素を処理して、前
    記の話された構成要素の各々と、前記複合ワードに含ま
    れている前記の話された構成要素の尤度を表わすスコア
    を関連づけ、 B.前記スコアに応答して、予定された規準に関してある
    スコアを有する順次に話された構成要素を前記複合ワー
    ドとして識別し、ここで前記構成要素の各々は、前記複
    合ワード内において対応的に位置づけられた構成要素を
    表わすものとする、 C.前記識別段階において識別される前記逐次の構成要素
    の結合を表わし、かつ前記複合ワードを表わす信号を発
    生し D.前記の識別された複合ワードを前記の識別された構成
    要素を表わす信号に分解する 諸段階を含むことを特徴とするコンピュータ実施方法。
  41. 【請求項41】前記構成要素を分解するための前記命令
    が、使用者により発生される可聴信号である請求の範囲
    第40項記載のコンピュータ実施方法。
  42. 【請求項42】前記構成要素を分解するための前記命令
    が、使用者により発生されるキーボード命令である請求
    の範囲第40項記載のコンピュータ実施方法。
JP51600693A 1992-03-06 1993-03-03 複合ワードを有する言語のための音声認識装置 Expired - Fee Related JP3414735B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US84669592A 1992-03-06 1992-03-06
US846,695 1992-03-06
PCT/US1993/002232 WO1993018506A1 (en) 1992-03-06 1993-03-03 Speech recognition system for languages with compound words

Publications (2)

Publication Number Publication Date
JPH07507880A JPH07507880A (ja) 1995-08-31
JP3414735B2 true JP3414735B2 (ja) 2003-06-09

Family

ID=25298677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51600693A Expired - Fee Related JP3414735B2 (ja) 1992-03-06 1993-03-03 複合ワードを有する言語のための音声認識装置

Country Status (6)

Country Link
US (1) US5754972A (ja)
EP (1) EP0634042B1 (ja)
JP (1) JP3414735B2 (ja)
AT (1) ATE203119T1 (ja)
DE (1) DE69330427T2 (ja)
WO (1) WO1993018506A1 (ja)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19510083C2 (de) * 1995-03-20 1997-04-24 Ibm Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6601027B1 (en) 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6490561B1 (en) * 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
JP4279909B2 (ja) * 1997-08-08 2009-06-17 ドーサ アドバンスズ エルエルシー 音声認識装置における認識対象表示方式
DE19742054A1 (de) * 1997-09-24 1999-04-01 Philips Patentverwaltung Eingabesystem wenigstens für Orts- und/oder Straßennamen
US6044337A (en) * 1997-10-29 2000-03-28 At&T Corp Selection of superwords based on criteria relevant to both speech recognition and understanding
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6195635B1 (en) 1998-08-13 2001-02-27 Dragon Systems, Inc. User-cued speech recognition
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US6224383B1 (en) * 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
US6349282B1 (en) 1999-04-20 2002-02-19 Larnout & Hauspie Speech Products N.V. Compound words in speech recognition systems
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
EP1135768B1 (en) * 1999-09-29 2008-01-23 Koninklijke Philips Electronics N.V. Spell mode in a speech recognizer
DE19952049A1 (de) * 1999-10-28 2001-05-10 Siemens Ag Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
WO2001061683A1 (en) * 2000-02-16 2001-08-23 Pc Multimedia Limited Identification of structure in time series data
JP2001358602A (ja) * 2000-06-14 2001-12-26 Nec Corp 文字情報受信装置
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
DE10034235C1 (de) * 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
WO2004023455A2 (en) * 2002-09-06 2004-03-18 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7313526B2 (en) * 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7610189B2 (en) 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US7366666B2 (en) * 2003-10-01 2008-04-29 International Business Machines Corporation Relative delta computations for determining the meaning of language inputs
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7475004B2 (en) 2004-08-31 2009-01-06 Research In Motion Limited Handheld electronic device with text disambiguation
JP5452868B2 (ja) 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
DE102007028235A1 (de) 2007-06-20 2008-12-24 Siemens Ag Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
JP5409931B2 (ja) 2010-11-30 2014-02-05 三菱電機株式会社 音声認識装置及びナビゲーション装置
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
JP5810814B2 (ja) * 2011-10-11 2015-11-11 カシオ計算機株式会社 辞書機能を備えた電子機器、複合語検索方法、及びプログラム
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10339920B2 (en) * 2014-03-04 2019-07-02 Amazon Technologies, Inc. Predicting pronunciation in speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10380242B2 (en) * 2015-05-14 2019-08-13 Nuance Communications, Inc. System and method for processing out of vocabulary compound words
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10706210B2 (en) * 2016-08-31 2020-07-07 Nuance Communications, Inc. User interface for dictation application employing automatic speech recognition
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3647978A (en) * 1969-04-30 1972-03-07 Int Standard Electric Corp Speech recognition apparatus
CA1169969A (en) * 1980-08-20 1984-06-26 Gregor N. Neff Dictation system and method
JPS5775349A (en) * 1980-10-28 1982-05-11 Nippon Telegr & Teleph Corp <Ntt> Japanese input device of voice recognition type
US4749353A (en) * 1982-05-13 1988-06-07 Texas Instruments Incorporated Talking electronic learning aid for improvement of spelling with operator-controlled word list
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
NL8500339A (nl) * 1985-02-07 1986-09-01 Philips Nv Adaptief responderend systeem.
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPH06103457B2 (ja) * 1985-12-27 1994-12-14 株式会社日立製作所 音声タイプライタ
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
JPS6373300A (ja) * 1986-09-17 1988-04-02 キヤノン株式会社 音声認識装置
JP2585547B2 (ja) * 1986-09-19 1997-02-26 株式会社日立製作所 音声入出力装置における入力音声の修正方法
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US4984178A (en) * 1989-02-21 1991-01-08 Texas Instruments Incorporated Chart parser for stochastic unification grammar
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus
JPH03179498A (ja) * 1989-12-08 1991-08-05 Nippon Telegr & Teleph Corp <Ntt> 音声日本語変換方式

Also Published As

Publication number Publication date
EP0634042B1 (en) 2001-07-11
WO1993018506A1 (en) 1993-09-16
JPH07507880A (ja) 1995-08-31
US5754972A (en) 1998-05-19
DE69330427T2 (de) 2002-05-23
EP0634042A1 (en) 1995-01-18
ATE203119T1 (de) 2001-07-15
EP0634042A4 (en) 1996-02-21
DE69330427D1 (de) 2001-08-16

Similar Documents

Publication Publication Date Title
JP3414735B2 (ja) 複合ワードを有する言語のための音声認識装置
JP4444396B2 (ja) 音声認識におけるポジション操作
US7120582B1 (en) Expanding an effective vocabulary of a speech recognition system
EP0867857B1 (en) Enrolment in speech recognition
EP1346343B1 (en) Speech recognition using word-in-phrase command
US6163768A (en) Non-interactive enrollment in speech recognition
US6363347B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
US6092044A (en) Pronunciation generation in speech recognition
US6064959A (en) Error correction in speech recognition
US5829000A (en) Method and system for correcting misrecognized spoken words or phrases
US4829576A (en) Voice recognition system
US5884258A (en) Method and system for editing phrases during continuous speech recognition
JP3065924B2 (ja) 音声注釈方法、テキスト入力ストリームの音声注釈を機能強化するための方法および装置
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
JP3104661B2 (ja) 日本語文章作成装置
JP3634863B2 (ja) 音声認識システム
EP1189203B1 (en) Homophone selection in speech recognition
JP2000010588A (ja) 音声認識方法及び装置
EP1204966A1 (en) Expanding an effective vocabulary of a speech recognition system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees