JPH0423799B2 - - Google Patents
Info
- Publication number
- JPH0423799B2 JPH0423799B2 JP59047322A JP4732284A JPH0423799B2 JP H0423799 B2 JPH0423799 B2 JP H0423799B2 JP 59047322 A JP59047322 A JP 59047322A JP 4732284 A JP4732284 A JP 4732284A JP H0423799 B2 JPH0423799 B2 JP H0423799B2
- Authority
- JP
- Japan
- Prior art keywords
- prototype
- recognition
- utterance
- utterances
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003044 adaptive effect Effects 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 abstract description 23
- 238000012552 review Methods 0.000 abstract 2
- 238000004088 simulation Methods 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 208000030303 breathing problems Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【発明の詳細な説明】
本発明は自動離散音声認識システムに関し、特
に多重繰返し技法によつて原型の用語集のみを作
成するだけでよく、その後話し手は適応モードで
音声認識システムと対話するだけでよい適応性自
動離散音声認識システムに関する。適応性モード
では、新らしい話し手は用話集のうちシステムが
認識し得ない限られた部分集合に対してだけシス
テムを再訓練する事が要求される。
に多重繰返し技法によつて原型の用語集のみを作
成するだけでよく、その後話し手は適応モードで
音声認識システムと対話するだけでよい適応性自
動離散音声認識システムに関する。適応性モード
では、新らしい話し手は用話集のうちシステムが
認識し得ない限られた部分集合に対してだけシス
テムを再訓練する事が要求される。
現在の自動離散音声認識システムは各話し手か
ら各用語の項目を多数回繰返して入力する音声原
型確立のための分離した手順を含む。もし一回だ
けの繰返しだけならば、不適切な原型の表示が生
じた時に全用語の原型集を書換えなければならな
い可能性が生ずる。
ら各用語の項目を多数回繰返して入力する音声原
型確立のための分離した手順を含む。もし一回だ
けの繰返しだけならば、不適切な原型の表示が生
じた時に全用語の原型集を書換えなければならな
い可能性が生ずる。
各話し手が原型の単語リストを繰返すこの様な
手順の代表的な文献には次のものがあげられる。
手順の代表的な文献には次のものがあげられる。
米国特許第3333248号:この特許は最初の訓練
の後に、動作モードにスイツチされ、棄却信号を
生ずる文字が提示される迄動作モードに保持され
る。棄却が生ずると、オペレータは棄却パターン
に対応する位置に識別スイツチを置き棄却パター
ンが最初のサンプル・パターンのわずかに変形さ
れたものであるか、新らしいサンプル・パターン
であるかどうかを決定しなければならず、訓練モ
ードを開拓するためのスイツチを含む適切なスイ
ツチをセツトしなければならない。自動適応性回
路を効果的に更新するためには、十分な数の初期
サンプル・パターンが記憶されなければならず、
棄却パターンが自動適応回路に提示されなければ
ならない。
の後に、動作モードにスイツチされ、棄却信号を
生ずる文字が提示される迄動作モードに保持され
る。棄却が生ずると、オペレータは棄却パターン
に対応する位置に識別スイツチを置き棄却パター
ンが最初のサンプル・パターンのわずかに変形さ
れたものであるか、新らしいサンプル・パターン
であるかどうかを決定しなければならず、訓練モ
ードを開拓するためのスイツチを含む適切なスイ
ツチをセツトしなければならない。自動適応性回
路を効果的に更新するためには、十分な数の初期
サンプル・パターンが記憶されなければならず、
棄却パターンが自動適応回路に提示されなければ
ならない。
米国特許第3369077号:この特許は予定の時間
基準に従つてピツチ周期が調節される音声合成シ
ステムを開示している。
基準に従つてピツチ周期が調節される音声合成シ
ステムを開示している。
米国特許第3440617号:この特許は信号を一連
の成分信号に分割する事によつて、信号の振幅及
び持続時間に無関係な認識技法を開示している。
このシステムはこれ迄に受取つた事のない入力を
この信号に最も似た応答になる様に外挿及び内挿
している。このデータは新らしいデータによつて
置換された時には失われるにちがいない。この特
許は、転送バツフア部分が既に満員である時には
新らしく符号化されたサンプルは棄却されず、新
らしいサンプルを記憶するための余地を作るため
に古くて転送されていない符号化サンプルが棄却
される技法を開示している。
の成分信号に分割する事によつて、信号の振幅及
び持続時間に無関係な認識技法を開示している。
このシステムはこれ迄に受取つた事のない入力を
この信号に最も似た応答になる様に外挿及び内挿
している。このデータは新らしいデータによつて
置換された時には失われるにちがいない。この特
許は、転送バツフア部分が既に満員である時には
新らしく符号化されたサンプルは棄却されず、新
らしいサンプルを記憶するための余地を作るため
に古くて転送されていない符号化サンプルが棄却
される技法を開示している。
米国特許第3665450号は表意文字を処理するた
めの技法を開示している。
めの技法を開示している。
米国特許第3718768号はそれ自身の識別信号を
検出し得それ自身のサンプリング率を有する複数
の遠隔ステーシヨンに通信を送る事が出来る技法
を開示している。
検出し得それ自身のサンプリング率を有する複数
の遠隔ステーシヨンに通信を送る事が出来る技法
を開示している。
米国特許第4069393号は訓練用単語及び認識の
ための単語を時間規格化する技法を開示してい
る。この特許は音声入力訓練単語を使用し、相関
関数を発生し、特徴抽出を使用している。訓練モ
ード中、装置は好しい場合として後にこの装置を
使用する人によつて話された新らしい用語で訓練
されている。信頼性の高い平均サンプルを得るた
めには同じ訓練単語の多くのサンプルを使用する
のが望まれる。
ための単語を時間規格化する技法を開示してい
る。この特許は音声入力訓練単語を使用し、相関
関数を発生し、特徴抽出を使用している。訓練モ
ード中、装置は好しい場合として後にこの装置を
使用する人によつて話された新らしい用語で訓練
されている。信頼性の高い平均サンプルを得るた
めには同じ訓練単語の多くのサンプルを使用する
のが望まれる。
米国特許4092493号:この特許はあらかじめ発
生された音声間隔線形予測特性を有する、テスト
信頼性が各音声セグメントの繰返しの平均音声間
隔に時間がそろえられた音声認識システムを開示
している。
生された音声間隔線形予測特性を有する、テスト
信頼性が各音声セグメントの繰返しの平均音声間
隔に時間がそろえられた音声認識システムを開示
している。
米国特許第4297528号:この特許は組合わせの
ために受取られる各訓練パターンが国値量内で前
もつて組合されたパターンに一致しなければなら
ない訓練回路技法を開示している。国値は予じめ
組合された訓練パターンの数が増大すると自動的
に変化している。
ために受取られる各訓練パターンが国値量内で前
もつて組合されたパターンに一致しなければなら
ない訓練回路技法を開示している。国値は予じめ
組合された訓練パターンの数が増大すると自動的
に変化している。
IEEE Trans.on Systems.Man.and
Cybernetics.第SMC2号、第1号、1972年1月号
第6672頁のC.C.Tappert著 A
PRELIMINARY INVESTIGATION OF ADAPTIVE CONTROL IN THE
INTERACTION 13ETWEEN SEGMENTATION AND
SEGMENT CLASSIFICATION IN AUTOMATIC
RECOGNITION OF CONTINUOUS SPEECH:この論文は連
続音声認識のセグメンテーシヨン及びセグメント
の分類の相互作用のための帰還制御を述べてい
る。
Cybernetics.第SMC2号、第1号、1972年1月号
第6672頁のC.C.Tappert著 A
PRELIMINARY INVESTIGATION OF ADAPTIVE CONTROL IN THE
INTERACTION 13ETWEEN SEGMENTATION AND
SEGMENT CLASSIFICATION IN AUTOMATIC
RECOGNITION OF CONTINUOUS SPEECH:この論文は連
続音声認識のセグメンテーシヨン及びセグメント
の分類の相互作用のための帰還制御を述べてい
る。
IEEE Trans.on Audio and
Electroacoustics第Au−21巻、第3号 1973年
6月刊、第225228頁のC.C.Tappert等著
APPLICATIOW OF SEQUEWTIAL DECODING FOR
CONVERTING PHONETIC TO GRAPHIC REPRESENTATION IN AUTOMATIC RECOGWTION OF CONTINUOUS
SPEECH (ARCS): この論文は話し手の話の機械に汚染された音声
的記述を標準の正しい音声的記述に変換する技法
を説明している。音声入力連糸の話し手によるく
ずれ及び機械によるくずれの間の区別がなされて
いる。
6月刊、第225228頁のC.C.Tappert等著
APPLICATIOW OF SEQUEWTIAL DECODING FOR
CONVERTING PHONETIC TO GRAPHIC REPRESENTATION IN AUTOMATIC RECOGWTION OF CONTINUOUS
SPEECH (ARCS): この論文は話し手の話の機械に汚染された音声
的記述を標準の正しい音声的記述に変換する技法
を説明している。音声入力連糸の話し手によるく
ずれ及び機械によるくずれの間の区別がなされて
いる。
本発明は(最初の話し手もしくは電子的等価回
路による)単なる初期単一原型ステートメントを
含む原型を確立しそしてシステムが正しい認識の
遂行に困難を感ずる用語の項目を除き、最初のも
しくはその後の話し手による用語の項目の繰返し
を必要としない最適の技法を与える。この様な認
識に失敗した用語の項目のための再訓練は認識手
順と一体にされている。
路による)単なる初期単一原型ステートメントを
含む原型を確立しそしてシステムが正しい認識の
遂行に困難を感ずる用語の項目を除き、最初のも
しくはその後の話し手による用語の項目の繰返し
を必要としない最適の技法を与える。この様な認
識に失敗した用語の項目のための再訓練は認識手
順と一体にされている。
本発明の目的は各話し手の特定の要求に対して
音声認識システムの安価で、高速な、複雑でない
音声認識システムを与える事にある。
音声認識システムの安価で、高速な、複雑でない
音声認識システムを与える事にある。
本発明に従えば話し手はシステムが再訓練され
つつある事を明確に知つている必要がなくなる。
つつある事を明確に知つている必要がなくなる。
本発明に従えば出来るだけ目立たない様に、且
話し手の文脈内で、用語の原型集の限られた部分
集合を通して話し手を導くための助言を与えるシ
ステムが与えられる。
話し手の文脈内で、用語の原型集の限られた部分
集合を通して話し手を導くための助言を与えるシ
ステムが与えられる。
本発明に従えば、原型の用語(標準発声ないし
テンプレート)の集合のうちつぎの二つが起こ
る、限られた部分集合に対してのみシステム再訓
練が行なわれる。
テンプレート)の集合のうちつぎの二つが起こ
る、限られた部分集合に対してのみシステム再訓
練が行なわれる。
1 話し手は原型集中の単語を発声する。
2 システムは話された単語の認識に困難を生ず
る。
る。
これによつてシステムは使用されない単語のた
めの再訓練を避ける事ができる。
めの再訓練を避ける事ができる。
第1図は本発明の適応性自動離散音声認識シス
テムのブロツク図である。従来の音声認識システ
ムはその後の認識のために一般に新らしい話し手
の各々が原型の用語を多数回唱える事を要した事
に注意されたい。もし何等かの理由で原型の用語
を変更したい場合には(例えば、もし話し手が呼
吸上の問題を生じた場合の如く)、原手順は全体
的に繰返される必要がある。本発明は最初の話し
手であつても原型用語の多数回唱える必要を除去
し、任意の話し手による全体的原型の用語の暗唱
を全く必要としない。システムが任意の個々の用
語の項目の認識に困難を感じた場合に、話し手は
その個々の用語の項目を発音する様に促される。
テムのブロツク図である。従来の音声認識システ
ムはその後の認識のために一般に新らしい話し手
の各々が原型の用語を多数回唱える事を要した事
に注意されたい。もし何等かの理由で原型の用語
を変更したい場合には(例えば、もし話し手が呼
吸上の問題を生じた場合の如く)、原手順は全体
的に繰返される必要がある。本発明は最初の話し
手であつても原型用語の多数回唱える必要を除去
し、任意の話し手による全体的原型の用語の暗唱
を全く必要としない。システムが任意の個々の用
語の項目の認識に困難を感じた場合に、話し手は
その個々の用語の項目を発音する様に促される。
本発明の方法は次の動作モードを必要とする。
モード1 初期設定モード
選択された原型の話し手は用語の項目の原型集
の各々に対して一つの原型の用語のキイワードを
発声し、システムは各原型の用語のキイワードの
発声を後の認識手順に使用するための符号パター
ンに変換する。適当な場合には、話し手は全く暗
誦を必要とする事なく、原型集が計算されて、符
号形で導入される。
の各々に対して一つの原型の用語のキイワードを
発声し、システムは各原型の用語のキイワードの
発声を後の認識手順に使用するための符号パター
ンに変換する。適当な場合には、話し手は全く暗
誦を必要とする事なく、原型集が計算されて、符
号形で導入される。
モード2 通常の動作モード
話し手(原型の話し手もしくはその後の話し
手)は認識が満足に進行するかぎり、システムに
よつて認識されるための音声入力を与える(一貫
した認識の誤りを含まない条件の下にでは、もは
や用語の訓練は生じない)。
手)は認識が満足に進行するかぎり、システムに
よつて認識されるための音声入力を与える(一貫
した認識の誤りを含まない条件の下にでは、もは
や用語の訓練は生じない)。
モード3 適応性再訓練モード
一貫性のある認識誤りの条件の下では、システ
ムは適応性の再訓練に対して必要とされる事を話
し手に助言する。この方法の詳細は〔本発明の方
法〕の見出しのところで説明される。
ムは適応性の再訓練に対して必要とされる事を話
し手に助言する。この方法の詳細は〔本発明の方
法〕の見出しのところで説明される。
第1図は本発明の適応性自動離散音声認識シス
テムを示している。上位計算機1はユーザ・イン
ターフエイス2に接続され、ユーザ・インターフ
エイス2は表示装置3マイクロホーン4及び拡声
器5と接続されている。ユーザ・インターフエイ
ス2は多くの形を取り得る、ユーザ及び認識シス
テムのための適切なインターフエイスである。第
1図に示された型では、ユーザのデータは線6を
介して信号解析兼特徴抽出装置7に送られ、訓練
モード中は線8に沿つて原訓練パターン(原型)
が原型記憶装置9に分散され、認識モード中は特
徴パターンが線10に沿つてパターン認識装置1
1に通過される。制御情報は線12を介してパタ
ーン認識装置11及び原型記憶装置9間で授受さ
れ、認識のための原型パターンは線13に沿つて
パターン認識装置11に供給される。音声識別距
離値の形をなす認識情報は線14を介して決定機
構15に与えられる。認識結果のデータは線16
を介してユーザ・インターフエイス2に戻され
る。
テムを示している。上位計算機1はユーザ・イン
ターフエイス2に接続され、ユーザ・インターフ
エイス2は表示装置3マイクロホーン4及び拡声
器5と接続されている。ユーザ・インターフエイ
ス2は多くの形を取り得る、ユーザ及び認識シス
テムのための適切なインターフエイスである。第
1図に示された型では、ユーザのデータは線6を
介して信号解析兼特徴抽出装置7に送られ、訓練
モード中は線8に沿つて原訓練パターン(原型)
が原型記憶装置9に分散され、認識モード中は特
徴パターンが線10に沿つてパターン認識装置1
1に通過される。制御情報は線12を介してパタ
ーン認識装置11及び原型記憶装置9間で授受さ
れ、認識のための原型パターンは線13に沿つて
パターン認識装置11に供給される。音声識別距
離値の形をなす認識情報は線14を介して決定機
構15に与えられる。認識結果のデータは線16
を介してユーザ・インターフエイス2に戻され
る。
決定情報は同様に線17及び18を介して決定
機構15と適応性訓練装置20間を転送され、線
19を介して適応訓練装置20から原型記憶装置
9に転送される。前に指摘された如く、第1図中
本発明にとつて最も重要な部分は適応性訓練と説
明が記入されている(番号20で同定されてい
る)サブシステムである。ノード(1)、(2)及び(3)が
第1図と第2図の関連を容易にするために第1図
に示されている。
機構15と適応性訓練装置20間を転送され、線
19を介して適応訓練装置20から原型記憶装置
9に転送される。前に指摘された如く、第1図中
本発明にとつて最も重要な部分は適応性訓練と説
明が記入されている(番号20で同定されてい
る)サブシステムである。ノード(1)、(2)及び(3)が
第1図と第2図の関連を容易にするために第1図
に示されている。
第2図は第1図の適応性訓練装置20の詳細な
図である。キイワード装置21は音声がキイワー
ドであるかどうかを決定する。もしキイワードで
なければ(NO)、注意が線22を介してノード
(2)に送られる。ノード(2)は第1図及び第2図の両
方の線18に接続されている。もしYESならば
線24を介して注意がインクレメンタ23に送ら
れ、一連の選択番号によるキイワードのユーザ識
別が促される。インクレメンタ23は現在のキイ
ワード選択番号をインクレメントして、キイワー
ド選択番号が現在の選択番号と等しいかどうかを
決定するために次の選択番号を装置25に与え
る。もし選択番号が適切な選択番号でない時
(NO)には、選択の促進は信号を最大識別装置
26(選択番号=選択MAX?)に与える事によ
つて、選択番号のリストを通して続けられる。も
し選択番号が最大選択番号以下ならば、NO線2
8上の信号が次の選択番号の選択が促がされる。
最後の選択番号に到達すると、最大識別装置26
は線29を介してYESを信号し、新らしい選択
リストのため繰返し導入装置30を励起する。
図である。キイワード装置21は音声がキイワー
ドであるかどうかを決定する。もしキイワードで
なければ(NO)、注意が線22を介してノード
(2)に送られる。ノード(2)は第1図及び第2図の両
方の線18に接続されている。もしYESならば
線24を介して注意がインクレメンタ23に送ら
れ、一連の選択番号によるキイワードのユーザ識
別が促される。インクレメンタ23は現在のキイ
ワード選択番号をインクレメントして、キイワー
ド選択番号が現在の選択番号と等しいかどうかを
決定するために次の選択番号を装置25に与え
る。もし選択番号が適切な選択番号でない時
(NO)には、選択の促進は信号を最大識別装置
26(選択番号=選択MAX?)に与える事によ
つて、選択番号のリストを通して続けられる。も
し選択番号が最大選択番号以下ならば、NO線2
8上の信号が次の選択番号の選択が促がされる。
最後の選択番号に到達すると、最大識別装置26
は線29を介してYESを信号し、新らしい選択
リストのため繰返し導入装置30を励起する。
一度音声選択番号が決定されると、これは選択
催促装置32に接続されたYES線31によつて
同定され、ユーザにはユーザが選択番号を発する
事を要求する指示メツセージが与えられる。この
発声は新しい原型の如き或る状況において使用さ
れる発声である。
催促装置32に接続されたYES線31によつて
同定され、ユーザにはユーザが選択番号を発する
事を要求する指示メツセージが与えられる。この
発声は新しい原型の如き或る状況において使用さ
れる発声である。
この発声は音声認識システムのための処理技法
に従つて処理され、発声符号「入力1」として符
号化される。指示メツセージは第2の発声を促
し、第2の発声が処理され、発声符号「入力2」
として符号化される。これ等の発生符号入力は同
様にして符号化された原型の発声を共に3つの符
号のための距離の比較を行う3つの符号のための
距離の比較を行う3つのマトリツクス比較回路3
3,34及び35に与えられる。マトリツクス比
較回路33は2つの新らしい入力発声を互に関連
させる距離符号D1を与える。マトリツクス比較
回路34は原型及び第2の新らしい発声入力を互
に関連ずける距離符号D2を与える。マトリツク
ス比較回路35は原型及び第1の新しい入力を互
に関連ずける距離符号D3を与える。これ等の距
離符号は比較回路36及び37によつて比較され
る。所望の機能は入力1及び入力2の差がこれ等
を原型と比較した場合よりも小さい事が決定され
ると原型発声を発声入力2によつて置換する事で
ある。比較回路36が入力2が入力1に対するよ
りも原型に近い事を決定すると(D1がD2より
も大きいと)、回路36がNO線38を介して第
1図のノード(2)に、決定機構が原型を変更する事
なく先に進む事を信号する。同様に、入力1が入
力2よりも原型により近い事を比較回路37が決
定すると(D1はD3よりも小さくない)、装置
37はNO線38を介して第1図のノード(2)に対
して、決定機構が原型を変更する事なく先に進む
事を信号する。
に従つて処理され、発声符号「入力1」として符
号化される。指示メツセージは第2の発声を促
し、第2の発声が処理され、発声符号「入力2」
として符号化される。これ等の発生符号入力は同
様にして符号化された原型の発声を共に3つの符
号のための距離の比較を行う3つの符号のための
距離の比較を行う3つのマトリツクス比較回路3
3,34及び35に与えられる。マトリツクス比
較回路33は2つの新らしい入力発声を互に関連
させる距離符号D1を与える。マトリツクス比較
回路34は原型及び第2の新らしい発声入力を互
に関連ずける距離符号D2を与える。マトリツク
ス比較回路35は原型及び第1の新しい入力を互
に関連ずける距離符号D3を与える。これ等の距
離符号は比較回路36及び37によつて比較され
る。所望の機能は入力1及び入力2の差がこれ等
を原型と比較した場合よりも小さい事が決定され
ると原型発声を発声入力2によつて置換する事で
ある。比較回路36が入力2が入力1に対するよ
りも原型に近い事を決定すると(D1がD2より
も大きいと)、回路36がNO線38を介して第
1図のノード(2)に、決定機構が原型を変更する事
なく先に進む事を信号する。同様に、入力1が入
力2よりも原型により近い事を比較回路37が決
定すると(D1はD3よりも小さくない)、装置
37はNO線38を介して第1図のノード(2)に対
して、決定機構が原型を変更する事なく先に進む
事を信号する。
望まれる機能はD1がD2未満で、同様にD1
がD3未満ならは原型を変更させる事である。比
較回路37が線39上にYES出力を与え、装置
40による原型=入力2動作を開拓する。第1図
のノード(3)を含む信号線19が原型用語の項目を
入力2によつて置換する動作を制御する。
がD3未満ならは原型を変更させる事である。比
較回路37が線39上にYES出力を与え、装置
40による原型=入力2動作を開拓する。第1図
のノード(3)を含む信号線19が原型用語の項目を
入力2によつて置換する動作を制御する。
新らしい発声が受容されたという決定に関連す
る原型用語項目のこの様な適応性置換は、原型用
語を一度確立した後、通常の動作の流れの中で用
語の単語が現われる時に、制限された数の用語の
あいまいでない適応性の変更を行いつつ、許され
る限りこれを使用し得る様にする。何等かの理由
(話し手間の方言、発音もしくは他の差もしくは
同じ話し手による話しぶりの変化)によつて原型
の単語が認識されなくなると、このシステムはこ
の認識不能を同定し、同じ発声の2回入力を促
し、入力を互に及び原型と比較し、入力が基準を
満足している事が決定されると、新らしい入力の
一つによつて原型が置換される。
る原型用語項目のこの様な適応性置換は、原型用
語を一度確立した後、通常の動作の流れの中で用
語の単語が現われる時に、制限された数の用語の
あいまいでない適応性の変更を行いつつ、許され
る限りこれを使用し得る様にする。何等かの理由
(話し手間の方言、発音もしくは他の差もしくは
同じ話し手による話しぶりの変化)によつて原型
の単語が認識されなくなると、このシステムはこ
の認識不能を同定し、同じ発声の2回入力を促
し、入力を互に及び原型と比較し、入力が基準を
満足している事が決定されると、新らしい入力の
一つによつて原型が置換される。
第2図は原型用語の項目の適応性再訓練のため
の手順の詳細を示している。認識過程中、話し手
がキイワードの誤りを生ずると、適応性再訓練ル
ーチンが開始される。計算機制御の下に、このル
ーチンに導入され、キイワードの誤り認識の直前
の単語に関連する用語の項目の選択番号のスタツ
クが適応性訓練段階に送られ、このスタツクを使
用して、システムはユーザに対し、認識されない
発声として同定される直前にどのスタツクの用語
の項目が発声されたかを示す様に促す(この催促
は音声による応答であるか、ガス・パネル、陰極
線管等による文字表示による)。もし認識不能な
発声と同等な単語がスタツクに含まれていない
と、ユーザはこの発声を再び唱える様に促され、
認識手順が続けられる。スタツクの用語の項目が
この発声(入力1)に一致した事が話し手によつ
て認識されると、ユーザはこの用語の項目に適し
た新らしい原型のキイワードの候補(入力2)を
与える様に促される。システムはマトリツクス距
離〔入力1対入力2=(D1)〕、〔原型対入力2=
(D2)〕及び〔原型対入力1=(D3)〕が計算さ
れる。ここで入力1は認識不能な発声及び入力2
は同一のキイワードの促がされた発声である。も
しD1がD2よりも小さく、D1がD3よりも小
さければ、入力2は新らしい原型キイワードとな
る。そうでない場合は古い原型が保持される。こ
の手順は現在のユーザの(ユーザの現在の)音声
特性と関連ある、最良の現在利用可能な原型を与
える事を保証する。この手順はこの認識過程に使
用される特定のマトリツクス距離を決定するモー
ドとは無関係である。
の手順の詳細を示している。認識過程中、話し手
がキイワードの誤りを生ずると、適応性再訓練ル
ーチンが開始される。計算機制御の下に、このル
ーチンに導入され、キイワードの誤り認識の直前
の単語に関連する用語の項目の選択番号のスタツ
クが適応性訓練段階に送られ、このスタツクを使
用して、システムはユーザに対し、認識されない
発声として同定される直前にどのスタツクの用語
の項目が発声されたかを示す様に促す(この催促
は音声による応答であるか、ガス・パネル、陰極
線管等による文字表示による)。もし認識不能な
発声と同等な単語がスタツクに含まれていない
と、ユーザはこの発声を再び唱える様に促され、
認識手順が続けられる。スタツクの用語の項目が
この発声(入力1)に一致した事が話し手によつ
て認識されると、ユーザはこの用語の項目に適し
た新らしい原型のキイワードの候補(入力2)を
与える様に促される。システムはマトリツクス距
離〔入力1対入力2=(D1)〕、〔原型対入力2=
(D2)〕及び〔原型対入力1=(D3)〕が計算さ
れる。ここで入力1は認識不能な発声及び入力2
は同一のキイワードの促がされた発声である。も
しD1がD2よりも小さく、D1がD3よりも小
さければ、入力2は新らしい原型キイワードとな
る。そうでない場合は古い原型が保持される。こ
の手順は現在のユーザの(ユーザの現在の)音声
特性と関連ある、最良の現在利用可能な原型を与
える事を保証する。この手順はこの認識過程に使
用される特定のマトリツクス距離を決定するモー
ドとは無関係である。
本発明の認識は次の手順に従つて行われる。
1 原型となる話し手がキーワードの集合を発声
し、このキイワードの集合は原型の用語のキイ
ワードの集合として符号化されて記憶される。
もしくは原型の用語のキイワード集合は計算さ
れ、記憶される。
し、このキイワードの集合は原型の用語のキイ
ワードの集合として符号化されて記憶される。
もしくは原型の用語のキイワード集合は計算さ
れ、記憶される。
2 その後話し手は認識のためのサンプル・キイ
ワードを発声する。
ワードを発声する。
3 認識が生ずると、認識過程が進行する。
4 認識に失敗すると、適切な再訓練ルーチンに
導入される。
導入される。
5 認識不能なキイワードに関連する認識選択単
語のスタツクによつて適応性訓練段階が設定さ
れる。
語のスタツクによつて適応性訓練段階が設定さ
れる。
6 ユーザに対しスタツクのどの単語を意図して
いるかを示す様に促す。
いるかを示す様に促す。
7 認識不能なキイワードがスタツクにあるかど
うかを検査する。
うかを検査する。
8 もし段階7の答が否定であるならば、認識不
能なキイワードを繰返す様に話し手に促す。
能なキイワードを繰返す様に話し手に促す。
9 認識手順を続ける。
10 もし段階7の答えが肯定であると、新らし
い原型の候補の発声を促す。
い原型の候補の発声を促す。
11 次のマトリツクス距離を計算する。
入力1対入力2=(D1)
原型対入力2=(D2)
原型対入力1=(D3)
12 D1、D2、D3を比較する。
13 もしD1<D2及びD1<D3ならば、新
らしい原型として入力2を選択し、進行する。
らしい原型として入力2を選択し、進行する。
第1図は本発明の適応性自動離散音声認識シス
テムのブロツク図である。第2図は適応性訓練サ
ブシステムの詳細な図である。 1……上位計算機、2……ユーザ・インターフ
エイス、3……表示装置、4……マイクロホー
ン、5……拡声器、7……信号解析兼特徴抽出装
置、9……原型記憶装置、11……パターン認識
装置、15……決定機構、20……適応性訓練装
置。
テムのブロツク図である。第2図は適応性訓練サ
ブシステムの詳細な図である。 1……上位計算機、2……ユーザ・インターフ
エイス、3……表示装置、4……マイクロホー
ン、5……拡声器、7……信号解析兼特徴抽出装
置、9……原型記憶装置、11……パターン認識
装置、15……決定機構、20……適応性訓練装
置。
Claims (1)
- 【特許請求の範囲】 1 つぎのステツプより成る適応性自動離散音声
認識方法。 (a) システムに語彙単語の各々の標準単一発声か
らなる組を与えるステツプ。 (b) 認識不能な発声が検出される迄システムを動
作させるステツプ。 (c) ステツプ(b)で検出された認識不能な発声の語
彙単語の特定を促すステツプ。 (d) 特定された語彙単語について標準単一発生の
候補となる発声を促すステツプ。 (e) 認識不能の発声と、上記候補となる発声と、
上記特定された語彙単語用に用意されている標
準単一発声との夫々の間の認識距離を計算する
ステツプ。 (f) 上記計算された認識距離を比較するステツ
プ。 (g) 上記計算された認識距離を比較するステツプ
に関連して語彙単語の標準単一発声として上記
候補となる発声を選択的に受容するステツプ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/502,415 US4618984A (en) | 1983-06-08 | 1983-06-08 | Adaptive automatic discrete utterance recognition |
US502415 | 2000-02-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS603699A JPS603699A (ja) | 1985-01-10 |
JPH0423799B2 true JPH0423799B2 (ja) | 1992-04-23 |
Family
ID=23997720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59047322A Granted JPS603699A (ja) | 1983-06-08 | 1984-03-14 | 適応性自動離散音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4618984A (ja) |
EP (1) | EP0128288B1 (ja) |
JP (1) | JPS603699A (ja) |
CA (1) | CA1204865A (ja) |
DE (1) | DE3467057D1 (ja) |
Families Citing this family (165)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
US4797927A (en) * | 1985-10-30 | 1989-01-10 | Grumman Aerospace Corporation | Voice recognition process utilizing content addressable memory |
EP0256081B1 (en) * | 1986-02-06 | 1993-04-21 | Reginald Alfred King | Improvements in or relating to acoustic recognition |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
DE3779351D1 (ja) * | 1986-03-28 | 1992-07-02 | American Telephone And Telegraph Co., New York, N.Y., Us | |
US4908864A (en) * | 1986-04-05 | 1990-03-13 | Sharp Kabushiki Kaisha | Voice recognition method and apparatus by updating reference patterns |
US5146503A (en) * | 1987-08-28 | 1992-09-08 | British Telecommunications Public Limited Company | Speech recognition |
US5072452A (en) * | 1987-10-30 | 1991-12-10 | International Business Machines Corporation | Automatic determination of labels and Markov word models in a speech recognition system |
JP2733955B2 (ja) * | 1988-05-18 | 1998-03-30 | 日本電気株式会社 | 適応型音声認識装置 |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
US5033088A (en) * | 1988-06-06 | 1991-07-16 | Voice Processing Corp. | Method and apparatus for effectively receiving voice input to a voice recognition system |
AT391035B (de) * | 1988-12-07 | 1990-08-10 | Philips Nv | System zur spracherkennung |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
JPH067348B2 (ja) * | 1989-04-13 | 1994-01-26 | 株式会社東芝 | パタン認識装置 |
GB2237135A (en) * | 1989-10-16 | 1991-04-24 | Logica Uk Ltd | Speaker recognition |
JP2570448B2 (ja) * | 1989-12-28 | 1997-01-08 | 日本電気株式会社 | 標準パターン学習方法 |
US5146502A (en) * | 1990-02-26 | 1992-09-08 | Davis, Van Nortwick & Company | Speech pattern correction device for deaf and voice-impaired |
JPH07109560B2 (ja) * | 1990-11-30 | 1995-11-22 | 富士通テン株式会社 | 音声認識装置 |
JPH04268811A (ja) * | 1991-02-22 | 1992-09-24 | Yokogawa Hewlett Packard Ltd | タイミングジェネレータ |
US5212821A (en) * | 1991-03-29 | 1993-05-18 | At&T Bell Laboratories | Machine-based learning system |
ES2128390T3 (es) * | 1992-03-02 | 1999-05-16 | At & T Corp | Metodo de adiestramiento y dispositivo para reconocimiento de voz. |
US6311157B1 (en) * | 1992-12-31 | 2001-10-30 | Apple Computer, Inc. | Assigning meanings to utterances in a speech recognition system |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
JP3397372B2 (ja) * | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
TW323364B (ja) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
US5758322A (en) * | 1994-12-09 | 1998-05-26 | International Voice Register, Inc. | Method and apparatus for conducting point-of-sale transactions using voice recognition |
JPH08221315A (ja) | 1995-02-15 | 1996-08-30 | Hitachi Ltd | 情報処理装置 |
US5903864A (en) * | 1995-08-30 | 1999-05-11 | Dragon Systems | Speech recognition |
US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US5960395A (en) * | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
US5915238A (en) * | 1996-07-16 | 1999-06-22 | Tjaden; Gary S. | Personalized audio information delivery system |
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
US5899976A (en) * | 1996-10-31 | 1999-05-04 | Microsoft Corporation | Method and system for buffering recognized words during speech recognition |
US5884258A (en) * | 1996-10-31 | 1999-03-16 | Microsoft Corporation | Method and system for editing phrases during continuous speech recognition |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6278771B1 (en) * | 1998-03-19 | 2001-08-21 | Ameritech Corporation | Method and system for providing enhanced call waiting with verification and name change service |
US6163768A (en) | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
JP2000099546A (ja) * | 1998-09-25 | 2000-04-07 | Canon Inc | 音声によるデータ検索装置、データ検索方法、及び記憶媒体 |
DE69829187T2 (de) * | 1998-12-17 | 2005-12-29 | Sony International (Europe) Gmbh | Halbüberwachte Sprecheradaptation |
JP2000221990A (ja) * | 1999-01-28 | 2000-08-11 | Ricoh Co Ltd | 音声認識装置 |
US6487530B1 (en) * | 1999-03-30 | 2002-11-26 | Nortel Networks Limited | Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models |
DE19933323C2 (de) * | 1999-07-16 | 2003-05-22 | Bayerische Motoren Werke Ag | Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7003465B2 (en) * | 2000-10-12 | 2006-02-21 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition, apparatus for the same, and voice controller |
EP1239461A1 (de) * | 2001-03-06 | 2002-09-11 | Siemens Aktiengesellschaft | Verfahren zur Sprachenerkennung |
JP4947861B2 (ja) * | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | 自然言語処理装置およびその制御方法ならびにプログラム |
US20040148169A1 (en) * | 2003-01-23 | 2004-07-29 | Aurilab, Llc | Speech recognition with shadow modeling |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7627096B2 (en) * | 2005-01-14 | 2009-12-01 | At&T Intellectual Property I, L.P. | System and method for independently recognizing and selecting actions and objects in a speech recognition system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11597519B2 (en) | 2017-10-17 | 2023-03-07 | The Boeing Company | Artificially intelligent flight crew systems and methods |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57133494A (en) * | 1981-02-12 | 1982-08-18 | Oki Electric Ind Co Ltd | Registered pattern study method for voice typewriter |
JPS584198A (ja) * | 1981-06-30 | 1983-01-11 | 株式会社日立製作所 | 音声認識装置における標準パタ−ン登録方式 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3333248A (en) * | 1963-12-20 | 1967-07-25 | Ibm | Self-adaptive systems |
US3369077A (en) * | 1964-06-09 | 1968-02-13 | Ibm | Pitch modification of audio waveforms |
US3440617A (en) * | 1967-03-31 | 1969-04-22 | Andromeda Inc | Signal responsive systems |
US3665450A (en) * | 1968-07-02 | 1972-05-23 | Leo Stanger | Method and means for encoding and decoding ideographic characters |
US3718768A (en) * | 1971-08-09 | 1973-02-27 | Adaptive Tech | Voice or analog communication system employing adaptive encoding techniques |
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
US4092493A (en) * | 1976-11-30 | 1978-05-30 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
JPS5819109B2 (ja) * | 1978-11-10 | 1983-04-16 | 肇産業株式会社 | パタ−ン判別方法 |
US4297528A (en) * | 1979-09-10 | 1981-10-27 | Interstate Electronics Corp. | Training circuit for audio signal recognition computer |
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
-
1983
- 1983-06-08 US US06/502,415 patent/US4618984A/en not_active Expired - Lifetime
-
1984
- 1984-03-14 JP JP59047322A patent/JPS603699A/ja active Granted
- 1984-04-05 DE DE8484103715T patent/DE3467057D1/de not_active Expired
- 1984-04-05 EP EP84103715A patent/EP0128288B1/en not_active Expired
- 1984-05-14 CA CA000454280A patent/CA1204865A/en not_active Expired
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57133494A (en) * | 1981-02-12 | 1982-08-18 | Oki Electric Ind Co Ltd | Registered pattern study method for voice typewriter |
JPS584198A (ja) * | 1981-06-30 | 1983-01-11 | 株式会社日立製作所 | 音声認識装置における標準パタ−ン登録方式 |
Also Published As
Publication number | Publication date |
---|---|
EP0128288B1 (en) | 1987-10-28 |
US4618984A (en) | 1986-10-21 |
EP0128288A1 (en) | 1984-12-19 |
JPS603699A (ja) | 1985-01-10 |
DE3467057D1 (en) | 1987-12-03 |
CA1204865A (en) | 1986-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0423799B2 (ja) | ||
EP0965978B1 (en) | Non-interactive enrollment in speech recognition | |
EP0376501B1 (en) | Speech recognition system | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
EP0840289B1 (en) | Method and system for selecting alternative words during speech recognition | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
EP0840288B1 (en) | Method and system for editing phrases during continuous speech recognition | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US5950160A (en) | Method and system for displaying a variable number of alternative words during speech recognition | |
US7529678B2 (en) | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
EP0533491A2 (en) | Wordspotting using two hidden Markov models (HMM) | |
JP2000122691A (ja) | 綴り字読み式音声発話の自動認識方法 | |
WO1996003741A9 (en) | System and method for facilitating speech transcription | |
WO1996003741A1 (en) | System and method for facilitating speech transcription | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
JPH06110494A (ja) | 発音学習装置 | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
JP2003162524A (ja) | 言語処理装置 | |
JP3254977B2 (ja) | 音声認識方法及び音声認識装置 | |
KR102405547B1 (ko) | 딥러닝 기반의 발음 평가 시스템 | |
JP3259734B2 (ja) | 音声認識装置 | |
JP3231365B2 (ja) | 音声認識装置 | |
JPH08110790A (ja) | 音声認識装置 |