JPH05127692A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH05127692A JPH05127692A JP3278896A JP27889691A JPH05127692A JP H05127692 A JPH05127692 A JP H05127692A JP 3278896 A JP3278896 A JP 3278896A JP 27889691 A JP27889691 A JP 27889691A JP H05127692 A JPH05127692 A JP H05127692A
- Authority
- JP
- Japan
- Prior art keywords
- label
- information
- bus
- labels
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000012546 transfer Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims 1
- 230000010365 information processing Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 102000007620 Pulmonary Surfactant-Associated Protein C Human genes 0.000 description 1
- 108010007125 Pulmonary Surfactant-Associated Protein C Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Time Recorders, Dirve Recorders, Access Control (AREA)
Abstract
(57)【要約】
【目的】パーソナル・コンピュータ1のバス2に実装さ
れた信号処理カード5において音声の信号処理だけでな
く信号処理データを利用した音声認識を行えるようにす
る。 【構成】パーソナル・コンピュータ1のバス2に実装さ
れた信号処理カード5はバス・マスタ6を有し、このバ
ス・マスタ6を利用してパーソナル・コンピュータ1の
主メモリ4をアクセスする。音声認識に必要な膨大な確
率値のテーブルを主メモリ4に保持し、処理対象のラベ
ルの到来ごとに、テーブルの必要部分をバス・マスタ6
のDMA転送により主メモリ4から信号処理カード5の
メモリ9に読み込み、音声認識の処理を行う。
れた信号処理カード5において音声の信号処理だけでな
く信号処理データを利用した音声認識を行えるようにす
る。 【構成】パーソナル・コンピュータ1のバス2に実装さ
れた信号処理カード5はバス・マスタ6を有し、このバ
ス・マスタ6を利用してパーソナル・コンピュータ1の
主メモリ4をアクセスする。音声認識に必要な膨大な確
率値のテーブルを主メモリ4に保持し、処理対象のラベ
ルの到来ごとに、テーブルの必要部分をバス・マスタ6
のDMA転送により主メモリ4から信号処理カード5の
メモリ9に読み込み、音声認識の処理を行う。
Description
【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識に関し、とく
にパーソナル・コンピュータ(以下PCと略記)のバス
に実装された信号処理カードで、大語彙、実時間の認識
を行えるようにしたものである。
にパーソナル・コンピュータ(以下PCと略記)のバス
に実装された信号処理カードで、大語彙、実時間の認識
を行えるようにしたものである。
【0002】
【従来の技術】現存する大語彙音声認識装置は、その実
装形態から、大きく分けてつぎの2種がある。 (1)一時点で認識可能な語彙に関するデータを、すべ
て認識装置上に保持して音声認識を行ない、認識結果を
PCなどに(通常、RS−232Cなどの通信回線を介
して)出力するタイプのもの。これは、ボックス型(ス
タンド・アロン型)の認識装置に多くみられる。このタ
イプの認識装置は、大量のデータを装置内に保持するた
めのハードウェアが必要となるため、非常に高価なもの
となっている。この種の音声認識装置としてはたとえば
日本電気株式会社のDP−3000音声認識装置があ
る。 (2)PCのバスに実装される信号処理カードを用い、
カード上では音声の特徴量抽出のみ(または、特徴量抽
出とラベル付けのみ)を行ない、音声認識のための主な
処理はPCのプロセッサにより行うタイプのもの。この
方式は、安価に実現可能であるが、PCのプロセッサの
処理能力の大半を音声認識そのもののために使用する必
要があり、音声認識を利用した大規模なアプリケーショ
ンの構築に支障をきたしたり、逆に音声認識の実時間性
(応答速度)に問題が生じたりすることが多い。この種
の音声認識装置としてはたとえば米国ドラゴン・システ
ムズ・インクのドラゴン・ライタ−1000がある。
装形態から、大きく分けてつぎの2種がある。 (1)一時点で認識可能な語彙に関するデータを、すべ
て認識装置上に保持して音声認識を行ない、認識結果を
PCなどに(通常、RS−232Cなどの通信回線を介
して)出力するタイプのもの。これは、ボックス型(ス
タンド・アロン型)の認識装置に多くみられる。このタ
イプの認識装置は、大量のデータを装置内に保持するた
めのハードウェアが必要となるため、非常に高価なもの
となっている。この種の音声認識装置としてはたとえば
日本電気株式会社のDP−3000音声認識装置があ
る。 (2)PCのバスに実装される信号処理カードを用い、
カード上では音声の特徴量抽出のみ(または、特徴量抽
出とラベル付けのみ)を行ない、音声認識のための主な
処理はPCのプロセッサにより行うタイプのもの。この
方式は、安価に実現可能であるが、PCのプロセッサの
処理能力の大半を音声認識そのもののために使用する必
要があり、音声認識を利用した大規模なアプリケーショ
ンの構築に支障をきたしたり、逆に音声認識の実時間性
(応答速度)に問題が生じたりすることが多い。この種
の音声認識装置としてはたとえば米国ドラゴン・システ
ムズ・インクのドラゴン・ライタ−1000がある。
【0003】現在の音声認識装置で、大語彙音声認識
を、PCのプロセッサに負担をかけない形で、かつ安価
に実現した例はない。
を、PCのプロセッサに負担をかけない形で、かつ安価
に実現した例はない。
【0004】
【発明が解決しようとする問題点】この発明は以上の事
情を考慮してなされたものであり、PCのバスに実装さ
れた信号処理カードにより大語彙音声認識を行い、か
つ、PCのプロセッサに負担をかけない形で、かつ安価
に、実時間音声認識を達成する音声認識装置を実現する
ことを目的としている。
情を考慮してなされたものであり、PCのバスに実装さ
れた信号処理カードにより大語彙音声認識を行い、か
つ、PCのプロセッサに負担をかけない形で、かつ安価
に、実時間音声認識を達成する音声認識装置を実現する
ことを目的としている。
【0005】
【問題点を解決するための手段】この発明では以上の目
的を達成するために、信号処理カードのPCバス・イン
ターフェースとして、バス・マスタの機能を有している
ものを使用する。そして膨大な確率値テーブルはPCの
主メモリに保持する。そして、単語発声によって得られ
たラベル列に応じて、テーブルの必要部分のみを、信号
処理カードのバス・マスタのDMA転送で、PCの主メ
モリから信号処理カードのメモリに読みこみ、カード上
で音声認識の処理を行う。これにより、小規模なメモリ
しか持たない信号処理カード上で、大語彙の実時間音声
認識を実現することを可能にする。
的を達成するために、信号処理カードのPCバス・イン
ターフェースとして、バス・マスタの機能を有している
ものを使用する。そして膨大な確率値テーブルはPCの
主メモリに保持する。そして、単語発声によって得られ
たラベル列に応じて、テーブルの必要部分のみを、信号
処理カードのバス・マスタのDMA転送で、PCの主メ
モリから信号処理カードのメモリに読みこみ、カード上
で音声認識の処理を行う。これにより、小規模なメモリ
しか持たない信号処理カード上で、大語彙の実時間音声
認識を実現することを可能にする。
【0006】
【実施例】以下、この発明をフェノニック・マルコフ・
モデルに基づく1,000単語音声認識に適用した一実
施例について、図面を参照しながら説明する。
モデルに基づく1,000単語音声認識に適用した一実
施例について、図面を参照しながら説明する。
【0007】(1)音声認識の概要 本実施例では、予備選択法としてポーリング高速マッチ
を使用し、詳細マッチングにはフェノニック・マルコフ
・モデルに基づく手法を用い、これらの手法を併用する
ことで大語彙認識装置を実現した。まず、ポーリング高
速マッチおよびフェノニック・マルコフ・モデルに基づ
く詳細マッチングについて概説する。
を使用し、詳細マッチングにはフェノニック・マルコフ
・モデルに基づく手法を用い、これらの手法を併用する
ことで大語彙認識装置を実現した。まず、ポーリング高
速マッチおよびフェノニック・マルコフ・モデルに基づ
く詳細マッチングについて概説する。
【0008】(1−1)ポーリング高速マッチ 各単語について、約10ミリ秒の音響分析区間毎(この
単位を以下「フレーム」と呼ぶ)に得られたラベルに対
応して、ボーティング関数による投票を行い、発生終了
時に上位スコアを与えたもののみ(本実施例では、1,
000単語中上位25単語)を候補単語として詳細マッ
チングに渡す。これはフレーム毎のラベル生起確率のみ
に注目し、ラベル系列の時間構造を含まないものである
が、高速なマッチング手段であり、大語彙音声認識の予
備選択方式として有効である。ここでボーティング関数
は、例えばlogPr(L(t)|W(i))で与えられる。これは、各
単語W(i)が時刻tに観測されたラベルL(t)を発生させる
確率の対数値と考えることができる。なおポーリング高
速マッチについては特開昭62−220996号公報
(米国特許明細書第4718094号)にも詳細な説明
がある。
単位を以下「フレーム」と呼ぶ)に得られたラベルに対
応して、ボーティング関数による投票を行い、発生終了
時に上位スコアを与えたもののみ(本実施例では、1,
000単語中上位25単語)を候補単語として詳細マッ
チングに渡す。これはフレーム毎のラベル生起確率のみ
に注目し、ラベル系列の時間構造を含まないものである
が、高速なマッチング手段であり、大語彙音声認識の予
備選択方式として有効である。ここでボーティング関数
は、例えばlogPr(L(t)|W(i))で与えられる。これは、各
単語W(i)が時刻tに観測されたラベルL(t)を発生させる
確率の対数値と考えることができる。なおポーリング高
速マッチについては特開昭62−220996号公報
(米国特許明細書第4718094号)にも詳細な説明
がある。
【0009】(1−2)詳細マッチング フェノニック・マルコフ・モデルと呼ばれるヒドゥン・
マルコフ・モデルの一種を用い、単語発声により得られ
るラベル系列の時間構造を含めた形の詳細なマッチング
処理を行う。なおフェノニック・マルコフ・モデル(フ
ィーニーム・マルコフ・モデルともいう)については特
開昭62−178999号公報(米国特許明細書第48
33712号)にも詳細な説明がある。
マルコフ・モデルの一種を用い、単語発声により得られ
るラベル系列の時間構造を含めた形の詳細なマッチング
処理を行う。なおフェノニック・マルコフ・モデル(フ
ィーニーム・マルコフ・モデルともいう)については特
開昭62−178999号公報(米国特許明細書第48
33712号)にも詳細な説明がある。
【0010】[パラメータ及びモデル]図1は、本実施
例で用いられているフェノニック・マルコフ・モデルの
構造を示す。ここでPr(B(k)|F(j))は、フェノニック・
マルコフ・モデルF(j)が遷移B(k)を起こす遷移確率であ
る。また、Pr(L(t)|F(j))は、フェノニック・マルコフ
・モデルF(j)が時刻tにおいてラベルL(t)を出力するラ
ベル出力確率である。
例で用いられているフェノニック・マルコフ・モデルの
構造を示す。ここでPr(B(k)|F(j))は、フェノニック・
マルコフ・モデルF(j)が遷移B(k)を起こす遷移確率であ
る。また、Pr(L(t)|F(j))は、フェノニック・マルコフ
・モデルF(j)が時刻tにおいてラベルL(t)を出力するラ
ベル出力確率である。
【0011】[単語音声モデル]まず各単語発声により
得られるラベル列(これをベース・フォームという)を
作る。図2に示されるように、このラベル列のラベル番
号に一対一対応するようにフェノニック・マルコフ・モ
デルが順次連結されたものをフェノニック単語音声モデ
ルと呼ぶ。ベース・フォームは、認識対象単語毎に実際
の発声から作成され、ベース・フォーム・テーブルに登
録される。
得られるラベル列(これをベース・フォームという)を
作る。図2に示されるように、このラベル列のラベル番
号に一対一対応するようにフェノニック・マルコフ・モ
デルが順次連結されたものをフェノニック単語音声モデ
ルと呼ぶ。ベース・フォームは、認識対象単語毎に実際
の発声から作成され、ベース・フォーム・テーブルに登
録される。
【0012】[認識]入力音声ラベル列L(t)及び各候補
単語W(i)に対し、ビタービ・アルゴリズムを使って、ス
コアである対数尤度を求め、最大スコアを与える単語W
(i)を認識結果とする。
単語W(i)に対し、ビタービ・アルゴリズムを使って、ス
コアである対数尤度を求め、最大スコアを与える単語W
(i)を認識結果とする。
【0013】(2)システム構成 システム構成について、図3を参照しながら説明する。
図3は、本発明を日本アイ・ビー・エム(株)のPC、
PS/55(米国インターナショナル・ビジネス・マシ
ーンズ社の商標)を使って実現した例である。
図3は、本発明を日本アイ・ビー・エム(株)のPC、
PS/55(米国インターナショナル・ビジネス・マシ
ーンズ社の商標)を使って実現した例である。
【0014】PC1は、その内部にPCバス(マイクロ
チャネル、米国インターナショナル・ビジネス・マシー
ンズ社の商標)2を持っており、上述PCバス2にはP
Cのプロセッサ3と、上述プロセッサ3の主メモリ4が
接続されている。上述主メモリ4は、通常、数MBから
十数MBの大きさであり(本実施例では6MB)、一時
点で認識可能な語彙(本実施例では1,000単語)に
関する全データを保持している。なお、上述主メモリ4
内の具体的なデータの内容およびその配置(メモリ・マ
ップ)は、(3)主メモリ内のデータ構成およびその転
送方法で説明する。
チャネル、米国インターナショナル・ビジネス・マシー
ンズ社の商標)2を持っており、上述PCバス2にはP
Cのプロセッサ3と、上述プロセッサ3の主メモリ4が
接続されている。上述主メモリ4は、通常、数MBから
十数MBの大きさであり(本実施例では6MB)、一時
点で認識可能な語彙(本実施例では1,000単語)に
関する全データを保持している。なお、上述主メモリ4
内の具体的なデータの内容およびその配置(メモリ・マ
ップ)は、(3)主メモリ内のデータ構成およびその転
送方法で説明する。
【0015】一方、信号処理カード(SPC)5も、P
Cバス・インターフェース6を介してPCバス2に接続
されている。信号処理カード(SPC)5は、その内部
にSPC内部バス7を持っており、SPC内部バス7に
は、PCバス・インターフェース6に加えて、高速の信
号処理プロセッサ(DSP)8、信号処理プロセッサ
(DSP)8のための高速なDSP用メモリ9およびア
ナログ・デジタル(A/D)コンバータ12が接続され
ている。DSP用メモリ9は、通常数十KBの容量であ
り(本実施例では64KB)、認識対象語彙に関する全
データを保持することはできない。PC1の主メモリ4
と同程度の大きさのメモリを持てば、上述全データを保
持することはもちろん可能であるが、DSP8のスピー
ドに見合った高速のメモリを大量に搭載すると非常に高
価なものとなってしまう。
Cバス・インターフェース6を介してPCバス2に接続
されている。信号処理カード(SPC)5は、その内部
にSPC内部バス7を持っており、SPC内部バス7に
は、PCバス・インターフェース6に加えて、高速の信
号処理プロセッサ(DSP)8、信号処理プロセッサ
(DSP)8のための高速なDSP用メモリ9およびア
ナログ・デジタル(A/D)コンバータ12が接続され
ている。DSP用メモリ9は、通常数十KBの容量であ
り(本実施例では64KB)、認識対象語彙に関する全
データを保持することはできない。PC1の主メモリ4
と同程度の大きさのメモリを持てば、上述全データを保
持することはもちろん可能であるが、DSP8のスピー
ドに見合った高速のメモリを大量に搭載すると非常に高
価なものとなってしまう。
【0016】ところで、上述PCバス・インターフェー
ス6は、バス・マスタの機能を有している。バス・マス
タ機能により、PCバスの使用権を一時的に確保し、み
ずからがPCバス2をコントロールしつつ、ダイレクト
・メモリ・アクセス(DMA)転送を行うことができ
る。
ス6は、バス・マスタの機能を有している。バス・マス
タ機能により、PCバスの使用権を一時的に確保し、み
ずからがPCバス2をコントロールしつつ、ダイレクト
・メモリ・アクセス(DMA)転送を行うことができ
る。
【0017】入力音声は、マイクロフォン10および増
幅器11を介して、A/Dコンバータ12に供給され、
ここでデジタル・データとされた後、SPC内部バス7
を通ってDSP用メモリ9に格納される。信号処理プロ
セッサ(DSP)8はこのデータを使ってフレーム毎に
音響分析を行ない、特徴量抽出およびラベル付けを行
う。
幅器11を介して、A/Dコンバータ12に供給され、
ここでデジタル・データとされた後、SPC内部バス7
を通ってDSP用メモリ9に格納される。信号処理プロ
セッサ(DSP)8はこのデータを使ってフレーム毎に
音響分析を行ない、特徴量抽出およびラベル付けを行
う。
【0018】フレーム毎にDSP用メモリ9内に得られ
るこのラベルを使って、信号処理プロセッサ(DSP)
8は、フレーム同期型で、ポーリング高速マッチを行
う。即ち、入力ラベルが得られる毎に、各単語に対する
ポーリング高速マッチのスコアを更新する。ポーリング
高速マッチのための全ラベル(本実施例では256ラベ
ル)に関するデータは主メモリ4に格納されているが、
上述の理由から、現フレームで得られた当該ラベル(1
つのラベル)に関するデータだけをDSP用メモリ9内
に得れば、ポーリング高速マッチを行うことができる。
よって、信号処理プロセッサ(DSP)8は、PCバス
・インターフェース6のバス・マスタ機能を使用して、
DMA転送を行ない、主メモリ4からDSP用メモリ9
へ現フレームで得られた当該ラベルに関するデータのみ
を転送し、ポーリング高速マッチを行う。
るこのラベルを使って、信号処理プロセッサ(DSP)
8は、フレーム同期型で、ポーリング高速マッチを行
う。即ち、入力ラベルが得られる毎に、各単語に対する
ポーリング高速マッチのスコアを更新する。ポーリング
高速マッチのための全ラベル(本実施例では256ラベ
ル)に関するデータは主メモリ4に格納されているが、
上述の理由から、現フレームで得られた当該ラベル(1
つのラベル)に関するデータだけをDSP用メモリ9内
に得れば、ポーリング高速マッチを行うことができる。
よって、信号処理プロセッサ(DSP)8は、PCバス
・インターフェース6のバス・マスタ機能を使用して、
DMA転送を行ない、主メモリ4からDSP用メモリ9
へ現フレームで得られた当該ラベルに関するデータのみ
を転送し、ポーリング高速マッチを行う。
【0019】フレーム毎のラベル付けおよびポーリング
高速マッチと並行して、信号処理プロセッサ(DSP)
8は音声区間の検出も行う。そして音声区間の終端が得
られたら、その時点でのポーリング高速マッチのスコア
をもとに、詳細マッチングを行う候補単語を選ぶ。本実
施例では、上位25単語を候補として残した。詳細マッ
チングのための全単語(本実施例では1,000単語)
に関するデータ(ベース・フォーム)および全フェノニ
ック・マルコフ・モデルのラベル出力確率は主メモリ4
に格納されているが(遷移確率はデータ量が少ないので
DSP用メモリの上に常駐している)、詳細マッチング
はフレーム同期型で行うので、25個の候補単語に関す
るデータのほかには、ラベル1つ1つに対応してラベル
出力確率をDSP用メモリ9内に順次転送すれば、詳細
マッチングを行うことができる。よって、信号処理プロ
セッサ(DSP)8は、PCバス・インターフェース6
のバス・マスタ機能を使用して、DMA転送を行ない、
主メモリ4からDSP用メモリ9へ上述2種類のデータ
を転送し、詳細マッチングを行う。
高速マッチと並行して、信号処理プロセッサ(DSP)
8は音声区間の検出も行う。そして音声区間の終端が得
られたら、その時点でのポーリング高速マッチのスコア
をもとに、詳細マッチングを行う候補単語を選ぶ。本実
施例では、上位25単語を候補として残した。詳細マッ
チングのための全単語(本実施例では1,000単語)
に関するデータ(ベース・フォーム)および全フェノニ
ック・マルコフ・モデルのラベル出力確率は主メモリ4
に格納されているが(遷移確率はデータ量が少ないので
DSP用メモリの上に常駐している)、詳細マッチング
はフレーム同期型で行うので、25個の候補単語に関す
るデータのほかには、ラベル1つ1つに対応してラベル
出力確率をDSP用メモリ9内に順次転送すれば、詳細
マッチングを行うことができる。よって、信号処理プロ
セッサ(DSP)8は、PCバス・インターフェース6
のバス・マスタ機能を使用して、DMA転送を行ない、
主メモリ4からDSP用メモリ9へ上述2種類のデータ
を転送し、詳細マッチングを行う。
【0020】 (3)主メモリ内のデータ構成およびその転送方法 主メモリ4内のデータ構成およびその転送方法につい
て、図4を参照しながら説明する。本実施例に関連する
3つのテーブルの構成およびその転送方法について各々
説明する。 (3−1)ポーリング高速マッチ・テーブル21 本実施例に用いたボーティング関数は、logPr(L(t)|W
(i))で表され、 これは、ある単語W(i)が与えられた時、
時刻tにおいて観測されたラベルL(t)の出現確率の対数
値と考えられる。スコアSw(i)は、このボーティング関
数をtについて足しこむことにより与えられ、入力ラベ
ルが得られる毎に、各単語に関するスコアが更新され
る。スコアを求めるには、この確率値テーブル(ポーリ
ング高速マッチ・テーブル21)を保持する必要がある
が、本実施例の場合、対象語彙1,000語、ラベルの
種類256であり、各要素を2バイトとした場合、テー
ブル・サイズは512KBとなり、DSP用メモリにテ
ーブル全体を格納することはできない。よって、前述の
ように、このテーブルをPC1の主メモリ4に保持し、
入力ラベルL(t)が得られる毎に、信号処理カード(SP
C)5は、主メモリ4からDSP用メモリ9へ現フレー
ムで得られた当該ラベルに関するデータ22のみ(本実
施例では2KB)をDMA転送し、ポーリング高速マッ
チを行う。なお、ポーリング高速マッチ・テーブル21
は、DMA転送およびアドレッシングが容易なように、
主メモリ上ではラベル毎に全対象語彙に対する出現確率
値が並べられている。このように、信号処理カード(S
PC)5上でポーリング高速マッチを行うために必要と
される記憶量は、2KBのDMA転送用バッファとスコ
アSw(i)を保持するための2KB、計4KBのみとな
る。なお、同一ラベルが続く場合(定常母音部など)
は、繰り返してDMA転送する必要はない。
て、図4を参照しながら説明する。本実施例に関連する
3つのテーブルの構成およびその転送方法について各々
説明する。 (3−1)ポーリング高速マッチ・テーブル21 本実施例に用いたボーティング関数は、logPr(L(t)|W
(i))で表され、 これは、ある単語W(i)が与えられた時、
時刻tにおいて観測されたラベルL(t)の出現確率の対数
値と考えられる。スコアSw(i)は、このボーティング関
数をtについて足しこむことにより与えられ、入力ラベ
ルが得られる毎に、各単語に関するスコアが更新され
る。スコアを求めるには、この確率値テーブル(ポーリ
ング高速マッチ・テーブル21)を保持する必要がある
が、本実施例の場合、対象語彙1,000語、ラベルの
種類256であり、各要素を2バイトとした場合、テー
ブル・サイズは512KBとなり、DSP用メモリにテ
ーブル全体を格納することはできない。よって、前述の
ように、このテーブルをPC1の主メモリ4に保持し、
入力ラベルL(t)が得られる毎に、信号処理カード(SP
C)5は、主メモリ4からDSP用メモリ9へ現フレー
ムで得られた当該ラベルに関するデータ22のみ(本実
施例では2KB)をDMA転送し、ポーリング高速マッ
チを行う。なお、ポーリング高速マッチ・テーブル21
は、DMA転送およびアドレッシングが容易なように、
主メモリ上ではラベル毎に全対象語彙に対する出現確率
値が並べられている。このように、信号処理カード(S
PC)5上でポーリング高速マッチを行うために必要と
される記憶量は、2KBのDMA転送用バッファとスコ
アSw(i)を保持するための2KB、計4KBのみとな
る。なお、同一ラベルが続く場合(定常母音部など)
は、繰り返してDMA転送する必要はない。
【0021】(3−2)ラベル出力確率テーブル23 フェノニック・マルコフ・モデルF(j)のラベルL(t)の出
力確率は、logPr(L(t)|F(j))で表される。各単語モデル
の入力ラベル列に対する尤度を求めるには、ラベル出力
確率テーブル23が必要であるが、本実施例の場合、フ
ェノニック・マルコフ・モデルおよびラベルの種類が各
々256であり、各要素を2バイトとした場合、テーブ
ル・サイズは131KBとなり、DSP用メモリ9にテ
ーブル全体を格納することはできない。よって、ポーリ
ング高速マッチ・テーブル21と同様に、このテーブル
23をPC1の主メモリ4に保持する。そして、詳細マ
ッチングをフレーム同期型で行ない、信号処理カード
(SPC)5は、主メモリ4からDSP用メモリ9へ、
入力ラベルL(t)1つ1つについて順次、当該ラベルに関
する全フェノニック・マルコフ・モデル分のデータ24
だけ(本実施例では512バイト)をDMA転送を使っ
て読みこむ。なお、ラベル出力確率テーブル23につい
ても、DMA転送およびアドレッシングが容易なよう
に、主メモリ上ではラベル毎に全フェノニック・マルコ
フ・モデルに対する出力確率値が並べられている。この
ように、信号処理カード(SPC)5上で出力確率値を
保持するために必要とされる記憶量は、512バイトの
みとなる。なお、この場合も、同一ラベルが続く場合
(定常母音部など)は、繰り返してDMA転送する必要
はない。
力確率は、logPr(L(t)|F(j))で表される。各単語モデル
の入力ラベル列に対する尤度を求めるには、ラベル出力
確率テーブル23が必要であるが、本実施例の場合、フ
ェノニック・マルコフ・モデルおよびラベルの種類が各
々256であり、各要素を2バイトとした場合、テーブ
ル・サイズは131KBとなり、DSP用メモリ9にテ
ーブル全体を格納することはできない。よって、ポーリ
ング高速マッチ・テーブル21と同様に、このテーブル
23をPC1の主メモリ4に保持する。そして、詳細マ
ッチングをフレーム同期型で行ない、信号処理カード
(SPC)5は、主メモリ4からDSP用メモリ9へ、
入力ラベルL(t)1つ1つについて順次、当該ラベルに関
する全フェノニック・マルコフ・モデル分のデータ24
だけ(本実施例では512バイト)をDMA転送を使っ
て読みこむ。なお、ラベル出力確率テーブル23につい
ても、DMA転送およびアドレッシングが容易なよう
に、主メモリ上ではラベル毎に全フェノニック・マルコ
フ・モデルに対する出力確率値が並べられている。この
ように、信号処理カード(SPC)5上で出力確率値を
保持するために必要とされる記憶量は、512バイトの
みとなる。なお、この場合も、同一ラベルが続く場合
(定常母音部など)は、繰り返してDMA転送する必要
はない。
【0022】(3−3)ベース・フォーム・テーブル2
5 本実施例の場合、対象語彙1,000語であり、平均単
語長を100フレームとすると、全単語のベース・フォ
ームを保持するには100KBのメモリ容量が必要であ
り、DSP用メモリ9に全単語のベース・フォームを格
納することはできない。よって、上述2例と同様に、こ
のベース・フォーム・テーブル25をPC1の主メモリ
4に保持し、信号処理カード(SPC)5は、ポーリン
グ高速マッチのスコアをもとに、詳細マッチングを行う
候補単語(本実施例の場合25個)に関するベース・フ
ォーム・データ26のみを主メモリからDSP用メモリ
9へ、DMA転送を使って読みこむ。
5 本実施例の場合、対象語彙1,000語であり、平均単
語長を100フレームとすると、全単語のベース・フォ
ームを保持するには100KBのメモリ容量が必要であ
り、DSP用メモリ9に全単語のベース・フォームを格
納することはできない。よって、上述2例と同様に、こ
のベース・フォーム・テーブル25をPC1の主メモリ
4に保持し、信号処理カード(SPC)5は、ポーリン
グ高速マッチのスコアをもとに、詳細マッチングを行う
候補単語(本実施例の場合25個)に関するベース・フ
ォーム・データ26のみを主メモリからDSP用メモリ
9へ、DMA転送を使って読みこむ。
【0023】(4)処理の流れ 本実施例を処理の流れの観点から、図5を参照しながら
説明する。
説明する。
【0024】入力音声は、マイクロフォン10および増
幅器11を介して、A/Dコンバータ12に供給され、
ここでデジタル・データとされる(ステップS1〜S
3)。そして、フレームごとにステップS4で特徴量抽
出、ステップS5でラベル付けがなされる。ステップS
6では、当該ラベルに関するポーリング高速マッチ用の
データ22を主メモリ4からDSP用メモリ9へDMA
転送する。そのデータ22を使って、ステップS7で、
ポーリング高速マッチのためのボーティングを行う。ス
テップS4からS7を、音声区間の終端が検出されるま
でくり返す。そして、ステップS8で音声区間の検出が
行なわれると、ステップS9で音声の終端検出時のポー
リング高速マッチのスコアから、詳細マッチングを行う
候補単語25個が選ばれ、ステップS10でその25単
語のベース・フォーム26が、主メモリ4からDSP用
メモリ9へDMA転送される。続いて、フレーム同期型
の詳細マッチングを行うために、ステップS11で入力
ラベル毎に出力確率が主メモリ4からDSP用メモリ9
へDMA転送される。そして、上述ベース・フォームと
上述のラベル出力確率とDSP用メモリ9に常駐してい
る遷移確率とを使って、ステップS12で、フレーム同
期型の詳細マッチングを行う。ステップS11とS12
は、発声のフレーム数(ラベル数)だけくり返され、最
終的に最も尤度の高い単語を、ステップS13で認識結
果として出力する。
幅器11を介して、A/Dコンバータ12に供給され、
ここでデジタル・データとされる(ステップS1〜S
3)。そして、フレームごとにステップS4で特徴量抽
出、ステップS5でラベル付けがなされる。ステップS
6では、当該ラベルに関するポーリング高速マッチ用の
データ22を主メモリ4からDSP用メモリ9へDMA
転送する。そのデータ22を使って、ステップS7で、
ポーリング高速マッチのためのボーティングを行う。ス
テップS4からS7を、音声区間の終端が検出されるま
でくり返す。そして、ステップS8で音声区間の検出が
行なわれると、ステップS9で音声の終端検出時のポー
リング高速マッチのスコアから、詳細マッチングを行う
候補単語25個が選ばれ、ステップS10でその25単
語のベース・フォーム26が、主メモリ4からDSP用
メモリ9へDMA転送される。続いて、フレーム同期型
の詳細マッチングを行うために、ステップS11で入力
ラベル毎に出力確率が主メモリ4からDSP用メモリ9
へDMA転送される。そして、上述ベース・フォームと
上述のラベル出力確率とDSP用メモリ9に常駐してい
る遷移確率とを使って、ステップS12で、フレーム同
期型の詳細マッチングを行う。ステップS11とS12
は、発声のフレーム数(ラベル数)だけくり返され、最
終的に最も尤度の高い単語を、ステップS13で認識結
果として出力する。
【0025】
【発明の効果】以上説明したように、この発明によれ
ば、PCのバスに実装された信号処理カードにより大語
彙音声認識を行う場合、PCのプロセッサに負担をかけ
ない形で、かつ安価に、実時間音声認識を実現すること
が可能となる。
ば、PCのバスに実装された信号処理カードにより大語
彙音声認識を行う場合、PCのプロセッサに負担をかけ
ない形で、かつ安価に、実時間音声認識を実現すること
が可能となる。
【図1】この発明の実施例で用いられているフェノニッ
ク・マルコフ・モデルの構造を示す図である。
ク・マルコフ・モデルの構造を示す図である。
【図2】上述実施例で用いられるフェノニック単語音声
モデルの説明のための図である。
モデルの説明のための図である。
【図3】上述実施例の構成を示すブロック図である。
【図4】上述実施例における、主メモリ内のデータ構成
およびその転送方法を説明するための図である。
およびその転送方法を説明するための図である。
【図5】上述実施例の処理の流れを説明するためのフロ
ー・チャートである。
ー・チャートである。
1…パーソナル・コンピュータ 2…パーソナル・コンピュータのバス 3…プロセッサ 4…主メモリ 5…信号処理カード 6…パーソナル・コンピュータのバス・インターフェー
ス 7…信号処理カードの内部バス 8…信号処理プロセッサ 9…信号処理プロセッサ用メモリ
ス 7…信号処理カードの内部バス 8…信号処理プロセッサ 9…信号処理プロセッサ用メモリ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 黒田 明裕 東京都千代田区三番町5−19 日本アイ・ ビー・エム株式会社 東京基礎研究所内 (72)発明者 年岡 晃一 東京都千代田区三番町5−19 日本アイ・ ビー・エム株式会社 東京基礎研究所内
Claims (5)
- 【請求項1】 語彙単語の音声モデルを規定するマルコ
フ・モデルの確率値の情報と、微小な時間間隔に割り当
て可能な音響タイプを表す一組のラベルの情報とを保持
し、入力音声に基づいて、対応するラベルを順次に生成
して上記入力音声のラベル列を生成し、上記語彙単語の
音声モデルと上記ラベル列とに基づいて上記マルコフ・
モデルの確率値を累積し、この累積値に基づいて音声認
識を行う音声認識装置において、 バスと、 上記バスに接続されたプロセッサと、 上記バスに接続された、上記プロセッサの主メモリであ
って、上記マルコフ・モデルの確率値を上記ラベルごと
にアクセス可能に保持するものと、 上記バスに接続される信号処理ユニットとを有し、 上記信号処理ユニットは、 上記一組のラベルの情報を保持する手段と、 上記一組のラベルの情報に基づいて入力音声を上記ラベ
ル列に変換する手段と、 上記ラベル列に含まれるラベルごとに、当該ラベルに関
連する上記マルコフ・モデルの確率値を上記主メモリか
らダイレクト・メモリ・アクセス転送により取り込む手
段と、 上記取り込んだ確率値に基づいて、上記語彙中の各単語
ごとに、確率値を累積する手段と、 上記累積された確率値に応じて1または複数の単語を認
識結果と決定する手段とを含むことを特徴とする音声認
識装置。 - 【請求項2】 上記ダイレクト・メモリ・アクセス転送
により取り込む手段はバス・マスタである請求項1記載
の音声認識装置。 - 【請求項3】 上記信号処理カードは上記取り込まれる
確率値を一時記憶するとともに上記確率値の累積値を保
持する、上記主メモリより高速のメモリを有する請求項
2記載の音声認識装置。 - 【請求項4】 プロセッサ、主メモリおよび入出力装置
とをバスに共通接続してなるコンピュータ・システムの
上記バスに接続可能な音声認識用処理ユニットにおい
て、 微小な時間間隔に割り当て可能な音響タイプを表す一組
のラベルの情報に基づいて入力音声を上記ラベル列に変
換する手段と、 語彙単語の音声モデルを規定するマルコフ・モデルの確
率値の情報であって、上記ラベルごとにアクセス可能に
配列されたものを予め保持している、上記主メモリか
ら、上記ラベル列に含まれるラベルごとに、当該ラベル
に関連する上記マルコフ・モデルの確率値をダイレクト
・メモリ・アクセス転送により取り込む手段と、 上記取り込んだ確率値に基づいて、上記語彙中の各単語
ごとに、確率値を累積する手段と、 上記累積された確率値に応じて1または複数の単語を認
識結果と決定する手段とを有することを特徴とする音声
認識用処理ユニット。 - 【請求項5】 微小な時間間隔に割り当て可能な音響タ
イプを表す一組の第1ラベルの情報と、上記第1ラベル
の各々が語彙単語の発生において生成される確率の情報
と、微小な時間間間隔に割り当て可能な音響タイプを表
す第2ラベルにそれぞれ対応する一組のマルコフ・モデ
ルの連鎖として表される、語彙単語の音声モデルの情報
と、上記マルコフ・モデルの確率値の情報とを保持し、
入力音声に基づいて、対応する第1ラベルを順次に生成
して上記入力音声の第1ラベルの列を生成し、上記第1
ラベルの列と、上記第1ラベルの各々が語彙単語の発生
において生成される確率とを用いて、上記語彙単語の認
識候補かどうかを判別し、上記認識候補の音声モデルと
上記第1ラベルの列とに基づいて上記マルコフ・モデル
の確率値を累積し、この累積値に基づいて詳細な音声認
識を行う音声認識装置において、 バスと、 上記バスに接続されたプロセッサと、 上記バスに接続された、上記プロセッサの主メモリであ
って、上記一組の第1ラベルが上記語彙単語の発生にお
いて生成される確率値の情報を上記第1ラベルごとにア
クセス可能に保持し、さらに上記語彙単語の音声モデル
の情報を語彙単語ごとにアクセス可能に保持するもの
と、 上記バスに接続された信号処理ユニットとを有し、 上記信号処理ユニットは、 入力音声を第1ラベルの列に変換する手段と、 上記第1ラベルの列に含まれるラベルごとの、当該第1
ラベルを上記語彙単語が生成する確率値の情報を上記主
メモリからダイレクト・メモリ・アクセス転送により取
り込む手段と、 上記第1ラベルの列に含まれるラベルごとに、上記取り
込んだ確率値に基づいて、上記語彙単語の確率値を累積
する手段と、 上記累積された確率値に応じて候補単語を決定する手段
と、 候補単語の音声モデルの情報をダイレクト・メモリ・ア
クセス転送により上記主メモリから取り込む手段と、 上記第1ラベルの列に含まれる第1ラベルごとに当該ラ
ベルを種々の遷移で生成する確率値の情報をダイレクト
・メモリ・アクセス転送により上記主メモリから取り込
む手段と、 上記音声モデルの情報と上記第1ラベルごとに取り込ま
れる確率値の情報とに応じて上記単語候補が上記入力音
声である尤度を計算する手段と、上記尤度に基づいて認
識結果を生成する手段とを有することを特徴とする音声
認識装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3278896A JP2662120B2 (ja) | 1991-10-01 | 1991-10-01 | 音声認識装置および音声認識用処理ユニット |
US07/931,240 US5353377A (en) | 1991-10-01 | 1992-08-17 | Speech recognition system having an interface to a host computer bus for direct access to the host memory |
BR929203745A BR9203745A (pt) | 1991-10-01 | 1992-09-25 | Sistemas de reconhecimento de fala |
DE69224953T DE69224953T2 (de) | 1991-10-01 | 1992-09-29 | Spracherkennung |
EP92308855A EP0535909B1 (en) | 1991-10-01 | 1992-09-29 | Speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3278896A JP2662120B2 (ja) | 1991-10-01 | 1991-10-01 | 音声認識装置および音声認識用処理ユニット |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05127692A true JPH05127692A (ja) | 1993-05-25 |
JP2662120B2 JP2662120B2 (ja) | 1997-10-08 |
Family
ID=17603614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3278896A Expired - Fee Related JP2662120B2 (ja) | 1991-10-01 | 1991-10-01 | 音声認識装置および音声認識用処理ユニット |
Country Status (5)
Country | Link |
---|---|
US (1) | US5353377A (ja) |
EP (1) | EP0535909B1 (ja) |
JP (1) | JP2662120B2 (ja) |
BR (1) | BR9203745A (ja) |
DE (1) | DE69224953T2 (ja) |
Families Citing this family (172)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
US5737490A (en) * | 1993-09-30 | 1998-04-07 | Apple Computer, Inc. | Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
US5893064A (en) * | 1997-05-14 | 1999-04-06 | K2 Interactive Llc | Speech recognition method and apparatus with voice commands and associated keystrokes |
US6804642B1 (en) * | 1997-06-24 | 2004-10-12 | Itt Manufacturing Enterprises, Inc. | Apparatus and method for continuous speech recognition on a PCMCIA card |
US6141641A (en) * | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7162426B1 (en) * | 2000-10-02 | 2007-01-09 | Xybernaut Corporation | Computer motherboard architecture with integrated DSP for continuous and command and control speech processing |
US7069513B2 (en) | 2001-01-24 | 2006-06-27 | Bevocal, Inc. | System, method and computer program product for a transcription graphical user interface |
US7444284B1 (en) | 2001-01-24 | 2008-10-28 | Bevocal, Inc. | System, method and computer program product for large-scale street name speech recognition |
US20020143553A1 (en) * | 2001-01-24 | 2002-10-03 | Michael Migdol | System, method and computer program product for a voice-enabled universal flight information finder |
US6789065B2 (en) | 2001-01-24 | 2004-09-07 | Bevocal, Inc | System, method and computer program product for point-to-point voice-enabled driving directions |
US7383187B2 (en) * | 2001-01-24 | 2008-06-03 | Bevocal, Inc. | System, method and computer program product for a distributed speech recognition tuning platform |
US20020133336A1 (en) * | 2001-01-24 | 2002-09-19 | Mikael Berner | System, method and computer program product for supporting the delivery of localized content |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
JP4298672B2 (ja) * | 2005-04-11 | 2009-07-22 | キヤノン株式会社 | 混合分布hmmの状態の出力確率計算方法および装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
DE102006036582A1 (de) * | 2006-08-04 | 2008-02-14 | Siemens Audiologische Technik Gmbh | Hörhilfe mit einem Audiosignalerzeuger und Verfahren |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR102014665B1 (ko) | 2013-03-15 | 2019-08-26 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10706086B1 (en) * | 2018-03-12 | 2020-07-07 | Amazon Technologies, Inc. | Collaborative-filtering based user simulation for dialog systems |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62178999A (ja) * | 1986-01-30 | 1987-08-06 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | 音声認識装置 |
JPS62184557A (ja) * | 1986-02-10 | 1987-08-12 | Nippon Telegr & Teleph Corp <Ntt> | マイクロプロセツサ・バス・インタフエ−ス回路 |
JPS62220996A (ja) * | 1986-03-18 | 1987-09-29 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | 音声認識方法及び装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58195957A (ja) * | 1982-05-11 | 1983-11-15 | Casio Comput Co Ltd | 音声によるプログラム実行方式 |
US4799144A (en) * | 1984-10-12 | 1989-01-17 | Alcatel Usa, Corp. | Multi-function communication board for expanding the versatility of a computer |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4833712A (en) * | 1985-05-29 | 1989-05-23 | International Business Machines Corporation | Automatic generation of simple Markov model stunted baseforms for words in a vocabulary |
US4776016A (en) * | 1985-11-21 | 1988-10-04 | Position Orientation Systems, Inc. | Voice control system |
AU632867B2 (en) * | 1989-11-20 | 1993-01-14 | Digital Equipment Corporation | Text-to-speech system having a lexicon residing on the host processor |
-
1991
- 1991-10-01 JP JP3278896A patent/JP2662120B2/ja not_active Expired - Fee Related
-
1992
- 1992-08-17 US US07/931,240 patent/US5353377A/en not_active Expired - Lifetime
- 1992-09-25 BR BR929203745A patent/BR9203745A/pt not_active Application Discontinuation
- 1992-09-29 DE DE69224953T patent/DE69224953T2/de not_active Expired - Lifetime
- 1992-09-29 EP EP92308855A patent/EP0535909B1/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62178999A (ja) * | 1986-01-30 | 1987-08-06 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | 音声認識装置 |
JPS62184557A (ja) * | 1986-02-10 | 1987-08-12 | Nippon Telegr & Teleph Corp <Ntt> | マイクロプロセツサ・バス・インタフエ−ス回路 |
JPS62220996A (ja) * | 1986-03-18 | 1987-09-29 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | 音声認識方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2662120B2 (ja) | 1997-10-08 |
US5353377A (en) | 1994-10-04 |
EP0535909B1 (en) | 1998-04-01 |
DE69224953T2 (de) | 1998-10-22 |
DE69224953D1 (de) | 1998-05-07 |
EP0535909A2 (en) | 1993-04-07 |
BR9203745A (pt) | 1993-04-27 |
EP0535909A3 (en) | 1993-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2662120B2 (ja) | 音声認識装置および音声認識用処理ユニット | |
US5502791A (en) | Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords | |
US6574597B1 (en) | Fully expanded context-dependent networks for speech recognition | |
US6178401B1 (en) | Method for reducing search complexity in a speech recognition system | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
JPH0772839B2 (ja) | 自動音声認識用に音類似に基づく文脈依存カテゴリへ音素の発音をグループ化する方法と装置 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JPH0581918B2 (ja) | ||
CN103229232A (zh) | 声音识别装置及导航装置 | |
CN111613212A (zh) | 语音识别方法、系统、电子设备和存储介质 | |
JPH10511196A (ja) | 情報処理システム | |
CN111192572A (zh) | 语义识别的方法、装置及系统 | |
JP4738847B2 (ja) | データ検索装置および方法 | |
US20020152068A1 (en) | New language context dependent data labeling | |
KR20180092582A (ko) | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 | |
JP2002062891A (ja) | 音素割当て方法 | |
JP2004094257A (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
JP3634863B2 (ja) | 音声認識システム | |
US20080189105A1 (en) | Apparatus And Method For Automatically Indicating Time in Text File | |
JP2000259645A (ja) | 音声処理装置及び音声データ検索装置 | |
JPH05100693A (ja) | 音声認識用コンピユータ・システム | |
JP2738403B2 (ja) | 音声認識装置 | |
CN115188365B (zh) | 一种停顿预测方法、装置、电子设备及存储介质 | |
JP3818154B2 (ja) | 音声認識方法 | |
JP2008107641A (ja) | 音声データ検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |