JPH06250688A - 音声認識装置及びラベル生成方法 - Google Patents

音声認識装置及びラベル生成方法

Info

Publication number
JPH06250688A
JPH06250688A JP6006869A JP686994A JPH06250688A JP H06250688 A JPH06250688 A JP H06250688A JP 6006869 A JP6006869 A JP 6006869A JP 686994 A JP686994 A JP 686994A JP H06250688 A JPH06250688 A JP H06250688A
Authority
JP
Japan
Prior art keywords
context
label
signal
feature vector
dependent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6006869A
Other languages
English (en)
Other versions
JP2559998B2 (ja
Inventor
Lalit R Bahl
ラリット・アール・バール
Souza Peter De
ピーター・デ・ソウザ
P S Gopalakrishnan
ピィ・エス・ゴパラクリシュナン
Michael A Picheny
マイケル・エイ・ピシェニイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH06250688A publication Critical patent/JPH06250688A/ja
Application granted granted Critical
Publication of JP2559998B2 publication Critical patent/JP2559998B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文脈依存音声認識装置において音声をラベル
付けする方法を提供する。 【構成】 文脈依存プロトタイプを用いて音声をラベル
付けする際には、音声のフレームの単音文脈を、適切な
音声パラメータ・ベクトルに結び付ける必要がある。ア
ーク・ランクをもとにする場合には大量のデータを結び
付けるのは困難であるため、本発明では、文脈に依存し
ない音声プロトタイプを用いてデータを結び付ける。各
単音の音声文脈はわかっている。従って結び付けの後、
音声パラメータ・ベクトルには、対応する音声文脈がタ
グ付けされる。文脈依存プロトタイプ・ベクトルは各ラ
ベルに存在する。全てのラベルについて、音声文脈がタ
グ付き音声パラメータ・ベクトルと同じ文脈依存プロト
タイプ・ベクトルが判定される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的には音声認識シ
ステムにおける音声のラベル付けに関し、特に音声の文
脈に依存したラベル付けに関する。
【0002】
【従来の技術】音韻学者は発話を区別するに充分な最小
の音の単位(音素と呼ばれる)を発見しようとしてい
る。音素はそれぞれ記号で表わされる。この記号を単音
(phone)という。例えば英語の/p/と/b/は、これによ
ってpinとbinが互いに区別されるから、明確に区別され
る音素である。しかし、同じ音素によって識別された音
区間が必ず同じように響くとみなすべきではない。与え
られた音素の音響学的異種は異音(allophone )と呼ば
れる。異なる音は2つの条件のうち、発話の区別を妨げ
る少なくとも1つが満足された場合には、同じ音素の異
音とみられる。2つの異音が同じ音環境で生じることは
ない(例えば、potの気音pとtopの無気音p)か、または
同じ音環境で生じる場合は、1つを入れ替えても異なる
単語にはならず、同じ単語の発音が異なるだけである。
【0003】音声字母(音声アルファベット)は、簡便
なパターン認識に利用するには音声プロセッサによって
拡張しなければならない。与えられた音素の音響学的異
種に対応する認識空間として用いられる領域は、最小数
のコンパクトな凸型小領域に分割する必要がある。各小
領域は、小単音(sub-phone )と呼ばれる異なる記号に
よってラベル付けされる。これら小領域の全ての集合
(union )は、単音と呼ばれる記号によって表わされ
る。話者生成モデルと音声プロセッサの構造設計は、音
声経験によって導かれるべきものであるので、得られた
小領域が多少とも従来の認知単位から成るように分割シ
ステムを維持するのが望ましい。詳しくは、"Continuou
s Speech Recognition by Statistical Methods"、Fred
erick Jelinek、Proc.of the IEEE、Vol 64、No.4、pp532-5
56(1976年4月)を参照されたい。
【0004】従来の音声認識システムは、隠れマルコフ
・モデル(HMM)を用いて音素を表わすか、またはラ
ベルを表わす。Bahlらによる米国特許第4819271
号を参照されたい。通常、文脈依存モデリング・システ
ムは隠れマルコフ・モデルを利用する。隠れマルコフ・
モデルは音声認識の分野では周知のものである。一般に
隠れマルコフ・モードは、確率分布、状態、及びアーク
の列である。アークはまた遷移とも呼ばれる。観測ベク
トルは隠れマルコフ・モデルの出力である。確率分布
は、音声プロセッサによって生成された一連の観測ベク
トル上の分布である。隠れマルコフ・モデルの音声認識
に欠かせないステップの1つは、ある語彙内の各語を隠
れマルコフ・モデルの列として特徴づけることである。
モデルに応じて、隠れマルコフ・モデルのそれぞれが語
の全体または音素を表わす。
【0005】通常、マルコフ・モデルの音声認識システ
ムには、音声入力をラベル列に変換する音声プロセッサ
が含まれる。列内のラベルは、定義済みプロトタイプ群
を利用することによって音声ベクトルの出力に割当てら
れる。各プロトタイプは、全ての音声を定義するn次元
空間のベクトル群に対応する。n個の特性の値をもと
に、n個の要素の音声パラメータ・ベクトルが定義され
る。音声パラメータ・ベクトルは特徴ベクトルの1タイ
プである。いわゆる上(supra )音声は凸領域に分類さ
れる。プロトタイプ・ベクトルは凸領域の代表的ベクト
ルである。与えられた音声パラメータ・ベクトルがどの
凸領域に属するかについて選択が行なわれる。一般に、
音声パラメータ・ベクトルがどの凸領域に関連づけられ
るかを決定する際には、音声パラメータ・ベクトルが各
ラベルに関連づけられたプロトタイプ・ベクトルと比較
される。前述の通り、各凸領域はラベルで識別される。
音声プロセッサは、各時間間隔(通常は100分の1
秒)に、音声パラメータ・ベクトルを表わす信号を生成
する。音声パラメータ・ベクトルが属する凸領域がこれ
によって決定され、その凸領域のラベルが時間間隔に関
連づけられる。音声プロセッサはこのようにしてその出
力としてラベル列を生成する。文脈に依存しない音声認
識システムは、与えられた音素を個別にモデリングす
る。文脈依存音声認識システムは、与えられた音素を先
行する音素や後続の音素を利用してモデリングする。文
脈依存音声を適切にモデリングするには、文脈に依存し
ない音声をモデリングする場合よりもかなり多い凸領域
が必要である。
【0006】文脈に依存しないラベル・プロトタイプ・
ベクトルは、個々の音素を用いて決定される。これら文
脈に依存しないラベル・プロトタイプ・ベクトルの生成
時には前後の音素は考慮されない。ただし、語が発音さ
れた時、ある特定の音素は前の音素や後の音素に応じて
実際に変化する。分離した音のアーティキュレーション
に比べて、文脈のなかで発音された音はかなり変化し得
る。つまり、どの音が音素の前後にあるかに応じて、音
素のエネルギ濃度パターンが変化する。従って、隣接し
た音素を明らかにするラベル・プロトタイプ・ベクトル
を生成することで、連続した音声のモデリングが改良さ
れる。音声の文脈を明らかにすることで、文脈依存型ラ
ベル・プロトタイプ・ベクトル信号が得られる。各音素
には、隣接する単音に応じて多くの変形がある。目的の
音素と隣接した音素の組合わせは、目的音素の音声文脈
と呼ばれる。
【0007】別の隠れマルコフ・モデルをもとにした音
声認識システムは、文脈依存アークのプロトタイプから
導かれたアークのランクに依存する。一般に、この種の
システムは、入力された音声信号を連続した値付き音声
パラメータ・ベクトル列を音声プロセッサによって表わ
す信号に還元する。次に各アークが各音声パラメータ・
ベクトルに条件付き確率を割当てる。次に、これら条件
付き確率がランク・プロセッサによってソートされ、こ
れら条件付き確率にもとづいた、各音声パラメータ・ベ
クトルのランクが出力される。このようなシステムは、
アーク・ランクにもとづくと呼ばれる。
【0008】隠れマルコフ・モデルのアーク・ランク音
声認識システムでは、トレーニングと認識が、音声ラベ
ルの面ではなくランクの面から行なわれる。他のシステ
ムよりも精度を上げて音声をモデリングするために、文
脈依存型アーク・プロトタイプが用いられる。アーク・
ランクを用いることで、話者のトレーニングや認識の際
にラベラが不要になる。しかし、認識装置を開発するに
は、隠れマルコフ・モードの語モデルの自動生成等のた
めに音声ラベルを使用する必要がある。従って、文脈依
存プロトタイプに対して作動するラベラが必要である。
【0009】文脈依存ラベル・プロトタイプ・ベクトル
信号を用いて音声のフレームをラベル付けするには、フ
レームの正確な音声文脈を知ることが望ましい。一般的
に、各ラベルはViterbi(ビタービ) アライメントによ
ってそれに対応する単音とのアライメントがとられる。
トレーニング・データが用いられるので、各単音の音声
文脈はわかっている。従ってViterbi アライメントによ
り、ラベルとその音声文脈のアライメントがとられる。
以下、Viterbi アライメントについて詳述する。ランク
を基準にして大量の音声データをViterbi 方式によって
結び付けるのは、しばしば非実用的である。より効率の
よいアライメント方法は、音声ラベルを用いることであ
る。
【0010】
【発明が解決しようとする課題】問題は、Viterbi アラ
イメントを計算するために音声ラベルが必要になり、ラ
ベルの判定にアライメントが必要であり、ラベルが文脈
依存ラベルのプロトタイプ・ベクトル信号にもとづくこ
とである。ここで求められるのは、この相互依存性を解
決する方法である。
【0011】
【課題を解決するための手段】本発明は、文脈依存ラベ
ル・プロトタイプ・ベクトルを用いて音声認識用のラベ
ルを生成する方法及び装置に関する。この方法及び装置
はトレーニング・データを受取る手段から成る。このト
レーニング・データがラベル付けされる。ラベル付けの
後、データにタグがつけられる。すなわちデータが適切
な音声文脈と関連づけられる。タグ付きトレーニング・
データの各フレームを得る可能性を最大にする文脈依存
ラベル・プロトタイプ・ベクトルが識別される。可能性
が最大の文脈依存ラベル・プロトタイプ・ベクトルに関
連づけられたラベルも、タグ付きトレーニング・データ
のフレームに関連づけられる。
【0012】
【実施例】本発明の方法及び装置では、ランク認識シス
テムのモデルが形成される。本発明は、ラベル・プロト
タイプ・ベクトルが文脈に依存し、音声のフレームの文
脈が確実にはわからない時に、葉素(leafeme )の基本
形構造に必要なラベルを生成する。
【0013】音声モデリングの基本形として使用できる
モデル単位はいくつかある。音声は1度に1語、或いは
fenon として、すなわち短い音声の単位としてモデリン
グできる。もう1つの方式は、語を葉素の列としてモデ
リングすることである。葉素は、語の各音素に対応する
文脈依存モデルである。本発明は、葉素をモデル基本形
として利用する。
【0014】図1は、本発明の好適な実施例が作動する
環境を示す。本発明の好適な実施例はコンピュータ・プ
ラットフォーム104で作動する。コンピュータ・プラ
ットフォーム104は、1つまたは複数の中央処理装置
(CPU)116、ランダム・アクセス・メモリ(RA
M)114、及び入出力インタフェース118を含むハ
ードウェア装置112を含む。コンピュータ・プラット
フォーム104は、オペレーティング・システム108
を含み、マイクロ命令コード110を加えることができ
る。音声認識装置103は、オペレーティング・システ
ムを通して実行されるマイクロ命令コード110または
アプリケーション・プログラムの1部でもよい。端末1
26、データ記憶装置130、プリンタ134等、各種
の周辺機器をコンピュータ・プラットフォーム104に
接続することができる。
【0015】図2は、音声認識装置103の詳細を示
す。ユーザ・インタフェース202には、発話に応じた
アナログ電気信号を生成するマイクロフォンを追加する
ことができる。アナログ/デジタル(A/D)変換器も
ユーザ・インタフェース202に追加できる。ユーザ・
インタフェース202は、信号プロセッサ/特徴抽出器
204に接続される。信号プロセッサ/特徴抽出器20
4は、ユーザ・インタフェース202から出力された電
気信号を受取り、音声パラメータ・ベクトル等の特徴ベ
クトル群(以下、特徴ベクトル信号と呼ぶ)を表わす信
号を生成する。図3はこのプロセスの詳細を示す。信号
プロセッサ/特徴抽出器204には、アナログ/デジタ
ル(A/D)変換器、スペクトル・アナライザ等を追加
できる。ユーザ・インタフェース202の出力は、信号
プロセッサ/特徴抽出器204に接続される。各時間間
隔すなわちフレームに、信号プロセッサ/特徴抽出器2
04がn個の音声特性をチェックする。n個の特性の値
をもとにn個の要素の特徴ベクトル306を表わす信号
が定義される。好適な実施例の場合、信号プロセッサ/
特徴抽出器204は、音声信号から一連の音声パラメー
タ・ベクトルを表わす信号を抽出する。抽出可能なある
タイプの音声パラメータ・ベクトル信号(以下、音声パ
ラメータ・ベクトルと呼ぶ)は、信号の周波数にもとづ
く。信号プロセッサ/特徴抽出器204による音声信号
の測定とスペクトル分析によって、周波数に依存する音
声パラメータ・ベクトルが生成される。スペクトル分析
では、複数の異なる周波数帯域n(約20)の各時間単
位について音声信号のエネルギが測定される。時間単位
すなわちフレームは小さい。従って多くの音声パラメー
タ・ベクトルが秒単位で生成される。
【0016】信号プロセッサ/特徴抽出器204の出力
は、文脈依存ラベラ206に接続される。文脈依存ラベ
ラはプロトタイプ記憶メカニズム208にも接続され
る。文脈依存ラベラ206は、各特徴ベクトルについ
て、文脈に依存する全てのラベルのスコアを計算し関連
づける。文脈依存ラベラ206は次に、各特徴ベクトル
を、スコアが最大の文脈依存ラベルに関連づける。各文
脈依存ラベルのスコアと、タグ付き特徴ベクトルが文脈
依存ラベラ206から出力される。文脈依存ラベラ20
6はランク判定器210に接続される。ランク判定器
は、文脈依存ラベラ206で計算されたスコアをランク
づけする。
【0017】マッチャ212はランク判定器210、語
モデル記憶装置214、及び仮説サーチャ216に接続
される。マッチャ212は、語モデル記憶装置214か
ら語モデルを、ランク判定器210から判定されたラン
クを受取り、各語モデルのスコアを計算する。このスコ
アは仮説サーチャに出力され、そこでスコアが最大の語
モデルが選択される。選択された語は、発話の識別に関
してシステムの判定結果を表わす。
【0018】図4は、文脈依存ラベラ206のモジュー
ルを示す。メモリ・モジュール402は、フロッピー・
ディスク、或いはランダム・アクセス・メモリ(RA
M)等のデータ記憶装置である。本発明の好適な実施例
では、コンピュータの内部ランダム・アクセス・メモリ
(RAM)がメモリ・モジュール402として用いられ
る。文脈に依存しないラベラ404は、メモリ・モジュ
ール402とアライナ406に接続される。アライナ4
06はメモリ・モジュール402とタガー408に接続
される。タガー408はメモリ・モジュール402とコ
ンパレータ410に接続される。コンパレータ410は
メモリ・モジュール402と確率判定器412に接続さ
れる。確率判定器はメモリ・モジュール402と割当て
器414に接続される。割当て器はメモリ・モジュール
402に接続される。文脈依存ラベラ206の入力デー
タと出力データはメモリ・モジュール402に格納され
る。
【0019】図5は、文脈依存ラベラの動作方法を示
す。音声パラメータ・ベクトルは、音声プロセッサ/特
徴抽出器204によってメモリ・モジュールに格納され
ている。これら音声パラメータ・ベクトルの文脈に依存
しないラベル付け(ステップ504)は非文脈依存ラベ
ラ404で生じる。ラベル・アルファベットはわかって
おり、メモリ・モジュール402に格納されている。各
ラベルに文脈に依存しないラベル・プロトタイプ・ベク
トル信号と文脈に依存するラベル・プロトタイプ・ベク
トル信号の1群が関連づけられる。これらプロトタイプ
・ベクトル信号はまたメモリ・モジュール402に格納
されている(後述)。文脈依存プロトタイプ・ベクトル
の構成方法については、L.R.Bahlらによる"Context D
ependent Vector Quantization for Continuous Speech Recognit
ion"、Proceedings fromthe International Conference
on Acoustics、Speech、and Signal Processing、Minneapolos MN(1993年4月)を参照
されたい。文脈に依存しないプロトタイプ・ベクトルの
構成については以下に説明する。これらのラベルの音声
パラメータ・ベクトルへの割当て(ステップ504)に
は、非文脈依存ラベル・プロトタイプ・ベクトルが用い
られる。音声パラメータ・ベクトルは、ベクトル量子化
と呼ばれるプロセス(後述)でクラスの異なる音として
ラベル付けされる。
【0020】あるベクトル量子化法では、異なる音声ベ
クトルがメモリ・モジュール内で異なるクランプに分け
られる。図6を参照する。これらのクランプは、凸領域
602、604と呼ばれる領域に分けられる。簡単なた
め図6では、2次元のみの音声パラメータ・ベクトルの
形でトレーニング・データを調べる。異なる音声パラメ
ータ・ベクトルをこのように領域に分割することをクラ
スタリングという。クラスタリングのプロセスは、基本
的には、各領域のトレーニング・ベクトルの平均値を計
算することによって各凸領域の平均値を計算するもので
ある。図6のドットは、トレーニング・ベクトル60
6、608を表わす。各領域のトレーニング・ベクトル
について得られた平均値は、プロトタイプまたはプロト
タイプ・ベクトル610、612と呼ばれる。プロトタ
イプ・ベクトル610は凸領域604内の全てのトレー
ニング・ベクトルの平均を表わす。これらプロトタイプ
・ベクトルはプロトタイプ記憶装置208に格納され
る。プロトタイプ記憶装置の好適な実施例は、メモリ・
モジュール402に置かれる。各プロトタイプ・ベクト
ルには識別子が割当てられる。各プロトタイプ・ベクト
ルはまた音のクラスとも呼ばれる。文脈に依存する音声
認識装置と文脈に依存しない音声認識装置に必要なプロ
トタイプ・ベクトル群は異なる。いずれのタイプのプロ
トタイプもメモリ・モジュール402に格納される。文
脈に依存する音声のモデリングでは、音の組合わせがモ
デリングされるので、音のクラス(それぞれプロトタイ
プ・ベクトルを持つ)が増える。
【0021】好適な実施例では、音声パラメータ・ベク
トルがどのクラスの音に関連づけられているかを見つけ
る方法は、音声パラメータ・ベクトルとラベル・プロト
タイプ・ベクトルを分ける距離を判定することによって
実施される。差が最小のラベラ・プロトタイプ・ベクト
ルが音声パラメータ・ベクトルに関連づけられる。この
プロトタイプ・ベクトルの識別子は、この音声パラメー
タ・ベクトルのラベル付けに用いられる。このプロセス
の名称が「ベクトル量子化」である。
【0022】各音声パラメータ・ベクトルは、話音すな
わち音素に対応するものとして識別されなければならな
い。音声認識では、各語はメモリ・モジュール402内
で話音の列として普通に表わされる。例えばモデル"k a
e t"は、語"cat" を表わす。英語のスペルは不規則なの
で、人が語の発音と語のスペリングを知っているという
だけで、どの話音がその語を表わすのかがわかるとは限
らない。好適な実施例の場合、各語は話音すなわち音素
の列にマップされる。つまり音素列が各語を構成する。
音素を表わす記号は単音である。ベクトル・クォンタイ
ザによって、英語を作りあげる異なる音に関連づけられ
たラベルを生成するには、約80個の単音の目録が必要
である。もちろん、言語が異なれば音とラベルの数が異
なる目録が必要である。
【0023】異なる単音と、語の発音によって生成され
た音声パラメータ・ベクトルを関連づける操作は、周知
の「Viterbi アライメント」によってアライナ・モジュ
ール406において行なわれる(ステップ508)。Vi
terbi アライメント法の詳細については、F.Jelinekに
よる"Continuous Speech Recognition by Statistical Methods"、Proc.IEEE、Vol 64、No.4、5
32-556、1976年を参照されたい。基本的にViterbi
アライメント法は、与えられたテキスト内の各単音を隠
れマルコフ・モデルによってマッチング或いは関連づけ
て、各単音がどのラベル(すなわちベクトル・クォンタ
イザからの出力)に対応するかを判定する。1例とし
て、図7にテキスト列"The Cat In The Hat"と、このテ
キスト列の音(音素)を表わす単音を示す。Viterbi ア
ライメントは、テキスト列の単音とラベルをマッチング
させる。すなわち各単音は、対応するラベルで識別され
る。例えば語"The"の単音"dh"はラベルL1、L2に対応
する。単音"uhl"はラベルL3 、L4、L5に対応する。
音声パラメータ・ベクトルはそれぞれ、非文脈依存ラベ
ルに関連づけられる(ステップ504)。ラベルと各単
音の関連がわかれば、テキスト列の各単音に対応する音
声パラメータ・ベクトルもわかる(図8参照)。従っ
て、音声パラメータ・ベクトルと音素との対応は、Vite
rbi アライメント法によって確立できる。
【0024】非文脈依存ラベル・プロトタイプ・ベクト
ルは、前後の音素とは無関係に個々の音素にもとづく。
しかし、語が発音される時、ある特定の音素は実際には
前後の音素によって変化する。発音の仕方は文脈のなか
で発音された時は、音が単独で発せられた時と比べて大
きく変化し得る。つまり、どの音が音素に前後するかに
応じて、音素のエネルギ濃度パターンが変わるのであ
る。例えば音素"s" は、"sue"のように音素"oo"が後に
続くか、或いは"see"のように音素"e" が後に続くかに
よって変化する。従って、隣接した音素を明らかにする
ラベル・プロトタイプ・ベクトルを生成することで、連
続した音声のモデリングが改良される。音声文脈を明ら
かにすれば、文脈依存ラベル・プロトタイプ・ベクトル
が得られる。音素はそれぞれ隣接する音素に応じて多く
の変形を有する。目的音素の音声文脈は、目的音素と隣
接音素の組合わせである。トレーニング・データにその
音声文脈で印をつけるのは、トレーニング・データが本
発明に入力される前である。従って、トレーニング・デ
ータ内の各単音の正確な音声文脈はわかっている。
【0025】本発明の目標の1つは、システムの語彙内
の各語について、最も発生率の高いラベル列を判定する
ことである。文脈依存型音声システムをモデリングする
には多数のプロトタイプ・ベクトルが必要である。Vite
rbi アライメント508は、音声パラメータ・ベクトル
と対応する単音をマッチングさせる。トレーニング・デ
ータは分析されているので、単音と音声文脈との結び付
きもわかっている。図8に示す通り、データのマッチン
グの後、各音声パラメータ・ベクトルの音声文脈もわか
る。
【0026】音声パラメータ・ベクトル信号がアライナ
406によって処理された後、これらの信号は、タガー
・モジュール408によって処理される。従って次のス
テップでは、音声パラメータ・ベクトル(APV)信号
のそれぞれにタグがつけられるか、或いは対応する音声
文脈と関連づけられる(ステップ510)。タガーはタ
グ付き特徴ベクトル信号を、好適な実施例ではタグ付き
音声パラメータ・ベクトル信号を、メモリ・モジュール
402に格納する。
【0027】ステップ512乃至520は、タグ付き音
声パラメータ・ベクトルのそれぞれに対して実行され
る。音声パラメータ・ベクトルはステップ512で選択
される。文脈依存分析を用いた、各音声パラメータにど
のラベルを関連づけるかの判定は、本発明の成果の1つ
である。本発明では、最初にステップ514で、各ラベ
ルについて与えられた音声パラメータ・ベクトルの音声
文脈に対応する文脈依存ラベル・プロトタイプ・ベクト
ルを識別しなければならない。コンパレータ・モジュー
ル410は、音声パラメータ・ベクトルを、それがタガ
ー・モジュール408でタグ付けされてから処理する。
コンパレータ・モジュール410は、ラベル・アルファ
ベットの各ラベルについて、タグ付き音声パラメータ・
ベクトルに関連づけられた音声文脈に対応するプロトタ
イプ・ベクトルが各ラベルにあるかどうかを判定する。
そのプロトタイプ・ベクトルが存在する場合、確率判定
器412が、このプロトタイプ・ベクトルが与えられた
タグ付き音声パラメータ・ベクトルを取得する確率を判
定する。好適な実施例の場合、確率判定器412は隠れ
マルコフ・モデルを使用して確率を判定する。コンパレ
ータ410と確率判定器412はラベル・アルファベッ
トの各ラベルについてこのプロセスを続ける。
【0028】コンパレータ・モジュール410と確率判
定器モジュール412は、上記タグ付き音声パラメータ
・ベクトルと同じ音声文脈に対応する文脈依存プロトタ
イプを持つ各ラベルについて音声パラメータ・ベクトル
を取得する確率を判定し(ステップ516)、この情報
をメモリ・モジュール402に格納する。割当てモジュ
ール414は、メモリ・モジュール402からこの情報
を取得し、音声パラメータ・ベクトルを生成する確率が
最大の文脈依存プロトタイプ・ベクトルを識別する(ス
テップ518)。割当てモジュール414は、この文脈
依存プロトタイプ・ベクトルに関連づけられたラベルを
メモリ・モジュール402から検索し、音声パラメータ
・ベクトルに関連づけられた古いラベルと置き換える
(ステップ520)。音声パラメータ・ベクトルに関連
づけられた古いラベルは、ステップ504で非文脈依存
ラベラ404によって実行された非文脈依存ラベル付け
の結果である。
【0029】この時点で、与えられた音声パラメータ・
ベクトルは、文脈依存プロトタイプ・ベクトルにもとづ
くラベルで識別される。この情報はメモリ・モジュール
402に格納される。ステップ512乃至520は、ス
テップ522に示すように全ての音声パラメータ・ベク
トルについて繰返される。
【0030】全ての音声パラメータ・ベクトルが識別さ
れた後、ステップ524でラベル列の収束が得られるま
でステップ508乃至522を繰返すことができる。5
08乃至522が繰返される際、ラベルと単音のマッチ
ングを変えることもできる(ステップ508)が、マッ
チングが異なる場合は、音声パラメータ・ベクトルに割
当てられたラベル(ステップ520)が異なることがあ
り、従って、この反復では収束が得られない。識別とラ
ベル/音声パラメータ・ベクトルの組合わせそれぞれの
スコアは、メモリ・モジュール402に格納される。こ
れに続く隠れマルコフ・モジュールは、アーク・ランク
・システム等に使用できる新しいラベル情報から導かれ
る。
【0031】音声認識システムの性能測定基準として
は、単音/ラベル相互情報がある。単音/ラベル相互情
報は、単音とラベルが互いにどのように対応しているか
の尺度である。例えば、単音がラベルを一意に識別する
場合、単音/ラベル相互情報は、この単音とラベルの最
大値である。2つの単音が1つのラベルに対応する場
合、単音/ラベル相互情報は、これらの単音とラベルに
ついて少ない、すなわち対応は「シャープ」ではない。
与えられた単音について出力されるラベルが増えるか、
またはあるラベルに対応する単音が増えると相互情報は
減少する。どの単音も全く同じラベル分布を生じた場
合、単音とラベルの相互情報はゼロである。単音が与え
られた場合には、どのラベルが生成されたかについて情
報を集められないからである。
【0032】本発明の方法は、1人の話者から得られた
500個の文の連続音声に対して1回繰返された。音素
をもとにした隠れマルコフ・モデルの語モデルと、21
0のラベル・アルファベット・サイズで得られた単音/
ラベル相互情報は、非文脈依存ラベラ404のラベルを
置き換えた際、すなわちステップ504からのラベル
を、ステップ520の割当て器モジュールからのラベル
に置き換えた際、3.25ビットから3.53ビットに
改良された。ステップ520のラベルは、それぞれ2つ
の対角線分布の混合から成る12,093個の文脈依存
ラベル・プロトタイプ・ベクトルから得られた。
【0033】以上をまとめると、下記の「1」乃至「1
4」が記載されていることになる。 「1」入力がトレーニング・テキストの単音列から成
り、各単音に音声文脈が関連づけられ、該音声文脈が、
該単音の直前または直後の単音から成り、非文脈依存プ
ロトタイプ・ベクトルと文脈依存プロトタイプ・ベクト
ルが予めメモリ・モジュールに格納された、コンピュー
タを用いた音声認識装置であって、上記トレーニング・
テキストの発話バージョンに対応する発音された音を入
力として受取り、入力音を表わす出力信号を有するユー
ザ・インタフェースと、入力が上記ユーザ・インタフェ
ースの出力に接続されて、該ユーザ・インタフェースの
出力信号を、特徴ベクトルを表わす一連の信号に変換す
る信号プロセッサと、上記信号プロセッサの出力に接続
されて、文脈依存ラベルを上記一連の特徴ベクトル信号
に関連づける手段とを含み、該手段が、上記信号プロセ
ッサの出力に接続されて、上記特徴ベクトル信号のそれ
ぞれを最も類似性の高い非文脈依存ラベル・プロトタイ
プ・ベクトルとマッチングさせ、該最も類似性の高い非
文脈依存ラベル・プロトタイプ・ベクトルが、該特徴ベ
クトル信号のパラメータを、該非文脈依存ラベル・プロ
トタイプ・ベクトルのそれぞれのパラメータと比較する
ことによって判定され、該特徴ベクトル信号のそれぞれ
に該最も類似性の高い非文脈依存ラベルが付加される、
第1ラベル付け手段と、上記第1ラベル付け手段に接続
されて、第1ラベル付けされた上記特徴ベクトル信号の
それぞれを対応する単音に結び付けるアライメント手段
と、上記アライメント手段に接続されて、結び付けられ
た上記特徴ベクトル信号のそれぞれに、上記対応する単
音に関連づけられた音声文脈をタグ付けする手段と、上
記タグ付け手段に接続されて、上記文脈依存プロトタイ
プ・ベクトル信号にもとづいて、上記タグ付きプロトタ
イプ・ベクトル信号のそれぞれのラベルを関連づける第
1関連付け手段とを含み、該第1関連付け手段が、各ラ
ベルについて、タグ付き特徴ベクトル信号の音声文脈に
対応する、文脈依存プロトタイプ・ベクトル信号が存在
するかどうかを判定する音声文脈識別手段と、上記音声
文脈識別手段に接続されて、上記音声文脈識別手段で判
定されたタグ付き特徴ベクトル信号と同じ音声文脈を有
する上記文脈依存プロトタイプ・ベクトル信号のそれぞ
れが与えられた場合に、該タグ付き特徴ベクトル信号を
得るスコアを生成するマッチング・スコア生成手段と、
上記マッチング・スコア生成手段に接続されて、該マッ
チング・スコア生成手段によって生成された最大スコア
を有する文脈依存プロトタイプ・ベクトル信号に関連づ
けられたラベルを、上記タグ付き特徴ベクトル信号に関
連づける手段と、を含む音声認識装置。 「2」上記信号処理手段に接続されて、隠れマルコフ・
モデルを用いて特徴ベクトル信号をモデリングする手段
を含む、上記「1」記載の装置。 「3」上記アライメント手段がViterbi アライナを含
む、上記「1」記載の装置。 「4」上記関連付け手段に接続されて、上記文脈依存プ
ロトタイプ・ベクトルにもとづく上記ラベルを格納する
手段を含む、上記「1」記載の装置。 「5」上記マッチング・スコア生成手段に接続されて、
該マッチング・スコア生成手段で生成された上記文脈依
存ラベルのスコアにもとづく文脈依存ラベル・プロトタ
イプ・ベクトル信号をランク付けする手段を含む、上記
「1」記載の装置。 「6」上記ランク付け手段に接続され、該ランク付け手
段に入力が接続され、出力を有する上記タグ付き特徴ベ
クトル信号の上記文脈依存ラベル・プロトタイプ・ラン
クを格納する手段を含む、上記「5」記載の装置。 「7」上記マッチング・スコア生成手段に接続されて、
上記タグ付き特徴ベクトル信号と同じ音声文脈を有する
上記文脈依存プロトタイプ・ベクトル信号のそれぞれが
与えられた場合に、該マッチング・スコア生成手段によ
って生成された上記スコアを、タグ付き特徴ベクトル信
号のそれぞれに対して格納する手段を含む、上記「1」
記載の装置。 「8」トレーニング・テキストの発話バージョンが、信
号プロセッサにおいて特徴ベクトルを表わす信号に変換
され、音声文脈がそれぞれに関連づけられた単音の列が
トレーニング・テキストから入力され、該音声文脈が、
該単音の直前または直後に生じる単音から成り、非文脈
依存プロトタイプ・ベクトルと文脈依存プロトタイプ・
ベクトルが予めメモリ・モジュールに格納されており、
葉素基準形構造に必要なラベルを生成する方法であっ
て、(1)上記特徴ベクトル信号のそれぞれを、非文脈
依存ラベル・プロトタイプ・ベクトルを表わす最も類似
性の高い信号とマッチングさせ、該最も類似性の高い信
号が該特徴ベクトル信号のパラメータを、上記メモリ・
モジュールに格納された該非文脈依存ラベル・プロトタ
イプ・ベクトルを表わす該信号のそれぞれのパラメータ
と比較することによって判定されて、該特徴ベクトル信
号のそれぞれに、非文脈依存ラベルを表わす該最も類似
性の高い信号がラベル付けされる、ステップと、(2)
上記ラベル付けされた非文脈依存特徴ベクトル信号のそ
れぞれを、上記トレーニング・テキストからの対応する
単音に結び付けるステップと、(3)結び付けられた上
記特徴ベクトル信号のそれぞれに、上記対応する単音に
関連づけられた音声文脈をタグ付けするステップと、
(4)与えられたタグ付き特徴ベクトル信号と同じ音声
文脈を有する文脈依存ラベル・プロトタイプ・ベクトル
を表わす信号を識別するステップと、(5)ステップ
(4)で識別された文脈依存ラベル・プロトタイプ・ベ
クトル信号のそれぞれが与えられた場合に特徴ベクトル
信号を得るスコアを判定するステップと、(6)ステッ
プ(5)で判定された上記特徴ベクトル信号のスコアを
最大にする文脈依存ラベル・プロトタイプ・ベクトル信
号を識別するステップと、(7)上記特徴ベクトル信号
に関連づけられた文脈依存ラベルを、ステップ(6)で
識別されたスコアが最大の上記文脈依存ラベル・プロト
タイプ・ベクトル信号に関連づけられたラベルと置き換
えて、該特徴ベクトル信号に文脈依存ラベルを付加する
ステップと、(8)タグ付き特徴ベクトル信号のそれぞ
れについてステップ(4)乃至(7)を繰返すステップ
とを含む、ラベル生成方法。 「9」上記ラベルの所望の収束レベルを得るために、ス
テップ(2)乃至(8)を必要に応じて繰返すステップ
(9)を含む、上記「8」記載の方法。 「10」上記特徴ベクトル信号が一連の音声パラメータ
・ベクトルの形で受取られる、上記「8」記載の方法。 「11」隠れマルコフ・モデルを用いて上記特徴ベクト
ル信号をモデリングするステップがステップ(8)の直
前に含まれる、上記「8」記載の方法。 「12」ステップ(2)がViterbi アライメント法を用
い、コンピュータ・プロセッサにおいて上記特徴ベクト
ル信号と上記単音を結び付けるステップを含む、上記
「8」記載の方法。 「13」ステップ(5)が、隠れマルコフ・モデルを用
いて上記スコアを判定するステップを含む、上記「8」
記載の方法。 「14」ステップ(5)に続いて、上記文脈依存ラベル
・プロトタイプ・ベクトル信号を、ステップ(5)で判
定されたスコアに従ってランク付けし、ランクを上記メ
モリ・モジュールに格納するステップを含む、上記
「8」記載の方法。
【図面の簡単な説明】
【図1】本発明の音声認識装置を取り入れたコンピュー
タ・システムの図である。
【図2】本発明の音声認識装置を含むモジュールの図で
ある。
【図3】音声信号から音声パラメータ・ベクトルを抽出
する方法を示す図である。
【図4】本発明の文脈依存ラベラのモジュールを示す図
である。
【図5】音声認識の方法と装置の全体を示す流れ図であ
る。
【図6】空間内の複数の音声パラメータ・ベクトルと、
複数の凸領域内の特徴ベクトルの分割の2次元表現を示
す図である。
【図7】テキスト列と異なる音の相関を示す図である。
【図8】本発明の初期ステップがトレーニング・データ
に与える影響を示す図である。
【符号の説明】
103 音声認識装置 104 コンピュータ・プラットフォーム 108 オペレーティング・システム 110 マイクロ命令コード 112 ハードウェア装置 202 ユーザ・インタフェース 204 信号プロセッサ/特徴抽出器 206 文脈依存ラベラ 208 プロトタイプ記憶メカニズム 210 ランク判定器 212 マッチャ 214 語モデル記憶装置 216 仮説サーチャ 306 特徴ベクトル 402 メモリ・モジュール 404 ラベラ 406 アライナ 408 タガー 410 コンパレータ 412 確率判定器 414 割当て器 508 Viterbi アライメント 602、604 凸領域 606、608 トレーニング・ベクトル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ラリット・アール・バール アメリカ合衆国10501、ニューヨーク州ア マウォーク、エリシャ・パーディ・ロー ド、ボックス 28、ロード 1(番地な し) (72)発明者 ピーター・デ・ソウザ アメリカ合衆国95124、カリフォルニア州 サン・ホセ、ビスタ・ループ 6001 (72)発明者 ピィ・エス・ゴパラクリシュナン アメリカ合衆国10598、ニューヨーク州ヨ ークタウン・ハイツ、ラッドクリフェ・ド ライブ 3073 (72)発明者 マイケル・エイ・ピシェニイ アメリカ合衆国10606、ニューヨーク州ホ ワイト・プレインズ、ラルフ・アベニュー 118

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】入力がトレーニング・テキストの単音列か
    ら成り、各単音に音声文脈が関連づけられ、該音声文脈
    が、該単音の直前または直後の単音から成り、非文脈依
    存プロトタイプ・ベクトルと文脈依存プロトタイプ・ベ
    クトルが予めメモリ・モジュールに格納された、コンピ
    ュータを用いた音声認識装置であって、 上記トレーニング・テキストの発話バージョンに対応す
    る発音された音を入力として受取り、入力音を表わす出
    力信号を有するユーザ・インタフェースと、 入力が上記ユーザ・インタフェースの出力に接続され
    て、該ユーザ・インタフェースの出力信号を、特徴ベク
    トルを表わす一連の信号に変換する信号プロセッサと、 上記信号プロセッサの出力に接続されて、文脈依存ラベ
    ルを上記一連の特徴ベクトル信号に関連づける手段とを
    含み、該手段が、 上記信号プロセッサの出力に接続されて、上記特徴ベク
    トル信号のそれぞれを最も類似性の高い非文脈依存ラベ
    ル・プロトタイプ・ベクトルとマッチングさせ、該最も
    類似性の高い非文脈依存ラベル・プロトタイプ・ベクト
    ルが、該特徴ベクトル信号のパラメータを、該非文脈依
    存ラベル・プロトタイプ・ベクトルのそれぞれのパラメ
    ータと比較することによって判定され、該特徴ベクトル
    信号のそれぞれに該最も類似性の高い非文脈依存ラベル
    が付加される、第1ラベル付け手段と、 上記第1ラベル付け手段に接続されて、第1ラベル付け
    された上記特徴ベクトル信号のそれぞれを対応する単音
    に結び付けるアライメント手段と、 上記アライメント手段に接続されて、結び付けられた上
    記特徴ベクトル信号のそれぞれに、上記対応する単音に
    関連づけられた音声文脈をタグ付けする手段と、 上記タグ付け手段に接続されて、上記文脈依存プロトタ
    イプ・ベクトル信号にもとづいて、上記タグ付きプロト
    タイプ・ベクトル信号のそれぞれのラベルを関連づける
    第1関連付け手段とを含み、該第1関連付け手段が、 各ラベルについて、タグ付き特徴ベクトル信号の音声文
    脈に対応する、文脈依存プロトタイプ・ベクトル信号が
    存在するかどうかを判定する音声文脈識別手段と、 上記音声文脈識別手段に接続されて、上記音声文脈識別
    手段で判定されたタグ付き特徴ベクトル信号と同じ音声
    文脈を有する上記文脈依存プロトタイプ・ベクトル信号
    のそれぞれが与えられた場合に、該タグ付き特徴ベクト
    ル信号を得るスコアを生成するマッチング・スコア生成
    手段と、 上記マッチング・スコア生成手段に接続されて、該マッ
    チング・スコア生成手段によって生成された最大スコア
    を有する文脈依存プロトタイプ・ベクトル信号に関連づ
    けられたラベルを、上記タグ付き特徴ベクトル信号に関
    連づける手段と、 を含む音声認識装置。
  2. 【請求項2】上記信号処理手段に接続されて、隠れマル
    コフ・モデルを用いて特徴ベクトル信号をモデリングす
    る手段を含む、請求項1記載の装置。
  3. 【請求項3】上記アライメント手段がViterbi アライナ
    を含む、請求項1記載の装置。
  4. 【請求項4】上記関連付け手段に接続されて、上記文脈
    依存プロトタイプ・ベクトルにもとづく上記ラベルを格
    納する手段を含む、請求項1記載の装置。
  5. 【請求項5】上記マッチング・スコア生成手段に接続さ
    れて、該マッチング・スコア生成手段で生成された上記
    文脈依存ラベルのスコアにもとづく文脈依存ラベル・プ
    ロトタイプ・ベクトル信号をランク付けする手段を含
    む、請求項1記載の装置。
  6. 【請求項6】上記ランク付け手段に接続され、該ランク
    付け手段に入力が接続され、出力を有する上記タグ付き
    特徴ベクトル信号の上記文脈依存ラベル・プロトタイプ
    ・ランクを格納する手段を含む、請求項5記載の装置。
  7. 【請求項7】上記マッチング・スコア生成手段に接続さ
    れて、上記タグ付き特徴ベクトル信号と同じ音声文脈を
    有する上記文脈依存プロトタイプ・ベクトル信号のそれ
    ぞれが与えられた場合に、該マッチング・スコア生成手
    段によって生成された上記スコアを、タグ付き特徴ベク
    トル信号のそれぞれに対して格納する手段を含む、請求
    項1記載の装置。
  8. 【請求項8】トレーニング・テキストの発話バージョン
    が、信号プロセッサにおいて特徴ベクトルを表わす信号
    に変換され、音声文脈がそれぞれに関連づけられた単音
    の列がトレーニング・テキストから入力され、該音声文
    脈が、該単音の直前または直後に生じる単音から成り、
    非文脈依存プロトタイプ・ベクトルと文脈依存プロトタ
    イプ・ベクトルが予めメモリ・モジュールに格納されて
    おり、葉素基準形構造に必要なラベルを生成する方法で
    あって、 (1)上記特徴ベクトル信号のそれぞれを、非文脈依存
    ラベル・プロトタイプ・ベクトルを表わす最も類似性の
    高い信号とマッチングさせ、該最も類似性の高い信号が
    該特徴ベクトル信号のパラメータを、上記メモリ・モジ
    ュールに格納された該非文脈依存ラベル・プロトタイプ
    ・ベクトルを表わす該信号のそれぞれのパラメータと比
    較することによって判定されて、該特徴ベクトル信号の
    それぞれに、非文脈依存ラベルを表わす該最も類似性の
    高い信号がラベル付けされる、ステップと、 (2)上記ラベル付けされた非文脈依存特徴ベクトル信
    号のそれぞれを、上記トレーニング・テキストからの対
    応する単音に結び付けるステップと、 (3)結び付けられた上記特徴ベクトル信号のそれぞれ
    に、上記対応する単音に関連づけられた音声文脈をタグ
    付けするステップと、 (4)与えられたタグ付き特徴ベクトル信号と同じ音声
    文脈を有する文脈依存ラベル・プロトタイプ・ベクトル
    を表わす信号を識別するステップと、 (5)ステップ(4)で識別された文脈依存ラベル・プ
    ロトタイプ・ベクトル信号のそれぞれが与えられた場合
    に特徴ベクトル信号を得るスコアを判定するステップ
    と、 (6)ステップ(5)で判定された上記特徴ベクトル信
    号のスコアを最大にする文脈依存ラベル・プロトタイプ
    ・ベクトル信号を識別するステップと、 (7)上記特徴ベクトル信号に関連づけられた文脈依存
    ラベルを、ステップ(6)で識別されたスコアが最大の
    上記文脈依存ラベル・プロトタイプ・ベクトル信号に関
    連づけられたラベルと置き換えて、該特徴ベクトル信号
    に文脈依存ラベルを付加するステップと、 (8)タグ付き特徴ベクトル信号のそれぞれについてス
    テップ(4)乃至(7)を繰返すステップとを含む、 ラベル生成方法。
  9. 【請求項9】上記ラベルの所望の収束レベルを得るため
    に、ステップ(2)乃至(8)を必要に応じて繰返すス
    テップ(9)を含む、請求項8記載の方法。
  10. 【請求項10】上記特徴ベクトル信号が一連の音声パラ
    メータ・ベクトルの形で受取られる、請求項8記載の方
    法。
  11. 【請求項11】隠れマルコフ・モデルを用いて上記特徴
    ベクトル信号をモデリングするステップがステップ
    (8)の直前に含まれる、請求項8記載の方法。
  12. 【請求項12】ステップ(2)がViterbi アライメント
    法を用い、コンピュータ・プロセッサにおいて上記特徴
    ベクトル信号と上記単音を結び付けるステップを含む、
    請求項8記載の方法。
  13. 【請求項13】ステップ(5)が、隠れマルコフ・モデ
    ルを用いて上記スコアを判定するステップを含む、請求
    項8記載の方法。
  14. 【請求項14】ステップ(5)に続いて、上記文脈依存
    ラベル・プロトタイプ・ベクトル信号を、ステップ
    (5)で判定されたスコアに従ってランク付けし、ラン
    クを上記メモリ・モジュールに格納するステップを含
    む、請求項8記載の方法。
JP6006869A 1993-02-08 1994-01-26 音声認識装置及びラベル生成方法 Expired - Fee Related JP2559998B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/014,966 US5455889A (en) 1993-02-08 1993-02-08 Labelling speech using context-dependent acoustic prototypes
US014966 1993-02-08

Publications (2)

Publication Number Publication Date
JPH06250688A true JPH06250688A (ja) 1994-09-09
JP2559998B2 JP2559998B2 (ja) 1996-12-04

Family

ID=21768820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6006869A Expired - Fee Related JP2559998B2 (ja) 1993-02-08 1994-01-26 音声認識装置及びラベル生成方法

Country Status (2)

Country Link
US (1) US5455889A (ja)
JP (1) JP2559998B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0789902A4 (en) * 1994-10-26 1998-12-02 Dictaphone Corp CLASSIFICATORS WITH A DECISION TREE STRUCTURE USING HIDDEN MARKOV MODELS
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
JP4067716B2 (ja) * 1999-09-13 2008-03-26 三菱電機株式会社 標準パターン作成装置と方法および記録媒体
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
US7181395B1 (en) * 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US7379867B2 (en) * 2003-06-03 2008-05-27 Microsoft Corporation Discriminative training of language models for text and speech classification
US7412377B2 (en) 2003-12-19 2008-08-12 International Business Machines Corporation Voice model for speech processing based on ordered average ranks of spectral features
US20050228663A1 (en) * 2004-03-31 2005-10-13 Robert Boman Media production system using time alignment to scripts
US8606578B2 (en) * 2009-06-25 2013-12-10 Intel Corporation Method and apparatus for improving memory locality for real-time speech recognition
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN106782536B (zh) * 2016-12-26 2020-02-28 北京云知声信息技术有限公司 一种语音唤醒方法及装置
EP3561806B1 (en) * 2018-04-23 2020-04-22 Spotify AB Activation trigger processing

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings

Also Published As

Publication number Publication date
JP2559998B2 (ja) 1996-12-04
US5455889A (en) 1995-10-03

Similar Documents

Publication Publication Date Title
JP2559998B2 (ja) 音声認識装置及びラベル生成方法
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
CN108305634B (zh) 解码方法、解码器及存储介质
US7062436B1 (en) Word-specific acoustic models in a speech recognition system
CN106782560B (zh) 确定目标识别文本的方法及装置
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US8606581B1 (en) Multi-pass speech recognition
US5953701A (en) Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
US7684988B2 (en) Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
CN1199148C (zh) 语音识别装置、语音识别方法
US6629073B1 (en) Speech recognition method and apparatus utilizing multi-unit models
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
EP1171871A1 (en) Recognition engines with complementary language models
WO2002091360A1 (en) Multi-stage large vocabulary speech recognition system and method
CN101785051A (zh) 语音识别装置和语音识别方法
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US20020040296A1 (en) Phoneme assigning method
CN115240655A (zh) 一种基于深度学习的中文语音识别系统及方法
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
US20050267755A1 (en) Arrangement for speech recognition
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees