JPH09127978A - 音声認識方法及び装置及びコンピュータ制御装置 - Google Patents

音声認識方法及び装置及びコンピュータ制御装置

Info

Publication number
JPH09127978A
JPH09127978A JP7285344A JP28534495A JPH09127978A JP H09127978 A JPH09127978 A JP H09127978A JP 7285344 A JP7285344 A JP 7285344A JP 28534495 A JP28534495 A JP 28534495A JP H09127978 A JPH09127978 A JP H09127978A
Authority
JP
Japan
Prior art keywords
state transition
unknown word
transition model
likelihood
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7285344A
Other languages
English (en)
Other versions
JP3459712B2 (ja
Inventor
Yasuhiro Komori
康弘 小森
Masaaki Yamada
雅章 山田
Yasunori Ohora
恭則 大洞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP28534495A priority Critical patent/JP3459712B2/ja
Priority to US08/739,013 priority patent/US6662159B2/en
Publication of JPH09127978A publication Critical patent/JPH09127978A/ja
Application granted granted Critical
Publication of JP3459712B2 publication Critical patent/JP3459712B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】未知語を検出することが可能な音声認識処理に
おいて、未知語用の探索空間や未知語用のメモリ量を減
らすことを可能とする。 【解決手段】HMM104には状態数と各状態間の遷移
確率とで設定される未知語用の状態遷移モデルが記述さ
れている。第2出力確率計算部105は既知語の音声認
識に用いる既知語用の状態遷移モデルに用いられる複数
の状態のうち、音声データの各時刻毎に最大尤度となる
状態を獲得する。そして、この結果を、HMM104に
記述された未知語用の状態遷移モデルに適用し、未知語
の状態遷移モデルを獲得する。第1出力確率計算部10
3は既知語について状態遷移モデルの尤度を求める。言
語探索部107は、文法・辞書106において未知語の
存在が許されている部分について、第1及び第2出力確
率計算部よりの尤度を用いて言語探索処理を実行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識方式およ
び装置に関するものである。
【0002】
【従来の技術】従来の想定外入力(以下、未知語と称す
る)に対する処理方法は、以下のように大きく2つの方
法が提案されている。即ち、(1)音素や音節などの連
鎖を文法として記述し、その文法にしたがってHMMの
ネットワークを形成し、そのネットワークを認識用の文
法に組み込み、認識時において出力確率にペナルティを
乗じ、未知語を検出する方法、及び(2)未知語として
扱いたい単語を前もって様々なデータにより学習し、Ga
rbage Modelを作成しておく方法が一般的であり、か
つ、有効な方法として知られている。
【0003】
【発明が解決しようとする課題】しかし、(1)の方法
では、あらゆる音声系列を未知語として吸収できる一方
で、未知語処理部分のViterbi計算量やViterbiメモリ量
もそれなりに必要となっていた。また、複数の認識候補
を出力するN−Bestの音声認識では、モデル連鎖に
より記述するこの方法では同じ未知語区間に対して、未
知語であるという情報しか得られないにも関わらず、音
素系列が異なる未知語候補を多く出力する可能性があ
り、結果としてN−Bestを出力しても意味がない結
果となる可能性があった。
【0004】一方、(2)の方法では、計算量やメモリ
がGarbage Modelの分だけ増加するにとどまり、また、
未知語区間に対しては、1つの未知語候補しか出力しな
いため、複数の認識候補を出力するN−Best音声認
識との相性はよい。しかしながら、未知語として扱いた
い単語を前もって、様々なデータにより学習する必要が
あり、さらに、学習に使われているデータに現われない
音声は吸収できないという問題がある。
【0005】いずれの方法においても、探索処理(trel
lisやViterbi search)とその探索空間(trellis)空間
やGarbage Modelのような特別な出力確率の計算とを必
要とすることが計算量やメモリの観点から問題となる。
【0006】本発明は上記の問題に鑑みてなされたもの
であり、予め入力されると想定した言語情報以外の言語
音声情報(未知語、不要語)が入力されても、その語を
未知語として検出することを可能とする音声認識処理に
おいて、未知語用の探索空間(例えばtrellis空間)や
未知語用のメモリ量を減らすことを可能とし、コンパク
トで高性能な未知語処理機能付きの音声認識を実現する
音声認識方法および装置を提供することを目的とする。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めの本発明の音声認識装置は以下の構成を備えている。
即ち、音声データの認識を行う音声認識装置であって、
状態数と各状態間の遷移確率とで示された未知語用の状
態遷移モデルと、既知語の音声認識に用いる既知語用の
状態遷移モデルに用いられる複数の状態のうち、音声デ
ータの各時刻毎に最大尤度の状態を獲得する獲得手段
と、前記獲得手段で獲得された状態を前記未知語用の状
態遷移モデルに適用して得られる状態遷移モデルの前記
音声データに対する尤度を獲得し、これを未知語の状態
遷移モデル及び尤度として出力する出力手段と、前記既
知語用の状態遷移モデルを用いて得られた尤度と前記未
知語の尤度とに基づいて前記音声データの認識を行う認
識手段とを備える。
【0008】また、好ましくは、前記未知語用の状態遷
移モデルは、left-to-right及びself-loopの状態遷移で
記述される。単純な状態遷移モデルを適用するので、よ
り処理速度を向上し、より必要メモリを低減することが
できる。
【0009】また、好ましくは、前記未知語用の状態遷
移モデルにおいて、他の状態への遷移確率は全て等しい
値を有する。未知語処理用の状態遷移モデルの単純化が
達成される。
【0010】また、好ましくは、認識対象の言語的制約
を示すとともに、未知語の存在が可能な部分を示す辞書
を更に備え、前記認識手段は、前記辞書によって未知語
の存在が可能とされている部分においては前記状態遷移
モデル及び未知語の尤度を含めて言語探索処理を行う。
未知語の存在が許されている場所において未知語を含め
た言語探索処理が実行されるので、既知語の音声入力を
未知語であると誤認する可能性が低減される。また、不
要な言語探索を行わなくて済むので、処理効率が向上す
る。
【0011】また、好ましくは、前記未知語用の状態遷
移モデルにおける各状態間の遷移確率を格納したテーブ
ルを更に備える。
【0012】また、好ましくは、前記テーブルに格納さ
れた遷移確率は、同じ状態へ遷移した場合の遷移確率と
異なる状態へ遷移した場合の遷移確率が異なる。
【0013】また、好ましくは、前記テーブルに格納さ
れた遷移確率を学習によって変化させる学習手段を更に
備える。未知語用の状態遷移確率を学習できるので、よ
り正しく未知語を認識できるようになる。
【0014】
【発明の実施の形態】以下に添付の図面を参照して、本
発明の好適な実施形態を説明する。
【0015】図1は本実施形態における音声認識装置の
一構成例を表す図である。同図において、101は音声
入力部であり、音声を入力して電気的信号(音声信号)
に変換するためのマイクや、当該音声信号をデジタルデ
ータに変換するA/D変換器を備える。102は音声パ
ラメータを求める音響分析部、103は既知の単語につ
いて出力確率を計算する第1出力確率計算部、104は
音声認識用モデル(HMM)、105は未知語について
最大の出力確率を計算する第2出力確率計算部、106
は言語処理に用いる文法・辞書、107は言語処理を行
なう言語探索部、108は認識結果を出力する表示部で
ある。
【0016】以上の構成において、音響処理部102、
第1出力確率計算部103、HMM104、第2出力確
率計算部105、文法・辞書106、言語探索部107
の各構成は、不図示のCPUが不図示のメモリに格納さ
れた制御プログラムを実行することによって達成されて
もよい。
【0017】次に、以上のような構成を有する本実施形
態の音声認識装置の動作について説明する。図2は、本
実施形態における音声認識装置の処理内容を表わすブロ
ック図である。201は音声入力部であり、音声入力装
置101により入力音声のデジタル信号を得るととも
に、無音区間と音声区間とを切り分け、音声の切り出し
を行う。音声入力部201で切り出された音声は、音響
処理部102において、フレーム毎に音声パラメータに
分析される。続いて、出力確率計算部103において、
HMM104を用いて、出力確率の計算を行なう。ここ
で、HMM104には、音声認識用HMMと未知語処理
に用いるHMM(特に状態数と状態遷移と遷移確率)が
登録されている。出力確率計算部103では、音声認識
用HMMが用いられ、既知の単語に関する尤度(出力確
率)が決定される。
【0018】未知語処理用最大出力確率計算部105に
おいては、入力音声のフレーム毎にHMM104のうち
の未知語処理用のHMMを用いて、最大出力確率を与え
る状態とその値を求める。
【0019】文法・辞書106には、未知語が現われそ
うな部分にその情報を記述した言語情報が登録されてい
る。そして、言語探索部107では、これら言語情報
と、上記の第1出力確率計算部103及び第2出力確率
計算部105で求めた出力確率を用いて言語探索を行な
う。この結果、認識候補とその尤度が得られ、認識結果
208を出力する。なお、本実施形態では、この認識結
果208の出力は、表示部108上への表示出力であ
る。
【0020】さて、上述の第1出力確率計算部103で
は、既知の単語についてHMMを用いた一般的な出力確
率の計算であり、ここでは詳細な説明を省略する。
【0021】以下に、未知語処理用の最大出力確率を計
算する第2出力確率計算部105による処理について説
明する。第2出力確率計算部105では、フレーム毎に
未知語処理用のHMMの中で最大出力確率を与える状態
とその値を求める。ここで、1フレームとは、HMMで
処理する単位であり、例えば、10msのパラメータで
ある。図3及び図4は、本実施形態における未知語の出
力確率を求めるためのHMMのイメージを表す図であ
る。
【0022】本実施形態における未知語処理は非常に単
純に構成できる。基本的には、全てのHMMの最大出力
確率の状態を遷移するGarbage Model[以後、MOPS法
(Max Output Probability State Transition Model)
と称する]として構成される。以下に、本実施形態にお
ける未知語の認識手順を示す。
【0023】(1)先ず、MOPS用のGarbage Model
の状態数と遷移確率を決定する。例えば、状態数が10
状態の単純なleft-to-right,self-loopのみの遷移状態
とする。次に、状態遷移確率を適当に与える。例えば、
全遷移確率を0.5とする。また、状態出力確率に乗ず
るペナルティも適当に与える。本例では、例えば、ペナ
ルティは0.92とする。以上のようにして決定された
未知語用の状態遷移モデルの構造を図5に示す。
【0024】(2)次に、認識用文法の未知語処理を施
したい場所にGarbage Modelの記述を入れる。図6は、
本実施形態における未知語を扱う文法を示す図である。
図6に未知語処理を施したい場所は、モデルGBで示
す。
【0025】(3)認識用文法と認識用HMMも(Garb
age Modelも含む)を用いて、認識用のネットワークを
構築する。図7は、本実施形態における認識用ネットワ
ークの構築例を表す図である。図7で示されているパス
は、図6の如く設定された認識用文法によって形成され
るバスである。即ち、未知語「GB」が設定された部分
に、未知語のパスが形成されている。
【0026】(4)上記で形成された認識用のネットワ
ークと入力音声を用いてViterbi探索を行って認識処理
を進める。
【0027】(a)先ず、全音声認識HMMの状態の尤
度を計算する。図3に示すように、音素は一般に3つの
状態で形成される。例えば音素a(/a/)はa1,a
2,a3の3つの状態からなる。本実施形態では、この
音素毎の状態の遷移にはこだわらずに、各時刻tにおけ
る特徴O(t)に対して各状態の尤度(出力確率)を求
める。
【0028】(b)続いて、全音声認識HMMの状態の
最大尤度を求める。即ち、上記(a)で求めた各時刻に
おける各状態の尤度より、各時刻において最大の尤度を
有する状態を抽出する。
【0029】(c)(b)で抽出した各時刻の最大尤度
の状態を用いて、図5に示した未知語モデルを形成し、
各状態の尤度に遷移確率(本例では0.5)を乗じて当
該未知語モデルの出力確率を算出する。こうして得られ
た出力確率をGarbage Modelの全状態の出力確率とす
る。
【0030】(d)(c)で求めたGarbage Modelの全
状態の出力確率にペナルティ(本例では0.92)を乗
じて、未知語の出力確率を獲得する。
【0031】(e)(d)で求めたGarbage Modelの出
力確率と、既知の単語に対するHMMの出力確率とを用
いて、言語探索(例えばViterbi search)を進める。な
お、Garbage Modelの出力確率を用いた言語探索は、文
法・辞書106によって、未知語の存在(パス)が与え
られている部分について行われることになる。
【0032】以上説明したようにホン実施形態によれ
ば、上記のような簡単な手順により、MOPS法の未知
語処理を実現できる。
【0033】また、一般的には、HMMの尤度計算は対
数を用いて行われ、尤度は対数確率和で求められる。従
って、状態遷移確率に関して、以下のような値を設定す
ることが考えられる。
【0034】・経験的な方法では、例えば、状態が変わ
らない(同じ状態に遷移した)時はlog(0.95)
を、違う状態へ遷移した時はlog(0.05)を加え
る方法が考えられる。この場合の状態遷移確率テーブル
(正確には、確率ではない)は図8のようになる。
【0035】・また、全HMMの全状態を分解し、出力
確率を決める内部を固定したまま、全状態間が自由に遷
移できる様に初期値を与え、改めてHMMを学習した音
声データによりその状態遷移確率を学習する方法が考え
られる。この場合、例えば図4のようなモデルを構成
し、一般的な手法によって学習を行うことで、遷移確率
が学習されることになる。この学習の結果、図9のよう
な状態遷移確率のテーブル(例)が作成され、これらの
対数値を用いて尤度計算を行う。なお、学習には、HM
Mの通常の学習方法であるEM algorithmを用いること
ができる。このとき、出力確率に関わるパラメータを固
定する。
【0036】なお、上記実施形態では、音素を単位にし
たHMMを用いているが、いかなる単位であっても一切
問題がない。
【0037】また、上記実施形態では、図3に示される
ような3状態で1音素が構成されるような状態モデル中
の状態を図5に示されるように10個用いて未知語の状
態モデルを構成している。この結果、未知語は約3音素
以上で構成されることになり、これより少ない音素数の
音声は未知語として認識されない。もちろん、この状態
数は一例であって、他の状態数で未知語の状態モデルを
構成するようにしても良い。
【0038】上記装置の機能もしくは方法の機能によっ
て達成される本発明の目的は、上述の実施形態において
示した処理を不図示のCPUに実行させるプログラムを
記憶させた記憶媒体によっても達成できる。即ち、上記
装置に、その記憶媒体(例えばフロッピーディスク)を
装着し、その記憶媒体から読み出したプログラムをCP
Uによって実行することにより、記憶媒体自体が本発明
の新規な機能を達成するからである。このための、本発
明にかかるプログラムの構造的特徴は、図10に示す通
りである。
【0039】図10の(a)は、本プログラムによる処
理の手順を表す図である。同図において、501は状態
遷移モデルのデータであり、状態数と各状態間の遷移確
率とで設定される未知語用の状態遷移モデルと既知語用
の状態遷移モデルを記述したHMM104である。50
2は獲得処理であり、既知語の音声認識に用いる既知語
用の状態遷移モデルに用いられる複数の状態のうち、音
声データの各時刻において最大尤度の状態を獲得する。
これは、上述の第2出力確率計算部105における、未
知語の最大出力確率を求める処理である。
【0040】503は出力処理であり、獲得処理502
で獲得された状態を未知語用の状態遷移モデルに適用し
て得られる、当該状態遷移モデルの前記音声データに対
する尤度を獲得し、これを未知語の尤度として出力す
る。この結果、第2出力確率計算部105からは最大出
力確率を有する未知語の状態モデルが出力されることに
なる。
【0041】504は認識処理であり、既知語用の状態
遷移モデルを用いて得られた尤度と前記未知語の尤度と
に基づいて前記音声データの認識を行う。本処理は、第
1出力確率計算部103で得られた既知語の各状態遷移
モデルの尤度と、第2出力確率計算部105で得られた
未知語の状態遷移モデルの尤度とに基づいて言語探索を
行う言語探索部107の処理に相当する。
【0042】更に、記述処理505は、認識対象の言語
的制約を示す辞書(文法・辞書106)に、未知語の存
在が可能な部分を示す情報を図6のように記述する。そ
して、上記認識処理504は、文法・辞書106によっ
て未知語の存在が可能とされている部分において未知語
の尤度を含めた言語探索処理を行う。即ち、図6の如く
未知語の存在を示す(例えば、「$MICHIGO=G
B@地名」という記述)ことによって、図7のように、
言語探索部107の探索ネットワークに未知語のパスが
生成される。この探索ネットワークを用いて言語探索を
行うことで、未知語の処理が可能となる。
【0043】また、図10の(b)は、上記の各処理を
実現するためのプログラムモジュールの配置状態を表す
メモリマップである。即ち、状態性ン位モデル501
は、状態遷移も出るデータ501’より提供される。ま
た、獲得処理502、出力処理503、認識処理50
4、記述処理505のそれぞれは、獲得処理モジュール
502’、出力処理モジュール503’、認識処理モジ
ュール504’、記述処理モジュール505’によって
それぞれ実現される。
【0044】また、本発明は、複数の機器から構成され
るシステムに適用しても、1つの機器からなる装置に適
用してもよい。また、本発明はシステム或は装置にプロ
グラムを供給することによって達成される場合にも適用
できることは言うまでもない。この場合、本発明に係る
プログラムを格納した記憶媒体が、本発明を構成するこ
とになる。そして、該記憶媒体からそのプログラムをシ
ステム或は装置に読み出すことによって、そのシステム
或は装置が、予め定められた仕方で動作する。
【0045】
【発明の効果】以上のように本発明によれば、予め入力
されると想定した言語情報以外の言語音声情報(未知
語、不要語)が入力されても、その語を検出し、未知語
用の探索空間(例えばtrellis空間)と未知語用のメモ
リを減らすことが可能となる。この結果、コンパクトで
高性能な未知語処理機能付きの音声認識を実現できる。
【0046】
【図面の簡単な説明】
【図1】本実施形態における音声認識装置の一構成例を
表す図である。
【図2】本実施形態における音声認識装置の処理内容を
表わすブロック図である。
【図3】本実施形態における未知語の出力確率を求める
ためのHMMのイメージを表す図である。
【図4】本実施形態における未知語の出力確率を求める
ためのHMMのイメージを表す図である。
【図5】未知語用の状態遷移モデルの構造を示す図であ
る。
【図6】本実施形態における未知語を扱う文法を示す図
である。
【図7】本実施形態における認識用ネットワークの構築
例を表す図である。
【図8】本実施形態における状態遷移確率テーブルのデ
ータ構成例を表す図である。
【図9】本実施形態における状態遷移確率テーブルのデ
ータ構成例を表す図である。
【図10】本実施の形態の制御を実現するための制御プ
ログラムを格納した記憶媒体の構成を説明する図であ
る。
【符号の説明】
101 音声入力装置 102 音響処理部 103 第1出力確率計算部 104 HMM 105 第2出力確率計算部 106 文法・辞書 107 言語探索

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 音声データの認識を行う音声認識装置で
    あって、 状態数と各状態間の遷移確率とで示された未知語用の状
    態遷移モデルと、 既知語の音声認識に用いる既知語用の状態遷移モデルに
    用いられる複数の状態のうち、音声データの各時刻毎に
    最大尤度の状態を獲得する獲得手段と、 前記獲得手段で獲得された状態を前記未知語用の状態遷
    移モデルに適用して得られる状態遷移モデルの前記音声
    データに対する尤度を獲得し、これを未知語の状態遷移
    モデル及び尤度として出力する出力手段と、 前記既知語用の状態遷移モデルを用いて得られた尤度と
    前記未知語の状態遷移モデル及び尤度に基づいて前記音
    声データの認識を行う認識手段とを備えることを特徴と
    する音声認識装置。
  2. 【請求項2】 前記未知語用の状態遷移モデルは、left
    -to-right及びself-loopの状態遷移で記述されることを
    特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 前記未知語用の状態遷移モデルにおい
    て、他の状態への遷移確率は全て等しい値を有すること
    を特徴とする請求項1に記載の音声認識装置。
  4. 【請求項4】 認識対象の言語的制約を示すとともに、
    未知語の存在が可能な部分を示す辞書を更に備え、 前記認識手段は、前記辞書によって未知語の存在が可能
    とされている部分においては前記未知語の状態遷移モデ
    ル及び尤度を含めて言語探索処理を行うことを特徴とす
    る請求項1に記載の音声認識装置。
  5. 【請求項5】 前記未知語用の状態遷移モデルにおける
    各状態間の遷移確率を格納したテーブルを更に備えるこ
    とを特徴とする請求項1に記載の音声認識装置。
  6. 【請求項6】 前記テーブルに格納された遷移確率は、
    同じ状態へ遷移した場合の遷移確率と異なる状態へ遷移
    した場合の遷移確率が異なることを特徴とする請求項5
    に記載の音声認識装置。
  7. 【請求項7】 前記テーブルに格納された遷移確率を学
    習によって変化させる学習手段を更に備えることを特徴
    とする請求項5に記載の音声認識装置。
  8. 【請求項8】 音声データの認識を行う音声認識方法で
    あって、 状態数と各状態間の遷移確率とで未知語用の状態遷移モ
    デルを記述する記述工程と、 既知語の音声認識に用いる既知語用の状態遷移モデルに
    用いられる複数の状態のうち、音声データの各時刻毎に
    最大尤度の状態を獲得する獲得工程と、 前記獲得工程で獲得された状態を前記未知語用の状態遷
    移モデルに適用して得られる状態遷移モデルの前記音声
    データに対する尤度を獲得し、これを未知語の状態遷移
    モデル及び尤度として出力する出力工程と、 前記既知語用の状態遷移モデルを用いて得られた尤度と
    前記未知語の状態遷移モデル及び尤度とに基づいて前記
    音声データの認識を行う認識工程とを備えることを特徴
    とする音声認識方法。
  9. 【請求項9】 前記未知語用の状態遷移モデルは、left
    -to-right及びself-loopの状態遷移で記述されることを
    特徴とする請求項8に記載の音声認識方法。
  10. 【請求項10】 前記未知語用の状態遷移モデルにおい
    て、他の状態への遷移確率は全て等しい値を有すること
    を特徴とする請求項8に記載の音声認識方法。
  11. 【請求項11】 認識対象の言語的制約を示す辞書に、
    未知語の存在が可能な部分を示す情報を記述する工程を
    更に備え、 前記認識工程は、前記辞書によって未知語の存在が可能
    とされている部分において前記未知語の状態遷移モデル
    及び尤度を含めて言語探索処理を行うことを特徴とする
    請求項8に記載の音声認識方法。
  12. 【請求項12】 前記未知語用の状態遷移モデルにおけ
    る各状態間の遷移確率を格納したテーブルを更に備える
    ことを特徴とする請求項8に記載の音声認識方法。
  13. 【請求項13】 前記テーブルに格納された遷移確率
    は、同じ状態へ遷移した場合の遷移確率と異なる状態へ
    遷移した場合の遷移確率が異なることを特徴とする請求
    項12に記載の音声認識方法。
  14. 【請求項14】 前記テーブルに格納された遷移確率を
    学習によって変化させる学習工程を更に備えることを特
    徴とする請求項12に記載の音声認識方法。
  15. 【請求項15】 メモリ媒体から所定のプログラムを読
    みこんで音声認識処理を行うコンピュータ制御装置であ
    って、前記メモリ媒体は、 状態数と各状態間の遷移確率とで設定される未知語用の
    状態遷移モデルと既知語用の状態遷移モデルを記述した
    状態遷移モデルと、 既知語の音声認識に用いる既知語用の状態遷移モデルに
    用いられる複数の状態のうち、音声データの各時刻毎に
    最大尤度の状態を獲得する獲得工程の手順コードと、 前記獲得工程で獲得された状態を前記未知語用の状態遷
    移モデルに適用して得られる状態遷移モデルの前記音声
    データに対する尤度を獲得し、これを未知語の尤度とし
    て出力する出力工程の手順コードと、 前記既知語用の状態遷移モデルを用いて得られた尤度と
    前記未知語の尤度とに基づいて前記音声データの認識を
    行う認識工程の手順コードとを備えることを特徴とする
    コンピュータ制御装置。
  16. 【請求項16】 認識対象の言語的制約を示す辞書に、
    未知語の存在が可能な部分を示す情報を記述する工程の
    手順コードを更に備え、 前記認識工程は、前記辞書によって未知語の存在が可能
    とされている部分において前記未知語の尤度を含めて言
    語探索処理を行うことを特徴とする請求項15に記載の
    コンピュータ制御装置。
JP28534495A 1995-11-01 1995-11-01 音声認識方法及び装置及びコンピュータ制御装置 Expired - Fee Related JP3459712B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP28534495A JP3459712B2 (ja) 1995-11-01 1995-11-01 音声認識方法及び装置及びコンピュータ制御装置
US08/739,013 US6662159B2 (en) 1995-11-01 1996-10-28 Recognizing speech data using a state transition model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28534495A JP3459712B2 (ja) 1995-11-01 1995-11-01 音声認識方法及び装置及びコンピュータ制御装置

Publications (2)

Publication Number Publication Date
JPH09127978A true JPH09127978A (ja) 1997-05-16
JP3459712B2 JP3459712B2 (ja) 2003-10-27

Family

ID=17690345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28534495A Expired - Fee Related JP3459712B2 (ja) 1995-11-01 1995-11-01 音声認識方法及び装置及びコンピュータ制御装置

Country Status (2)

Country Link
US (1) US6662159B2 (ja)
JP (1) JP3459712B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040051349A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성인식 방법
CN106653022A (zh) * 2016-12-29 2017-05-10 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209184B1 (en) * 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
JP3902860B2 (ja) * 1998-03-09 2007-04-11 キヤノン株式会社 音声合成制御装置及びその制御方法、コンピュータ可読メモリ
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
US20030105632A1 (en) * 2000-05-23 2003-06-05 Huitouze Serge Le Syntactic and semantic analysis of voice commands
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
EP1215659A1 (en) * 2000-12-14 2002-06-19 Nokia Corporation Locally distibuted speech recognition system and method of its operation
US20040024599A1 (en) * 2002-07-31 2004-02-05 Intel Corporation Audio search conducted through statistical pattern matching
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
JP4280505B2 (ja) * 2003-01-20 2009-06-17 キヤノン株式会社 情報処理装置及び情報処理方法
US7421418B2 (en) * 2003-02-19 2008-09-02 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH02239292A (ja) 1989-03-13 1990-09-21 Canon Inc 音声合成装置
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
EP0427485B1 (en) 1989-11-06 1996-08-14 Canon Kabushiki Kaisha Speech synthesis apparatus and method
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
JP2808906B2 (ja) 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
JP2886118B2 (ja) 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 隠れマルコフモデルの学習装置及び音声認識装置
JP2886117B2 (ja) 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040051349A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성인식 방법
CN106653022A (zh) * 2016-12-29 2017-05-10 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置

Also Published As

Publication number Publication date
US20010012994A1 (en) 2001-08-09
US6662159B2 (en) 2003-12-09
JP3459712B2 (ja) 2003-10-27

Similar Documents

Publication Publication Date Title
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
US11664020B2 (en) Speech recognition method and apparatus
Walker et al. Sphinx-4: A flexible open source framework for speech recognition
US5865626A (en) Multi-dialect speech recognition method and apparatus
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US6801892B2 (en) Method and system for the reduction of processing time in a speech recognition system using the hidden markov model
EP0664535A2 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JPH0422276B2 (ja)
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP4729902B2 (ja) 音声対話システム
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2002215187A (ja) 音声認識方法及びその装置
JP3634863B2 (ja) 音声認識システム
US20040006469A1 (en) Apparatus and method for updating lexicon
TWI731921B (zh) 語音識別方法及裝置
JP4962962B2 (ja) 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
US8260614B1 (en) Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
CN112397053A (zh) 语音识别方法、装置、电子设备及可读存储介质
KR20200117826A (ko) 음성 인식 방법 및 장치
JP2880436B2 (ja) 音声認識装置
JP2003271180A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2001100789A (ja) 連続音声認識装置の音素認識性能測定装置
KR100340688B1 (ko) 음성인식을 위한 최적의 변이음 개수 추출 방법

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070808

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080808

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080808

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090808

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090808

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100808

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110808

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120808

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120808

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130808

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees