JP2002229587A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2002229587A
JP2002229587A JP2001380622A JP2001380622A JP2002229587A JP 2002229587 A JP2002229587 A JP 2002229587A JP 2001380622 A JP2001380622 A JP 2001380622A JP 2001380622 A JP2001380622 A JP 2001380622A JP 2002229587 A JP2002229587 A JP 2002229587A
Authority
JP
Japan
Prior art keywords
model
speech recognition
recognition method
keyword
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001380622A
Other languages
English (en)
Inventor
Daniela Raddino
ダニエーラ ラッディノ
Ralf Kompe
ラルフ コンペ
Thomas Kemp
トーマス ケムプ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of JP2002229587A publication Critical patent/JP2002229587A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ペナルティに基づいたキーワードスポッテ
ィング処理を用いて、正確且つ柔軟性のある音声認識方
法を提供する。 【解決手段】 キーワードモデル(KM)とガーベージ
モデル(GM)の組合わせに基づくキーワードスポッテ
ィング処理を用いた音声認識方法の正確性と柔軟性を高
めるために、少なくとも1つの可変ペナルティ値(Pt
rans、P1、...P6)をグローバルペナルティ
(Pglob)と関連付け、キーワード(Kj)の認識
を向上させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、請求項1の前提部
分に示すように、音声を認識する音声認識方法に関し、
特に、ペナルティ(penalty)に基づいて特定のキーワ
ード(keyword)を抽出(spotting)するキーワードス
ポッティング(keyword spotting)処理を用いた音声認
識方法に関する。
【0002】
【従来の技術】多くの場合、音声認識方法は、事前に定
義された言語モデル又は文法内で、与えられたボキャブ
ラリの1部ではない音声フレーズ(speech phrases)又
は連続音声(word sequences)に対して処理を行う。音
声認識方法において、例えば、アウトオブボキャブラリ
ワード(out-of-vocabulary words)はガーベージ音声
(garbage speech)と呼ばれ、対照的に、インボキャブ
ラリワード(in-vocabulary words)はキーワード(key
word)と呼ばれる。
【0003】従来の音声認識方法では、特に、キーワー
ドスポッティングに基づいた音声認識処理及び与えられ
た言語モデルを用いることによって、対象となる音声フ
レーズ内の少なくともキーワードが認識される。アウト
オブボキャブラリワードすなわちガーベージモデル(ga
rbage model)と同様にキーワードを考慮するために、
少なくとも1つの第1言語すなわちキーワードモデル
と、1つの第2言語と、1つのアウトオブボキャブラリ
モデルすなわちガーベージモデルとの組合わせが認識処
理の基礎となる言語モデル内で用いられる。キーワード
モデルは、認識可能なインボキャブラリすなわちキーワ
ードすなわち音声フレーズを含有及び/又は表現する。
アウトオブボキャブラリすなわちガーベージモデルは、
アウトオブボキャブラリワード又は音声フレーズの少な
くとも1部を表す。
【0004】
【発明が解決しようとする課題】上述したような言語モ
デルを用いた従来の音声認識方法では、アウトオブボキ
ャブラリすなわちガーベージモデル及び関連する文法
は、キーワードモデルよりも頻繁に適合してしまう。こ
のため、従来の音声認識方法では、キーワードモデルの
ボキャブラリにないと分類される音声フレーズの数が増
えるにしたがって、誤って拒否されてしまうキーワード
の数も増えてしまう。
【0005】そこで、キーワードの認識及び出力を向
上、増加させるために、ガーベージモデルすなわちアウ
トオブボキャブラリモデルにペナルティを導入する方法
が提案されてきた。ペナルティは、アウトオブボキャブ
ラリすなわちガーベージモデルに含まれているグローバ
ルスコア(global score)又は、与えられたフレーズ又
は発生音の尤度(liklihood)の計算に用いられる。こ
のように変更又はペナルティを課されたガーベージモデ
ルのグローバルスコアは、キーワード又はキーワードモ
デルの各グローバルスコア又は尤度と比較される。ペナ
ルティが減少するにしたがって、ガーベージモデルのグ
ローバルスコア又は尤度、キーワードの認識及び出力が
増加する。
【0006】多くのアプリケーションにおいて、上述し
たようなワードスポッティング処理は、例えばアプリケ
ーションの状態、ユーザの嗜好、入力された音声の詳
細、認識処理を考慮しないため厳密過ぎてしまう。
【0007】したがって、本発明の目的は、特に、正確
且つ柔軟性のある音声認識方法を提供することである。
【0008】
【課題を解決するための手段】本発明の目的は、請求項
1に示す音声認識方法により達成され、請求項1に示す
ような特徴を有する。従属請求項の主旨は、本発明に係
る音声認識方法の好ましい有益な実施例を達成するため
のものである。
【0009】本発明に係る音声認識方法は、グローバル
ペナルティ(global penalty)を定義するために、少な
くとも1つの可変ペナルティ値が関連付けられ及び/又
は使用されることを特徴とする。したがって、本発明に
係る音声認識方法の基本概念は、キーワード出力を増加
させるために、言語モデル、特にガーベージモデル内に
導入されたペナルティを可変すなわち変更可能にするこ
とである。これによって、グローバルペナルティを調整
することによって、例えば認識処理自体の内部特性と同
様に、認識状態、ユーザ嗜好を考慮すること可能にな
る。したがって、本発明に係る音声認識方法は、従来の
音声認識方法と比べてより柔軟且つ正確である。
【0010】グローバルペナルティは、1つの可変ペナ
ルティ値、又は固定及び/又は可変ペナルティ値のセッ
トを導入することで可変にすることができる。固定ペナ
ルティ値のセットを用いて、例えば、認識処理自体、ユ
ーザ嗜好及び/又はその他同様のものに依存する固定ペ
ナルティ値の異なる組合わせを作ることによって、グロ
ーバルペナルティを可変にすることができる。
【0011】本発明に係る音声認識方法の可変性を高め
るために、可変ペナルティ値は、各処理において、認識
処理、ユーザ入力、供給された音声フレーズ及び/又は
それらの特性等に依存、すなわち関数となっている。し
たがって、可変ペナルティ値は、実時間で、認識処理及
びアプリケーション状態において実際に必要であると考
える。これらの処理によって、音声認識方法の柔軟性と
正確性がさらに増加する。
【0012】
【発明の実施の形態】少なくとも1つの統計モデルを用
いて行う音声認識方法の好ましい有効な実施例として、
ガーベージモデル等がアウトオブボキャブラリモデルと
して用いられる音声認識方法がある。
【0013】さらに、このアウトオフボキャブラリモデ
ル、特にガーベージモデルは、少なくとも音声文法(ph
one grammar)等を含むものとして好んで用いられる。
音声文法を用いると、一連の単音、音素、音節等から構
成されるあらゆる発生音(utterance)は、少なくとも
ガーベージモデル内で、キーワードモデルを除いて、確
実に適合する。したがって、この方法によれば、あらゆ
る発生音に対し、発生音がキーワードモデル内に含まれ
ていることによって認識されるか、あるいは、発生音が
ガーベージモデルに含まれていることによって拒否され
るかのどちらかになる。このように、発生音は、認識さ
れるか拒否されるかであって、これ以外の第3の可能性
はない。
【0014】本発明に係る音声認識方法では、可変ペナ
ルティ値(variable penalty value)を、特に、キーワ
ードモデルから、認識処理の遷移(transition)ととも
に可変ペナルティ値をアウトオフボキャブラリモデル
に、及びアウトオフボキャブラリモデルの中に対応付け
ることによって達成することができる。この方法は、ガ
ーベージワードに関連した認識及びキーワードの出力を
増加させることのできる非常に単純な方法である。
【0015】ある実施例では、特に、各処理において、
可変ペナルティは、アウトオブボキャブラリモデルすな
わちガーベージモデル内で実行される認識処理の認識ス
テップ及び/又はアウトオブボキャブラリモデルすなわ
ちガーベージモデル内での認識処理に要した認識処理時
間に関連している。すなわち、認識処理がガーベージモ
デル内で要する時間又はステップ数に従って、ガーベー
ジモデル内での認識結果の尤度に大きなペナルティが課
される。これにより、キーワードモデルからの任意の認
識結果がガーベージモデル内のある結果に打ち負かされ
た場合のみに拒否される。一方、ある可能性がキーワー
ド及びインボキャブラリワードに与えられた場合には、
キーワードが出力される。
【0016】本発明に係る音声認識方法では、認識経路
の格子構造等がキーワードモデル及び/又はアウトオブ
ボキャブラリすなわちガーベージモデルで用いられる。
この実施例によれば、格子内の各経路は、可能性のある
キーワード又はガーベージワードにそれぞれ関連してい
る。この方法によれば、ガーベージモデルへのある経路
に入る度に別個のペナルティが課され、ガーベージモデ
ルへ、及びガーベージモデルの中への経路の尤度が減少
し、これによって、あるガーベージワードの尤度が減少
する。アウトオブボキャブラリモデルの格子構造の認識
経路の少なくとも1部分を、特にアウトオブボキャブラ
リモデルすなわちガーベージモデルの統計情報内の可変
ペナルティ値に関連付けることが好ましい。
【0017】本発明に係る音声認識方法のさらに好まし
い実施例では、マルコフモデル(Markov model)、特に
単一状態のマルコフモデルがアウトオブボキャブラリす
なわちガーベージモデルに少なくとも含まれている。こ
のような特別な場合には、可変ペナルティ値は、マルコ
フモデル内での認識処理の自己遷移(self-transition
s)と関連付けられている。
【0018】本発明に係る音声認識方法の柔軟性をさら
に高めるために、可変ペナルティ値は、特定のアプリケ
ーション、アプリケーション状態及び/又はユーザ嗜好
等に依存するようになされている。また、可変ペナルテ
ィ値は、特にユーザインターフェースを介したユーザの
操作によって、相互に変更することが好ましい。
【0019】あるいは、本発明に係る音声認識方法の柔
軟性と順応性は、可変ペナルティ値が特に言語モデルの
モデル統計情報内にランダムアクセス可能な方法で保有
及び/又は格納されるときに高めることができる。
【0020】本発明の方法は、キーワードモデル及び可
変ペナルティが課されているアウトオブボキャブラリモ
デル、特に、ガーベージモデルでの認識結果に対する尤
度、グローバルスコア等を決定することによって、ま
た、キーワードモデルの尤度がアウトオブボキャブラリ
モデルの尤度よりも大きいときの認識結果を受け入れる
ことによって、有効に実現することができる。これ以外
のときは、認識結果は拒否される。
【0021】本発明に係る音声認識方法の主要な特徴の
要約を以下に示す。
【0022】従来の音声認識方法は、自由形式の語彙文
章内でキーワードをスポット(spot)すなわち抽出する
ことを目的としたワードスポッティングシステムを適用
したものである。キーワードは、アプリケーションボキ
ャブラリの単語であってよい。それ以外の単語は、全て
アウトオブボキャブラリワードすなわちガーベージと呼
ばれる。ガーベージモデルなどと呼ばれる統計モデル
は、これら全てのアウトオブボキャブラリワードと一致
するように操作される。
【0023】キーワードモデル及びガーベージモデル
は、ワードスポッティングシステムにおいて競合しあ
う。キーワードモデル及びガーベージモデルのそれぞれ
2つの尤度が比較され、尤度が低い方が拒否される。
【0024】キーワードの出力を増加、向上させるため
に、ペナルティが用いられる。本発明の新規な発明性の
ある特徴は、このペナルティを決定、表現及び/又は操
作する方法にあり、キーワードスポッティングシステム
をより正確且つ柔軟性のあるものにすることである。し
たがって、本発明に係る音声認識方法の主な特徴は、ペ
ナルティすなわちペナルティ値を可変にすることによっ
て、認識処理、アプリケーション状況、ユーザ嗜好等の
さらなる特徴を考慮できるようにすることである。した
がって、認識処理は、基本アルゴリズム又は処理を変更
することなく適用される。
【0025】ワードスポッティングシステムでは、キー
ワードの尤度がガーベージモデルのガーベージワードの
尤度と比較される。ペナルティを追加することで、ガー
ベージモデルのガーベージワードの尤度が減り、キーワ
ードモデルに含まれるキーワードの出力が増加される。
従来の多くの音声認識方法の場合、ペナルティ値は、キ
ーワードモデルからガーベージモデルへの遷移中のみに
追加される。特に、格子構造を、それぞれが可能なキー
ワード又はガーベージワードを表す異なる経路で仮定し
た場合、従来、システムがガーベージモデルへの経路を
辿る度に固定されたペナルティが追加され、キーワード
モデルからガーベージモデルへの経路の尤度が減少す
る。
【0026】従来のワードスポッタでは、ペナルティ
は、ガーベージモデルへの最初の遷移のときにおいての
み固定及び追加される。このため、このシステムは、い
わゆる自己遷移中に、累積したグローバルスコアにさら
にペナルティを追加されることなく、長期間ガーベージ
モデル内にあることが可能になる。
【0027】反対に、本発明に係る音声認識方法におい
ては、例えばガーベージモデル内にある認識処理又はこ
れに関連するガーベージモデル内の認識ステップに要す
る時間に従ってペナルティが可変にされると、ガーベー
ジモデルを除去し、キーワードモデル内の可能性のある
キーワードを一致させるために尤度をさらに高めること
ができる。
【0028】さらに、従来の音声認識方法及び従来のワ
ードスポッティングシステムでは、この方法及びシステ
ムの設計者がペナルティを固定する。一般に、ペナルテ
ィの値は、ペナルティが高い場合に対応し誤って受け取
られたキーワードの数と、ペナルティが低い場合に対応
し誤って拒否されたキーワードの数の妥協値を示す。
【0029】これに対し、本発明によれば、ペナルティ
は、実際にアプリケーション及び/又はユーザ嗜好に依
存する。例えば、エンターテイメントロボットを用いた
従来の対話システム(dialogue system)では、誤った
キーワード検出の結果、ロボットは、特に動作状態にお
いて、奇妙且つ特異な動きをしてしまう。一方、ユーザ
は、ロボットのこのような特異な動作には満足すること
はなく、特に動作状態において、ロボットに命令通りに
動いてほしいと思う。本発明では、アプリケーション状
況及び/又はユーザ嗜好に関するこれらの状況は変更で
きるものであると考え、ユーザの目的及び/又はアプリ
ケーション状況の必要性に従って、ガーベージモデル内
のペナルティ及びペナルティ値を変更してペナルティ及
びペナルティ値を調整して適応させる。
【0030】さらに、従来のワードスポッティングシス
テムは、一般にエンドユーザがアクセス不可能な基本ソ
ースコード内に、固定された方法で定義されたペナルテ
ィ値を備えている。また、本発明によれば、本発明の音
声認識方法の柔軟性をさらに高め、より新規且つ可能性
のあるアプリケーションを達成するために、ユーザは、
ユーザインターフェースを介してペナルティを変更した
り変化させたりすることができる。したがって、ペナル
ティにアクセスし、例えばハードディスク等のアクセス
メモリ内にモデル統計情報と共に保存することが容易に
行える。その結果、ソースコードを変更することなく既
存の音声認識ソフトウェアを用いることが可能になる。
【0031】さらに、本発明の特徴は、ガーベージすな
わちアウトオフボキャブラリモデル内に残っている認識
処理の各ステップ又はフレームについて、あるペナルテ
ィ又はペナルティ値をグローバルペナルティ変数を作成
するグローバルスコアに追加することができることであ
る。キーワード及びガーベージモデルに対する格子構造
を考慮すると、ガーベージモデル内により長く滞在する
経路にさらなるペナルティが課され、一方、内部にキー
ワードを備えた経路は、より可能性があるので出力され
る。したがって、本発明によれば、ペナルティは、アウ
トオブボキャブラリすなわちガーベージモデル内での認
識処理又はシステムによって費やされた時間に依存す
る。
【0032】図2は、従来の音声認識方法の具体的な構
成を示すブロック図である。図2に示すように、第1の
ステップ11において、音声フレーズSPが供給され
る。供給された音声フレーズSPは、認識ステップすな
わちステップ12に送られる。例えばキーワードモデル
KM及びガーベージモデルGMもしくは基本の言語モデ
ルLMのアウトオブボキャブラリOOVMの格子構造に
基づいて、異なる経路をチェックし、少なくとも上述し
た可能性のあるキーワードK1乃至K3の1つ又はガー
ベージワードG0乃至G6の1つが供給された音声フレ
ーズSPと最適に適合するかどうかを調べる。
【0033】ガーベージモデルGMのペナルティを課さ
れた尤度LGMを計算するために、ある事前定義された
関数fが、遷移ステップT及びそれぞれの固定定義され
た遷移ペナルティPtransを介して、ガーベージモ
デル尤度LGM'上及び言語モデルLM、特にガーベー
ジモデルGM内に挿入された固定グローバルペナルティ
Pglob上で評価される。すなわち、Pglob:=
Ptransとなる。
【0034】比較ステップ13において、キーワードモ
デル尤度LKMがペナルティを課されたガーベージモデ
ル尤度LGMよりも大きいかどうかがチェックされる。
大きい場合には、認識された音声フレーズRSPが受け
入れられ、及び/又は一連の認識されたキーワードすな
わちキーフレーズ(Kj)としてステップ14で出力さ
れる。大きくない場合には、供給された音声フレーズS
Pは、ステップ15で拒否される。
【0035】図1は、本発明に係る音声認識方法の具体
的な構成を示すブロック図である。図2に示した従来の
音声認識方法とは対照的に、図1に示す音声認識方法で
は、可変グローバルペナルティPglobを用いてい
る。図1の実施例では、このグローバルペナルティPg
lobは、実際にステップ及び/又は時間に依存するペ
ナルティP1乃至P6の機能的な組合わせの可変性に応
じて可変にされる。さらに、遷移ステップTを介したキ
ーワードモデルKMからガーベージモデルGMへの遷移
のための遷移ペナルティPtransを含むこともで
き、この遷移ペナルティも可変であってよい。
【0036】6ペナルティP1乃至P6上の選択された
7つのガーベージワードG0乃至G6の数は1つの具体
例であり、本発明はこの具値例に限定されることはな
い。
【0037】
【発明の効果】キーワードスポッティング処理を適用し
た音声認識方法の正確性と柔軟性を高める。
【図面の簡単な説明】
【図1】本発明に係る音声認識方法の具体的な構成を示
すブロック図である。
【図2】従来の音声認識方法の具体的な構成を示すブロ
ック図である。
【符号の説明】
11 第1ステップ、12 認識ステップ、13 比較
ステップ、14 出力ステップ、15 拒否ステップ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ラッディノ ダニエーラ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスト テクノロジー センター シュト ゥットゥガルト内 (72)発明者 コンペ ラルフ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスト テクノロジー センター シュト ゥットゥガルト内 (72)発明者 ケムプ トーマス ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスト テクノロジー センター シュト ゥットゥガルト内 Fターム(参考) 5D015 HH00

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 音声認識方法において、 供給された音声フレーズ(SP)内の少なくともキーワ
    ード(Kj)がキーワードスポッティングに基づいた認
    識処理(12)及び与えられた言語モデル(LM)を用
    いて認識され、 認識可能なインボキャブラリすなわちキーワードすなわ
    ちフレーズ(Kj)を含有及び/又は表現する少なくと
    も1つの第1言語すなわちキーワードモデル(KM)
    と、アウトオブボキャブラリワードすなわちフレーズ
    (Gj)を少なくとも部分的に表す第2言語すなわちア
    ウトオブボキャブラリモデル(OOVM)の組合わせが
    上記言語モデル(LM)として用いられ、 キーワード(kj)の認識を増加させるため、グローバ
    ルペナルティ(Pglob)が上記言語モデル(LM)
    と関連付けられ及び/又は導入すなわち挿入され、 少なくとも1つの可変ペナルティ値(Ptrans、P
    1、...P6)が関連付けられ及び/又は使用され、
    上記グローバルペナルティ(Pglob)を定義する、 ことを特徴とする音声認識方法。
  2. 【請求項2】 上記可変ペナルティ値(Ptrans、
    P1、...P6)は、各処理において、認識処理、ユ
    ーザ入力、供給された音声フレーズ(SP)自体及び/
    又は等の特性等に依存、すなわち関数となされてること
    を特徴とする請求項1に記載の音声認識方法。
  3. 【請求項3】 少なくとも1つの統計モデル、ガーベー
    ジモデル(GM)及び/又はその他同様のものが上記ア
    ウトオブボキャブラリ(OOVM)として用いられるこ
    とを特徴とする請求項1又は2のいずれか1項に記載の
    音声認識方法。
  4. 【請求項4】 少なくとも音声文法等を含有するため
    に、上記アウトオブボキャブラリ(OOVM)及び上記
    ガーベージモデル(GM)が選択されることを特徴とす
    る請求項1乃至3のいずれか1項に記載の音声認識方
    法。
  5. 【請求項5】 上記可変ペナルティ値(Ptrans、
    P1、...P6)は、認識処理(12)のキーワード
    モデル(KM)からアウトオブボキャブラリモデル(O
    OVM)への遷移(T)と関連付けられていることを特
    徴とする請求項1乃至4のいずれか1項に記載の音声認
    識方法。
  6. 【請求項6】 上記可変ペナルティ値(Ptrans、
    P1、...P6)は、各処理において、上記アウトオ
    ブボキャブラリモデル(OOVM)すなわちガーベージ
    モデル(GM)内の認識ステップ及び/又は上記認識処
    理(12)の認識又は処理時間と関連付けられているこ
    とを特徴とする請求項1乃至5のいずれか1項に記載の
    音声認識方法。
  7. 【請求項7】 上記キーワードモデル(KM)及び/又
    は上記アウトオブボキャブラリモデル(OOVM)すな
    わちガーベージモデル(GM)において、認識経路の格
    子構造等が用いられることを特徴とする請求項1乃至6
    のいずれか1項に記載の音声認識方法。
  8. 【請求項8】 上記アウトオブボキャブラリモデル(O
    OVM)内の上記認識経路の少なくとも1部は、上記ア
    ウトオブボキャブラリモデル(OOVM)すなわちガー
    ベージモデル(GM)の統計情報内の可変ペナルティ値
    (Ptrans、P1、...P6)と関連付けられて
    いることを特徴とする請求項1乃至7のいずれか1項に
    記載の音声認識方法。
  9. 【請求項9】 マルコフモデル又は単一状態のマルコフ
    レベルが少なくとも上記アウトオブボキャブラリモデル
    (OOVM)すなわちガーベージモデル(GM)内に含
    まれており、 可変ペナルティ値(P1、...P6)は、上記マルコ
    フモデル内の認識処理の自己遷移と関連付けられている
    ことを特徴とする請求項1乃至8のいずれか1項に記載
    の音声認識方法。
  10. 【請求項10】 可変ペナルティ値は、マルコフモデル
    内の全ての遷移と関連付けられていることを特徴とする
    請求項1乃至9のいずれか1項に記載の音声認識方法。
  11. 【請求項11】 上記可変ペナルティ値(Ptran
    s、P1、...P6)は、特定のアプリケーション、
    アプリケーション状態及び/又はユーザ嗜好に依存する
    ようになされていることを特徴とする請求項1乃至10
    のいずれか1項に記載の音声認識方法。
  12. 【請求項12】 上記可変ペナルティ値(Ptran
    s、P1、...P6)は、ユーザインターフェースを
    介したユーザの操作によって相互に変更されることを特
    徴とする請求項1乃至11のいずれか1項に記載の音声
    認識方法。
  13. 【請求項13】 上記可変ペナルティ値(Ptran
    s、P1、...P6)は、ランダムアクセス方法で、
    上記言語モデル(LM)のモデル統計情報内に保有及び
    格納されることを特徴とする請求項1乃至12のいずれ
    か1項に記載の音声認識方法。
  14. 【請求項14】 上記キーワードモデル(KM)及び上
    記アウトオブボキャブラリモデル(OOVM)すなわち
    上記ガーベージモデル(GM)における認識結果に対し
    尤度(LKM、LGM)、グローバルスコア等が決定さ
    れ、上記ガーベージモデル(GM)が可変的にペナルテ
    ィを課されており、 認識結果(RSP)は、上記アウトオブボキャブラリモ
    デル尤度(LGM)よりも大きい上記キーワードモデル
    尤度(LKM)と共に受け入れられるか、あるいは、ア
    ウトオブボキャブラリとして拒否されることを特徴とす
    る請求項1乃至13のいずれか1項に記載の音声認識方
    法。
JP2001380622A 2000-12-13 2001-12-13 音声認識方法 Withdrawn JP2002229587A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00127377.0 2000-12-13
EP00127377A EP1215654B1 (en) 2000-12-13 2000-12-13 Method for recognizing speech

Publications (1)

Publication Number Publication Date
JP2002229587A true JP2002229587A (ja) 2002-08-16

Family

ID=8170661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001380622A Withdrawn JP2002229587A (ja) 2000-12-13 2001-12-13 音声認識方法

Country Status (4)

Country Link
US (1) US6850885B2 (ja)
EP (1) EP1215654B1 (ja)
JP (1) JP2002229587A (ja)
DE (1) DE60028219T8 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040006470A1 (en) * 2002-07-03 2004-01-08 Pioneer Corporation Word-spotting apparatus, word-spotting method, and word-spotting program
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
EP1525577B1 (en) * 2002-08-01 2006-06-21 Telefonaktiebolaget LM Ericsson (publ) Method for automatic speech recognition
ES2291403T3 (es) * 2002-08-21 2008-03-01 Siemens Aktiengesellschaft Procedimiento para el reconocimiento de voz.
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
CN105096939B (zh) * 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105869629B (zh) * 2016-03-30 2018-03-20 乐视控股(北京)有限公司 语音识别方法及装置
CN108010515B (zh) * 2017-11-21 2020-06-30 清华大学 一种语音端点检测和唤醒方法及装置
CN109166571B (zh) * 2018-08-06 2020-11-24 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN114155835B (zh) * 2021-12-06 2022-07-08 哈尔滨工程大学 一种融合全局场景与局部事件信息的音频语意概述方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY119374A (en) * 1995-09-12 2005-05-31 Texas Instruments Inc Method and system for enrolling addresses in a speech recognition database
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6058363A (en) * 1997-01-02 2000-05-02 Texas Instruments Incorporated Method and system for speaker-independent recognition of user-defined phrases
CN1125433C (zh) * 1997-09-18 2003-10-22 西门子公司 在交谈语言中识别密钥字的方法
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体

Also Published As

Publication number Publication date
EP1215654A1 (en) 2002-06-19
EP1215654B1 (en) 2006-05-24
US6850885B2 (en) 2005-02-01
DE60028219T2 (de) 2007-03-08
US20020116193A1 (en) 2002-08-22
DE60028219T8 (de) 2007-06-14
DE60028219D1 (de) 2006-06-29

Similar Documents

Publication Publication Date Title
JP2002229587A (ja) 音声認識方法
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
EP2317507B1 (en) Corpus compilation for language model generation
US20040030552A1 (en) Sound processing apparatus
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
JP2007057844A (ja) 音声認識システムおよび音声処理システム
JP2001517815A (ja) 言語認識上の類似発声識別方法及び装置
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
KR100415217B1 (ko) 음성인식 장치
Schwartz et al. Multiple-pass search strategies
US8234112B2 (en) Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US6606594B1 (en) Word boundary acoustic units
Boite et al. A new approach towards keyword spotting.
rn Svendsen et al. Optimizing baseforms for HMM-based speech recognition
JPH04242800A (ja) 文法規則に基づいた照合値制約を用いた高性能音声認識方法並びに音声認識回路
JP2003208195A5 (ja)
US20060136209A1 (en) Methodology for generating enhanced demiphone acoustic models for speech recognition
JPH11184491A (ja) 音声認識装置
CN115762521A (zh) 一种关键词识别方法及相关装置
JP2871420B2 (ja) 音声対話システム
US8099280B2 (en) Speech recognition method and speech recognition apparatus
JP3042455B2 (ja) 連続音声認識方式
JP3104900B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050301