JP2002202797A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2002202797A
JP2002202797A JP2001352116A JP2001352116A JP2002202797A JP 2002202797 A JP2002202797 A JP 2002202797A JP 2001352116 A JP2001352116 A JP 2001352116A JP 2001352116 A JP2001352116 A JP 2001352116A JP 2002202797 A JP2002202797 A JP 2002202797A
Authority
JP
Japan
Prior art keywords
speech
utterance
speech recognition
recognition method
input speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2001352116A
Other languages
English (en)
Inventor
Krzysztof Marasek
クリシトフ マラッセク、
Thomas Kemp
トーマス ケムプ、
Silke Goronzy
シルケ ゴロンジー、
Ralf Kompe
ラルフ コンペ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of JP2002202797A publication Critical patent/JP2002202797A/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 大量の語彙が連続する音声認識における全体
の演算負荷を軽減する。 【解決手段】 入力音声全体に対する音声認識処理を行
い、入力音声全体を是認するか拒否するかを決定する粗
い評価を行い、入力音声全体が是認されたとき、入力音
声を精密に再分析し、その意味及び/又は意図を抽出
し、再分析に基づき、入力音声の意味を本質的に表現す
るキーワード及び/又はキーフレーズを入力音声から抽
出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大量語彙連続音声
認識(large vocabulary continuous speech recogniti
on:LVCSR)処理において信頼度測定値を使用する
音声認識方法に関する。
【0002】
【従来の技術】発声音又は音声フレーズを受け取った後
に音声認識を行う従来の多くの装置及び方法において
は、認識された発声音又は音声フレーズの信頼度に対す
る推定を行い、現在検証中の発声音又は音声フレーズ及
びその認識形式をさらなる処理に適応するか、拒否する
べきか、及び話者又はユーザにより新たに入力された発
声音又は音声フレーズと交換するべきか否か等を判定す
る。
【0003】
【発明が解決しようとする課題】このような従来の音声
認識法では、詳細且つ十分な分析を確実に行うために
は、全体の演算能力は、受け取られた発声音の全体に亘
って分散してしまう。入力された音声を全体に亘って十
分に分析しなくてはならない場合、携帯型の電子機器等
の小さな機器又は装置は、連続する音声を認識し、認識
した音声フレーズの信頼度を推定するための十分な性能
を有しておらず、したがって、このような小さな機器又
は装置には、上述のような機能を実装することができな
い。
【0004】そこで、本発明は上述の課題に鑑みてなさ
れたものであり、本発明の目的は、小型の対話型装置に
容易に実装でき、大量の語彙が連続する音声認識を行う
とともに、認識精度に対する確実で信頼性の高い推定を
行うことができる音声認識方法を提供することを目的と
する。
【0005】
【課題を解決するための手段】上述の目的を達成するた
めに、本発明に係る音声認識方法は、入力音声全体に対
する音声認識処理を行うステップと、入力音声全体を是
認するか拒否するかを決定する粗い評価を行うステップ
と、入力音声全体が是認されたとき、この入力音声を精
密に再分析し、その意味及び/又は意図を抽出するステ
ップと、再分析に基づき、入力音声の意味を本質的に表
現するキーワード及び/又はキーフレーズを該入力音声
から抽出するステップとを有する。
【0006】音声認識処理において発声音全体を認識し
た後に音声認識を行う従来の音声認識方法と異なり、本
発明に係る音声認識方法は、まず、必要な音声フレーズ
に対して、認識された発声音の信頼度を記述する粗い推
定のみを行う。したがって、第1の処理においては、入
力音声全体に焦点をあてた負荷の軽い評価及び演算のみ
が行われる。入力音声の意味及び/又は意図を抽出し、
すなわち発声音のキーワード及び/又はキーフレーズを
生成するために、上述の演算の主要部(main part)に
焦点をあててた再分析が行われる。キーワード又はキー
フレーズとは、発声音により表されるメッセージの重要
な意味を担う発声音の部分又はサブユニットである。こ
のように、本発明に係る音声認識方法によれば、発声音
の重要な部分、すなわちキーフレーズ及びキーワードに
焦点をあて、発声音からこれらのキーフレーズ及びキー
ワードを生成又は抽出し、及び/又はキーワード又はキ
ーフレーズの信頼度の測定を行うため、演算及び推定処
理の負荷を軽減することができる。
【0007】対話型装置(dialogue system)において
は、入力音声全体を拒否する場合、拒否信号を生成する
とよい。特に、ユーザに対して直前の発声を繰り返させ
る催促信号及び/又は案内を生成及び/又は出力しても
よい。これにより、対話型装置のユーザ又は現在の話者
に対し、発声音又は音声フレーズが音声認識装置又は音
声認識処理において正しく認識されなかったことを知ら
せることができる。
【0008】入力音声を是認又は拒否する粗い評価のた
めに、入力音声全体に対する粗い及び/又は単純な信頼
度測定値を算出してもよい。従来の音声認識方法では、
発声音における各単一のワード又はサブワード単位に基
づく信頼度測定値を算出していた。したがって、従来の
音声認識方法では、多数のワードに対する信頼度測定値
を算出しなくてはならなかった。
【0009】さらに、従来の音声認識方法は、単一のワ
ードに対する信頼度測定値の集合に基づいて、発声音全
体の信頼度を求める全体的な評価を行っていた。このよ
うな従来の音声認識方法に対し、本発明に係る音声認識
方法は、音声認識処理の初期の段階で発声音全体に対す
る信頼度を単純で粗い手法で測定する。この全体的な発
声音の測定値に基づいて、発声音及びその認識フレーズ
が是認された場合にのみ、さらなる処理を継続する。
【0010】上述の入力音声の再分析は、文法、統語、
及び/又は意味の分析を含むセンテンス分析に基づいて
行ってもよい。これらの測定値により、発声音のキーフ
レーズ又はキーワードのみではなく、意図及び意味を抽
出することができる。特に、対話型装置においては、そ
の装置に実装されたメソッドは、ある程度の複雑性を有
する入力音声から最も重要な部分を抽出し、特にキーフ
レーズ又はキーワードを収集することにより、そのある
程度の複雑性を有する入力音声を削減する必要がある。
【0011】したがって、本発明に係る音声認識方法に
いては、この信頼度測定値を用いて、抽出されたキーワ
ード及び/又はキーフレーズを是認するか拒否するかを
判定するための精密な評価を実行してもよい。
【0012】特に本発明の好適な実施の形態において
は、キーワード及び/又はキーフレーズを是認又は拒否
する精密な評価のために、要求により、各単一のキーワ
ード及び/又はキーフレーズに対する詳細及び/又は確
実な信頼度測定値を算出してもよい。
【0013】本発明に係る音声認識方法における演算負
荷をさらに低減するために、上述した単一のキーワード
及び/又はキーフレーズに対する信頼度測定値は、キー
ワード及び/又はキーフレーズを抽出するステップが実
行され、これによる指示及び/又は要求が生成又は発生
した場合にのみ判定してもよい。
【0014】従来の音声認識方法に対する本発明に係る
音声認識方法の特徴となる基本的な思想は以下の通りで
ある。
【0015】信頼度測定値(Confidence measures:C
M)は、与えられたワード又は発声音に関する自動音声
認識処理の確実性の度合いを示す。本発明において提案
される信頼度測定値は、特に、連続的な音声入力を処理
し、この入力され認識された音声から抽出及び収集され
たデータに基づいて、所定の動作を実行する対話型装置
のために設計されている。本発明に基づく音声認識方法
は、情報における様々なソースを結合し、入力され認識
された発声音及び/又は特定の選択されたワードが正し
く認識されたか否かを判定する。
【0016】本発明では、入力音声の全体を認識する第
1の処理ステップの後、この全体的な発声音に対する粗
く包括的な信頼度測定値を算出及び収集する。認識され
た音声音が是認すべきものと分類されれば、処理はさら
なる処理ステップに進む。装置に実装されているメソッ
ドの要求に応じて、特別な重要性を有するワード又はサ
ブワードに対するより詳細な信頼度を判定する信頼度測
定を要求により算出してもよい。特別な重要性を有する
これらのワード又はサブワードは、キーフレーズ又はキ
ーワードと呼ばれる。さらなる処理ステップ、すなわち
発声音の再分析は、単一のキーフレーズ又はキーワード
に焦点をあてた詳細でより確実な信頼度測定値によりこ
れらのキーフレーズ及び/又はキーワードの信頼度を明
示的に測定する。
【0017】このように、本発明は、大量の語彙が連続
する音声を処理する音声対話型装置における認識品質の
判定のために、2段階の処理方式を提案する。第1の処
理ステップでは、発声音全体に亘る認識を行い、単純な
測定値を算出し、これにより発声音の大部分が正しく認
識されたか否かを示す。このような分類においては、ユ
ーザの入力音声における各単一のワードは、必ずしも同
等な重要性を有していない。音声認識装置に格納されて
いる情報内には、通常、重要性に関する知識は含まれて
いない。したがって、音声認識サブ装置にインターフェ
ースを設け、後続する回路により認識された発声音にお
ける単一のワードの信頼度を特別に検証するとよい。
【0018】すなわち、特に、発声音全体に対する音声
認識処理による要求に応じて、発声音全体の意味又は意
図の分析の後、特別な重要性を有する独立したワード又
は短いフレーズ、すなわち発声音のキーフレーズ又はキ
ーワードに対して、より詳細で確実な測定値を求める。
【0019】この処理ステップにおいて、標準的な手法
により信頼度測定値を算出すると、演算の負荷が大き
い。独立したワードを認識するために開発された周知の
認識処理を連続した音声認識のために使用すると、発声
音内の各単一のワードに対して非常に詳細な信頼度測定
値を算出しなくてはならない。このような処理は非常に
高コストであり、装置応答は遅くなる。対話型装置は、
ユーザからの入力音声に対して即座に応答しなければ、
ユーザは満足しない。したがって、本発明に基づく音声
認識方法は、以下のような処理を行う。
【0020】発声音に対する比較的単純な信頼度の測定
を行う第1の処理ステップは、発声音の包括的な構造を
検出する助けとなる。この分類が十分に信頼できるもの
であれば、これに続く処理ステップは、入力され認識さ
れた発声音をさらに処理することができる。このさらな
る処理ステップにおいては、センテンス又は発声音がさ
らに分析され、このセンテンス又は発声音の重要なキー
ワードが判定される。これらのキーワードに対すし、要
求により、より詳細且つ十分な第2の信頼度測定値を算
出してもよい。さらに、この信頼度測定値を行う第2の
分析処理においては、演算負荷が大きい、追加的でより
高度な演算機能を使用してもよい。このように、本発明
によれば、アプリケーションのコンテキストにおいて、
実際に必要な発声音の位置に焦点をあてるので、負荷の
大きい演算処理の処理量を低減することができる。これ
により、全体的な演算負荷が低減され、小型の機器にお
いても、信頼度の高い推定を実現できる。
【0021】例えば、電車の発着時刻情報提供装置にお
いて、ユーザが「ハンブルグからシュトゥットゥガルト
に行きたい」と発声したとする。この発声の意図は、あ
る都市から他の都市への移動である。この情報において
は、出発地と目的地のみを識別すればよく、このセンテ
ンスの他の部分は、繋ぎフレーズ(filling phrases)
又は「繋ぎ(fillers)」であるとみなすことができ
る。ある地点から他の地点への移動という意図が既知で
あれば、これら繋ぎフレーズは、精密に認識する必要は
ない。すなわち、この具体例では、出発地及び目的地を
確認することのみが重要である。したがって、本発明で
は、これらのキーワード、すなわち意図された移動にお
ける出発地及び目的地のみに集中して演算資源を使用す
る。
【0022】この他のアプリケーションでは、不確実性
及び曖昧性に対応するため、音声認識装置はグラフとし
て配列されたワードの仮説の候補を出力する。センテン
スの仮説にそれぞれが対応するワードグラフ内のパスは
多数ある。後続する言語プロセッサ(linguistic proce
ssor)は、言語的知識及び音声認識回路により先に算出
された音響的ソースに基づいて、最適なパスを検索す
る。複数のパスを並行して検索する言語プロセッサの処
理において、特定のキーワードに得点付けを行うための
信頼度測定値算出回路が必要とされることもある。すな
わち、各後続する処理ステップにおいて、信頼度測定値
に対する問い合わせが行われることもある。どのワード
をキーワードとするかは、基底となる統語/意味分析に
おける現在の統語及び意味分析の段階に基づいて決定さ
れる。
【0023】
【発明の実施の形態】以下、本発明に係る音声認識方法
について、図面を参照して詳細に説明する。まず、本発
明に基づく音声認識方法の特徴となる基本的な考え方を
説明する。
【0024】信頼度測定値(Confidence measures:C
M)は、与えられたワード又は発声音に関する自動音声
認識処理の確実性の度合いを示す。本発明を適用した信
頼度測定値は、特に、連続的な音声入力を処理し、この
入力され認識された音声から抽出及び収集されたデータ
に基づいて、所定の動作を実行する対話型装置のために
設計されている。本発明を適用した音声認識方法は、情
報における様々なソースを結合し、入力され認識された
発声音及び/又は特定の選択されたワードが正しく認識
されたか否かを判定する。
【0025】本発明の具体例では、入力音声の全体を認
識する第1の処理ステップの後、この全体的な発声音に
対する粗く包括的な信頼度測定値を算出及び収集する。
認識された音声音が是認すべきものと分類されれば、処
理はさらなる処理ステップに進む。装置に実装されてい
るメソッドの要求に応じて、特別な重要性を有するワー
ド又はサブワードに対するより詳細な信頼度を判定する
信頼度測定を要求により算出してもよい。特別な重要性
を有するこれらのワード又はサブワードは、キーフレー
ズ又はキーワードと呼ばれる。さらなる処理ステップ、
すなわち発声音の再分析は、単一のキーフレーズ又はキ
ーワードに焦点をあてた詳細でより確実な信頼度測定値
によりこれらのキーフレーズ及び/又はキーワードの信
頼度を明示的に測定する。
【0026】このように、本発明の具体例は、大量の語
彙が連続する音声を処理する音声対話型装置における認
識品質の判定のために、2段階の処理方式を提案する。
第1の処理ステップでは、発声音全体に亘る認識を行
い、単純な測定値を算出し、これにより発声音の大部分
が正しく認識されたか否かを示す。このような分類にお
いては、ユーザの入力音声における各単一のワードは、
必ずしも同等な重要性を有していない。音声認識装置に
格納されている情報内には、通常、重要性に関する知識
は含まれていない。したがって、音声認識サブ装置にイ
ンターフェースを設け、後続する回路により認識された
発声音における単一のワードの信頼度を特別に検証する
とよい。
【0027】すなわち、特に、発声音全体に対する音声
認識処理による要求に応じて、発声音全体の意味又は意
図の分析の後、特別な重要性を有する独立したワード又
は短いフレーズ、すなわち発声音のキーフレーズ又はキ
ーワードに対して、より詳細で確実な測定値を求める。
【0028】この処理ステップにおいて、標準的な手法
により信頼度測定値を算出すると、演算の負荷が大き
い。独立したワードを認識するために開発された周知の
認識処理を連続した音声認識のために使用すると、発声
音内の各単一のワードに対して非常に詳細な信頼度測定
値を算出しなくてはならない。このような処理は非常に
高コストであり、装置応答は遅くなる。対話型装置は、
ユーザからの入力音声に対して即座に応答しなければ、
ユーザは満足しない。したがって、本発明を適用した音
声認識方法は、以下のような処理を行う。
【0029】発声音に対する比較的単純な信頼度の測定
を行う第1の処理ステップは、発声音の包括的な構造を
検出する助けとなる。この分類が十分に信頼できるもの
であれば、これに続く処理ステップは、入力され認識さ
れた発声音をさらに処理することができる。このさらな
る処理ステップにおいては、センテンス又は発声音がさ
らに分析され、このセンテンス又は発声音の重要なキー
ワードが判定される。これらのキーワードに対すし、要
求により、より詳細且つ十分な第2の信頼度測定値を算
出してもよい。さらに、この信頼度測定値を行う第2の
分析処理においては、演算負荷が大きい、追加的でより
高度な演算機能を使用してもよい。このように、本発明
によれば、アプリケーションのコンテキストにおいて、
実際に必要な発声音の位置に焦点をあてるので、負荷の
大きい演算処理の処理量を低減することができる。これ
により、全体的な演算負荷が低減され、小型の機器にお
いても、信頼度の高い推定を実現できる。
【0030】例えば、電車の発着時刻情報提供装置にお
いて、ユーザが「ハンブルグからシュトゥットゥガルト
に行きたい」と発声したとする。この発声の意図は、あ
る都市から他の都市への移動である。この情報において
は、出発地と目的地のみを識別すればよく、このセンテ
ンスの他の部分は、繋ぎフレーズ(filling phrases)
又は「繋ぎ(fillers)」であるとみなすことができ
る。ある地点から他の地点への移動という意図が既知で
あれば、これら繋ぎフレーズは、精密に認識する必要は
ない。すなわち、この具体例では、出発地及び目的地を
確認することのみが重要である。したがって、本発明で
は、これらのキーワード、すなわち意図された移動にお
ける出発地及び目的地のみに集中して演算資源を使用す
る。
【0031】この他のアプリケーションでは、不確実性
及び曖昧性に対応するため、音声認識装置はグラフとし
て配列されたワードの仮説の候補を出力する。センテン
スの仮説にそれぞれが対応するワードグラフ内のパスは
多数ある。後続する言語プロセッサ(linguistic proce
ssor)は、言語的知識及び音声認識回路により先に算出
された音響的ソースに基づいて、最適なパスを検索す
る。複数のパスを並行して検索する言語プロセッサの処
理において、特定のキーワードに得点付けを行うための
信頼度測定値算出回路が必要とされることもある。すな
わち、各後続する処理ステップにおいて、信頼度測定値
に対する問い合わせが行われることもある。どのワード
をキーワードとするかは、基底となる統語/意味分析に
おける現在の統語及び意味分析の段階に基づいて決定さ
れる。
【0032】以下、本発明を適用した音声認識方法につ
いて、音声認識処理の手順を示す図1を参照して説明す
る。
【0033】ステップ11において、連続する音声が入
力される。この音声は発声音Uとして受け取られ、処理
される。ステップ12において、連続する入力音声、す
なわち、受け取られた発声音U又は音声フレーズに対
し、大量語彙連続音声認識処理(large vocabulary con
tinuous speech recognizing process:以下、LVCS
Rという。)が実行され、ステップ13において認識結
果が生成される。ステップ13における認識結果は、発
声音の仮説(utterance hypothesis)として機能し、ス
テップ14に供給される。ステップ14においては、ス
テップ13の発声音の仮説全体に対する単純で粗い信頼
度測定値(confidence measure)CMUが算出される。
発声音全体の仮説に対する信頼度測定値CMUにより仮
説が拒否された場合、ステップ20において、ユーザに
対し、発声を繰り返すための催促又は案内が行われる。
【0034】発声音の仮説が是認された場合、ステップ
15において、センテンス全体の分析が実行され、ステ
ップ16においてキーワードが抽出される。さらに、こ
のステップ16において、キーワードに対する信頼度測
定値を算出する必要があるか否かが判定される。抽出さ
れたキーワードの信頼度に対するさらなる評価が必要な
場合、ステップ12におけるLVCSR処理部から呼び
出された時間的に配列された情報(time-alignment inf
ormation)を用いたキーワードに対する信頼度測定値C
MKの算出が要求される。キーワードに対する信頼度測
定値CMKが不要な場合、又はキーワードに対する信頼
度測定値CMKが十分な値である場合、生成及び抽出さ
れたキーワード及びキーフレーズは是認される。キーワ
ードに対する詳細な信頼度測定値CMKが十分な値では
ない場合、キーワードは拒否され、処理はステップ20
に戻り、ユーザに対して発声の繰返しを要求する。
【0035】
【発明の効果】以上のように、本発明に係る音声認識方
法では、入力音声全体に対する音声認識処理を行い、入
力音声全体を是認するか拒否するかを決定する粗い評価
を行い、入力音声全体が是認されたとき、入力音声を精
密に再分析し、その意味及び/又は意図を抽出し、再分
析に基づき、入力音声の意味を本質的に表現するキーワ
ード及び/又はキーフレーズを入力音声から抽出する。
これにより、大量の語彙が連続する音声認識における全
体の演算負荷を軽減し、小型の対話型装置においても、
確実で信頼性の高い音声認識を行うことができる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識処理を説明する図で
ある。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 マラッセク、 クリシトフ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスド テクノロジー センター シュト ゥットゥガルト内 (72)発明者 ケムプ、 トーマス ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスド テクノロジー センター シュト ゥットゥガルト内 (72)発明者 ゴロンジー、 シルケ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスド テクノロジー センター シュト ゥットゥガルト内 (72)発明者 コンペ、 ラルフ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスド テクノロジー センター シュト ゥットゥガルト内 Fターム(参考) 5D015 AA04 AA05 HH14 HH16 LL02

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力音声全体に対する音声認識処理を行
    うステップと、 上記入力音声全体を是認するか拒否するかを決定する粗
    い評価を行うステップと、 上記入力音声全体が是認されたとき、該入力音声を精密
    に再分析し、その意味及び/又は意図を抽出するステッ
    プと、 上記再分析に基づき、上記入力音声の意味を本質的に表
    現するキーワード及び/又はキーフレーズを該入力音声
    から抽出するステップとを有する音声認識方法。
  2. 【請求項2】 上記入力音声を拒否するとき、拒否信号
    を生成するステップを有する請求項1記載の音声認識方
    法。
  3. 【請求項3】 上記拒否信号により、直前の発声を繰り
    返させる催促信号及び/又は対話型システムの場合は案
    内が生成及び/又は出力されることを特徴とする請求項
    2記載の音声認識方法。
  4. 【請求項4】 上記入力音声を是認又は拒否する粗い評
    価のために、入力音声全体に対する粗い及び/又は単純
    な信頼度測定値を算出するステップを有する請求項1乃
    至3いずれか1項記載の音声認識方法。
  5. 【請求項5】 上記入力音声の再分析は、文法、統語、
    及び/又は意味の分析を含むセンテンス分析に基づいて
    行われることを特徴とする請求項1乃至5いずれか1項
    記載の音声認識方法。
  6. 【請求項6】 上記抽出されたキーワード及び/又はキ
    ーフレーズを是認するか拒否するかを判定するための精
    密な評価を実行するステップを有する請求項1乃至5い
    ずれか1項記載の音声認識方法。
  7. 【請求項7】 上記キーワード及び/又はキーフレーズ
    を是認又は拒否する精密な評価のために、要求により、
    各単一のキーワード及び/又はキーフレーズに対する詳
    細及び/又は確実な信頼度測定値を判定するステップを
    有する請求項6記載の音声認識方法。
  8. 【請求項8】 上記単一のキーワード及び/又はキーフ
    レーズに対する信頼度測定値は、演算負荷を低減するた
    めに、上記キーワード及び/又はキーフレーズを抽出す
    るステップが実行され、これによる指示が発生した場合
    にのみ判定されることを特徴とする請求項7記載の音声
    認識方法。
JP2001352116A 2000-11-16 2001-11-16 音声認識方法 Ceased JP2002202797A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00125014A EP1207517B1 (en) 2000-11-16 2000-11-16 Method for recognizing speech
EP00125014.1 2000-11-16

Publications (1)

Publication Number Publication Date
JP2002202797A true JP2002202797A (ja) 2002-07-19

Family

ID=8170395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001352116A Ceased JP2002202797A (ja) 2000-11-16 2001-11-16 音声認識方法

Country Status (5)

Country Link
US (1) US20020082833A1 (ja)
EP (1) EP1207517B1 (ja)
JP (1) JP2002202797A (ja)
KR (1) KR20020038545A (ja)
DE (1) DE60032776T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011075973A (ja) * 2009-10-01 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2012022069A (ja) * 2010-07-13 2012-02-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100449912B1 (ko) * 2002-02-20 2004-09-22 대한민국 음성인식시스템의 핵심어 검출을 위한 후처리방법
TW559783B (en) * 2002-05-31 2003-11-01 Ind Tech Res Inst Error-tolerant natural language understanding system and method integrating with confidence measure
US7860736B2 (en) * 2002-06-28 2010-12-28 Accenture Global Services Gmbh Course content development method and computer readable medium for business driven learning solutions
CA2433588A1 (en) * 2002-06-28 2003-12-28 Accenture Global Services Gmbh Decision support and work management for synchronizing learning services
US20040002888A1 (en) * 2002-06-28 2004-01-01 Accenture Global Services Gmbh Business driven learning solution
CA2433536A1 (en) * 2002-06-28 2003-12-28 Accenture Global Services Gmbh Delivery module and related platforms for business driven learning solution
US7702531B2 (en) * 2002-06-28 2010-04-20 Accenture Global Services Gmbh Business driven learning solution particularly suitable for sales-oriented organizations
US8050918B2 (en) * 2003-12-11 2011-11-01 Nuance Communications, Inc. Quality evaluation tool for dynamic voice portals
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
US9607616B2 (en) * 2015-08-17 2017-03-28 Mitsubishi Electric Research Laboratories, Inc. Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks
KR101934280B1 (ko) * 2016-10-05 2019-01-03 현대자동차주식회사 발화내용 분석 장치 및 방법
US10311876B2 (en) 2017-02-14 2019-06-04 Google Llc Server side hotwording

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59121100A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
JPH0643896A (ja) * 1991-11-18 1994-02-18 Clarion Co Ltd 音声起動制御方法
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011075973A (ja) * 2009-10-01 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2012022069A (ja) * 2010-07-13 2012-02-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム

Also Published As

Publication number Publication date
US20020082833A1 (en) 2002-06-27
KR20020038545A (ko) 2002-05-23
DE60032776T2 (de) 2007-11-08
EP1207517B1 (en) 2007-01-03
DE60032776D1 (de) 2007-02-15
EP1207517A1 (en) 2002-05-22

Similar Documents

Publication Publication Date Title
US10643609B1 (en) Selecting speech inputs
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
US7801726B2 (en) Apparatus, method and computer program product for speech processing
JP2002202797A (ja) 音声認識方法
KR20050082249A (ko) 도메인 기반 대화 음성인식방법 및 장치
JP4867622B2 (ja) 音声認識装置、および音声認識方法
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
Lee et al. Real-time word confidence scoring using local posterior probabilities on tree trellis search
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP2009198614A (ja) 対話装置及びプログラム
CN110663078A (zh) 语音识别装置及语音识别方法
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
JP3039634B2 (ja) 音声認識装置
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2000250593A (ja) 話者認識装置及び方法
JP2006039382A (ja) 音声認識装置
JP3104900B2 (ja) 音声認識方法
KR100366703B1 (ko) 인간 반응형 음성인식장치
KR100952974B1 (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
JP2007017548A (ja) 音声認識結果の検証装置及びコンピュータプログラム
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
JP5066668B2 (ja) 音声認識装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070521

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080902

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081002

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081113

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20090127