JP2002202797A

JP2002202797A - 音声認識方法

Info

Publication number: JP2002202797A
Application number: JP2001352116A
Authority: JP
Inventors: Krzysztof Marasek; クリシトフマラッセク、; Thomas Kemp; トーマスケムプ、; Silke Goronzy; シルケゴロンジー、; Ralf Kompe; ラルフコンペ、
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2000-11-16
Filing date: 2001-11-16
Publication date: 2002-07-19
Also published as: US20020082833A1; KR20020038545A; DE60032776T2; EP1207517B1; DE60032776D1; EP1207517A1

Abstract

(57)【要約】【課題】大量の語彙が連続する音声認識における全体
の演算負荷を軽減する。【解決手段】入力音声全体に対する音声認識処理を行
い、入力音声全体を是認するか拒否するかを決定する粗
い評価を行い、入力音声全体が是認されたとき、入力音
声を精密に再分析し、その意味及び／又は意図を抽出
し、再分析に基づき、入力音声の意味を本質的に表現す
るキーワード及び／又はキーフレーズを入力音声から抽
出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、大量語彙連続音声
認識（large vocabulary continuous speech recogniti
on：ＬＶＣＳＲ）処理において信頼度測定値を使用する
音声認識方法に関する。

【０００２】

【従来の技術】発声音又は音声フレーズを受け取った後
に音声認識を行う従来の多くの装置及び方法において
は、認識された発声音又は音声フレーズの信頼度に対す
る推定を行い、現在検証中の発声音又は音声フレーズ及
びその認識形式をさらなる処理に適応するか、拒否する
べきか、及び話者又はユーザにより新たに入力された発
声音又は音声フレーズと交換するべきか否か等を判定す
る。

【０００３】

【発明が解決しようとする課題】このような従来の音声
認識法では、詳細且つ十分な分析を確実に行うために
は、全体の演算能力は、受け取られた発声音の全体に亘
って分散してしまう。入力された音声を全体に亘って十
分に分析しなくてはならない場合、携帯型の電子機器等
の小さな機器又は装置は、連続する音声を認識し、認識
した音声フレーズの信頼度を推定するための十分な性能
を有しておらず、したがって、このような小さな機器又
は装置には、上述のような機能を実装することができな
い。

【０００４】そこで、本発明は上述の課題に鑑みてなさ
れたものであり、本発明の目的は、小型の対話型装置に
容易に実装でき、大量の語彙が連続する音声認識を行う
とともに、認識精度に対する確実で信頼性の高い推定を
行うことができる音声認識方法を提供することを目的と
する。

【０００５】

【課題を解決するための手段】上述の目的を達成するた
めに、本発明に係る音声認識方法は、入力音声全体に対
する音声認識処理を行うステップと、入力音声全体を是
認するか拒否するかを決定する粗い評価を行うステップ
と、入力音声全体が是認されたとき、この入力音声を精
密に再分析し、その意味及び／又は意図を抽出するステ
ップと、再分析に基づき、入力音声の意味を本質的に表
現するキーワード及び／又はキーフレーズを該入力音声
から抽出するステップとを有する。

【０００６】音声認識処理において発声音全体を認識し
た後に音声認識を行う従来の音声認識方法と異なり、本
発明に係る音声認識方法は、まず、必要な音声フレーズ
に対して、認識された発声音の信頼度を記述する粗い推
定のみを行う。したがって、第１の処理においては、入
力音声全体に焦点をあてた負荷の軽い評価及び演算のみ
が行われる。入力音声の意味及び／又は意図を抽出し、
すなわち発声音のキーワード及び／又はキーフレーズを
生成するために、上述の演算の主要部（main part）に
焦点をあててた再分析が行われる。キーワード又はキー
フレーズとは、発声音により表されるメッセージの重要
な意味を担う発声音の部分又はサブユニットである。こ
のように、本発明に係る音声認識方法によれば、発声音
の重要な部分、すなわちキーフレーズ及びキーワードに
焦点をあて、発声音からこれらのキーフレーズ及びキー
ワードを生成又は抽出し、及び／又はキーワード又はキ
ーフレーズの信頼度の測定を行うため、演算及び推定処
理の負荷を軽減することができる。

【０００７】対話型装置（dialogue system）において
は、入力音声全体を拒否する場合、拒否信号を生成する
とよい。特に、ユーザに対して直前の発声を繰り返させ
る催促信号及び／又は案内を生成及び／又は出力しても
よい。これにより、対話型装置のユーザ又は現在の話者
に対し、発声音又は音声フレーズが音声認識装置又は音
声認識処理において正しく認識されなかったことを知ら
せることができる。

【０００８】入力音声を是認又は拒否する粗い評価のた
めに、入力音声全体に対する粗い及び／又は単純な信頼
度測定値を算出してもよい。従来の音声認識方法では、
発声音における各単一のワード又はサブワード単位に基
づく信頼度測定値を算出していた。したがって、従来の
音声認識方法では、多数のワードに対する信頼度測定値
を算出しなくてはならなかった。

【０００９】さらに、従来の音声認識方法は、単一のワ
ードに対する信頼度測定値の集合に基づいて、発声音全
体の信頼度を求める全体的な評価を行っていた。このよ
うな従来の音声認識方法に対し、本発明に係る音声認識
方法は、音声認識処理の初期の段階で発声音全体に対す
る信頼度を単純で粗い手法で測定する。この全体的な発
声音の測定値に基づいて、発声音及びその認識フレーズ
が是認された場合にのみ、さらなる処理を継続する。

【００１０】上述の入力音声の再分析は、文法、統語、
及び／又は意味の分析を含むセンテンス分析に基づいて
行ってもよい。これらの測定値により、発声音のキーフ
レーズ又はキーワードのみではなく、意図及び意味を抽
出することができる。特に、対話型装置においては、そ
の装置に実装されたメソッドは、ある程度の複雑性を有
する入力音声から最も重要な部分を抽出し、特にキーフ
レーズ又はキーワードを収集することにより、そのある
程度の複雑性を有する入力音声を削減する必要がある。

【００１１】したがって、本発明に係る音声認識方法に
いては、この信頼度測定値を用いて、抽出されたキーワ
ード及び／又はキーフレーズを是認するか拒否するかを
判定するための精密な評価を実行してもよい。

【００１２】特に本発明の好適な実施の形態において
は、キーワード及び／又はキーフレーズを是認又は拒否
する精密な評価のために、要求により、各単一のキーワ
ード及び／又はキーフレーズに対する詳細及び／又は確
実な信頼度測定値を算出してもよい。

【００１３】本発明に係る音声認識方法における演算負
荷をさらに低減するために、上述した単一のキーワード
及び／又はキーフレーズに対する信頼度測定値は、キー
ワード及び／又はキーフレーズを抽出するステップが実
行され、これによる指示及び／又は要求が生成又は発生
した場合にのみ判定してもよい。

【００１４】従来の音声認識方法に対する本発明に係る
音声認識方法の特徴となる基本的な思想は以下の通りで
ある。

【００１５】信頼度測定値（Confidence measures：Ｃ
Ｍ）は、与えられたワード又は発声音に関する自動音声
認識処理の確実性の度合いを示す。本発明において提案
される信頼度測定値は、特に、連続的な音声入力を処理
し、この入力され認識された音声から抽出及び収集され
たデータに基づいて、所定の動作を実行する対話型装置
のために設計されている。本発明に基づく音声認識方法
は、情報における様々なソースを結合し、入力され認識
された発声音及び／又は特定の選択されたワードが正し
く認識されたか否かを判定する。

【００１６】本発明では、入力音声の全体を認識する第
１の処理ステップの後、この全体的な発声音に対する粗
く包括的な信頼度測定値を算出及び収集する。認識され
た音声音が是認すべきものと分類されれば、処理はさら
なる処理ステップに進む。装置に実装されているメソッ
ドの要求に応じて、特別な重要性を有するワード又はサ
ブワードに対するより詳細な信頼度を判定する信頼度測
定を要求により算出してもよい。特別な重要性を有する
これらのワード又はサブワードは、キーフレーズ又はキ
ーワードと呼ばれる。さらなる処理ステップ、すなわち
発声音の再分析は、単一のキーフレーズ又はキーワード
に焦点をあてた詳細でより確実な信頼度測定値によりこ
れらのキーフレーズ及び／又はキーワードの信頼度を明
示的に測定する。

【００１７】このように、本発明は、大量の語彙が連続
する音声を処理する音声対話型装置における認識品質の
判定のために、２段階の処理方式を提案する。第１の処
理ステップでは、発声音全体に亘る認識を行い、単純な
測定値を算出し、これにより発声音の大部分が正しく認
識されたか否かを示す。このような分類においては、ユ
ーザの入力音声における各単一のワードは、必ずしも同
等な重要性を有していない。音声認識装置に格納されて
いる情報内には、通常、重要性に関する知識は含まれて
いない。したがって、音声認識サブ装置にインターフェ
ースを設け、後続する回路により認識された発声音にお
ける単一のワードの信頼度を特別に検証するとよい。

【００１８】すなわち、特に、発声音全体に対する音声
認識処理による要求に応じて、発声音全体の意味又は意
図の分析の後、特別な重要性を有する独立したワード又
は短いフレーズ、すなわち発声音のキーフレーズ又はキ
ーワードに対して、より詳細で確実な測定値を求める。

【００１９】この処理ステップにおいて、標準的な手法
により信頼度測定値を算出すると、演算の負荷が大き
い。独立したワードを認識するために開発された周知の
認識処理を連続した音声認識のために使用すると、発声
音内の各単一のワードに対して非常に詳細な信頼度測定
値を算出しなくてはならない。このような処理は非常に
高コストであり、装置応答は遅くなる。対話型装置は、
ユーザからの入力音声に対して即座に応答しなければ、
ユーザは満足しない。したがって、本発明に基づく音声
認識方法は、以下のような処理を行う。

【００２０】発声音に対する比較的単純な信頼度の測定
を行う第１の処理ステップは、発声音の包括的な構造を
検出する助けとなる。この分類が十分に信頼できるもの
であれば、これに続く処理ステップは、入力され認識さ
れた発声音をさらに処理することができる。このさらな
る処理ステップにおいては、センテンス又は発声音がさ
らに分析され、このセンテンス又は発声音の重要なキー
ワードが判定される。これらのキーワードに対すし、要
求により、より詳細且つ十分な第２の信頼度測定値を算
出してもよい。さらに、この信頼度測定値を行う第２の
分析処理においては、演算負荷が大きい、追加的でより
高度な演算機能を使用してもよい。このように、本発明
によれば、アプリケーションのコンテキストにおいて、
実際に必要な発声音の位置に焦点をあてるので、負荷の
大きい演算処理の処理量を低減することができる。これ
により、全体的な演算負荷が低減され、小型の機器にお
いても、信頼度の高い推定を実現できる。

【００２１】例えば、電車の発着時刻情報提供装置にお
いて、ユーザが「ハンブルグからシュトゥットゥガルト
に行きたい」と発声したとする。この発声の意図は、あ
る都市から他の都市への移動である。この情報において
は、出発地と目的地のみを識別すればよく、このセンテ
ンスの他の部分は、繋ぎフレーズ（filling phrases）
又は「繋ぎ（fillers）」であるとみなすことができ
る。ある地点から他の地点への移動という意図が既知で
あれば、これら繋ぎフレーズは、精密に認識する必要は
ない。すなわち、この具体例では、出発地及び目的地を
確認することのみが重要である。したがって、本発明で
は、これらのキーワード、すなわち意図された移動にお
ける出発地及び目的地のみに集中して演算資源を使用す
る。

【００２２】この他のアプリケーションでは、不確実性
及び曖昧性に対応するため、音声認識装置はグラフとし
て配列されたワードの仮説の候補を出力する。センテン
スの仮説にそれぞれが対応するワードグラフ内のパスは
多数ある。後続する言語プロセッサ（linguistic proce
ssor）は、言語的知識及び音声認識回路により先に算出
された音響的ソースに基づいて、最適なパスを検索す
る。複数のパスを並行して検索する言語プロセッサの処
理において、特定のキーワードに得点付けを行うための
信頼度測定値算出回路が必要とされることもある。すな
わち、各後続する処理ステップにおいて、信頼度測定値
に対する問い合わせが行われることもある。どのワード
をキーワードとするかは、基底となる統語／意味分析に
おける現在の統語及び意味分析の段階に基づいて決定さ
れる。

【００２３】

【発明の実施の形態】以下、本発明に係る音声認識方法
について、図面を参照して詳細に説明する。まず、本発
明に基づく音声認識方法の特徴となる基本的な考え方を
説明する。

【００２４】信頼度測定値（Confidence measures：Ｃ
Ｍ）は、与えられたワード又は発声音に関する自動音声
認識処理の確実性の度合いを示す。本発明を適用した信
頼度測定値は、特に、連続的な音声入力を処理し、この
入力され認識された音声から抽出及び収集されたデータ
に基づいて、所定の動作を実行する対話型装置のために
設計されている。本発明を適用した音声認識方法は、情
報における様々なソースを結合し、入力され認識された
発声音及び／又は特定の選択されたワードが正しく認識
されたか否かを判定する。

【００２５】本発明の具体例では、入力音声の全体を認
識する第１の処理ステップの後、この全体的な発声音に
対する粗く包括的な信頼度測定値を算出及び収集する。
認識された音声音が是認すべきものと分類されれば、処
理はさらなる処理ステップに進む。装置に実装されてい
るメソッドの要求に応じて、特別な重要性を有するワー
ド又はサブワードに対するより詳細な信頼度を判定する
信頼度測定を要求により算出してもよい。特別な重要性
を有するこれらのワード又はサブワードは、キーフレー
ズ又はキーワードと呼ばれる。さらなる処理ステップ、
すなわち発声音の再分析は、単一のキーフレーズ又はキ
ーワードに焦点をあてた詳細でより確実な信頼度測定値
によりこれらのキーフレーズ及び／又はキーワードの信
頼度を明示的に測定する。

【００２６】このように、本発明の具体例は、大量の語
彙が連続する音声を処理する音声対話型装置における認
識品質の判定のために、２段階の処理方式を提案する。
第１の処理ステップでは、発声音全体に亘る認識を行
い、単純な測定値を算出し、これにより発声音の大部分
が正しく認識されたか否かを示す。このような分類にお
いては、ユーザの入力音声における各単一のワードは、
必ずしも同等な重要性を有していない。音声認識装置に
格納されている情報内には、通常、重要性に関する知識
は含まれていない。したがって、音声認識サブ装置にイ
ンターフェースを設け、後続する回路により認識された
発声音における単一のワードの信頼度を特別に検証する
とよい。

【００２７】すなわち、特に、発声音全体に対する音声
認識処理による要求に応じて、発声音全体の意味又は意
図の分析の後、特別な重要性を有する独立したワード又
は短いフレーズ、すなわち発声音のキーフレーズ又はキ
ーワードに対して、より詳細で確実な測定値を求める。

【００２８】この処理ステップにおいて、標準的な手法
により信頼度測定値を算出すると、演算の負荷が大き
い。独立したワードを認識するために開発された周知の
認識処理を連続した音声認識のために使用すると、発声
音内の各単一のワードに対して非常に詳細な信頼度測定
値を算出しなくてはならない。このような処理は非常に
高コストであり、装置応答は遅くなる。対話型装置は、
ユーザからの入力音声に対して即座に応答しなければ、
ユーザは満足しない。したがって、本発明を適用した音
声認識方法は、以下のような処理を行う。

【００２９】発声音に対する比較的単純な信頼度の測定
を行う第１の処理ステップは、発声音の包括的な構造を
検出する助けとなる。この分類が十分に信頼できるもの
であれば、これに続く処理ステップは、入力され認識さ
れた発声音をさらに処理することができる。このさらな
る処理ステップにおいては、センテンス又は発声音がさ
らに分析され、このセンテンス又は発声音の重要なキー
ワードが判定される。これらのキーワードに対すし、要
求により、より詳細且つ十分な第２の信頼度測定値を算
出してもよい。さらに、この信頼度測定値を行う第２の
分析処理においては、演算負荷が大きい、追加的でより
高度な演算機能を使用してもよい。このように、本発明
によれば、アプリケーションのコンテキストにおいて、
実際に必要な発声音の位置に焦点をあてるので、負荷の
大きい演算処理の処理量を低減することができる。これ
により、全体的な演算負荷が低減され、小型の機器にお
いても、信頼度の高い推定を実現できる。

【００３０】例えば、電車の発着時刻情報提供装置にお
いて、ユーザが「ハンブルグからシュトゥットゥガルト
に行きたい」と発声したとする。この発声の意図は、あ
る都市から他の都市への移動である。この情報において
は、出発地と目的地のみを識別すればよく、このセンテ
ンスの他の部分は、繋ぎフレーズ（filling phrases）
又は「繋ぎ（fillers）」であるとみなすことができ
る。ある地点から他の地点への移動という意図が既知で
あれば、これら繋ぎフレーズは、精密に認識する必要は
ない。すなわち、この具体例では、出発地及び目的地を
確認することのみが重要である。したがって、本発明で
は、これらのキーワード、すなわち意図された移動にお
ける出発地及び目的地のみに集中して演算資源を使用す
る。

【００３１】この他のアプリケーションでは、不確実性
及び曖昧性に対応するため、音声認識装置はグラフとし
て配列されたワードの仮説の候補を出力する。センテン
スの仮説にそれぞれが対応するワードグラフ内のパスは
多数ある。後続する言語プロセッサ（linguistic proce
ssor）は、言語的知識及び音声認識回路により先に算出
された音響的ソースに基づいて、最適なパスを検索す
る。複数のパスを並行して検索する言語プロセッサの処
理において、特定のキーワードに得点付けを行うための
信頼度測定値算出回路が必要とされることもある。すな
わち、各後続する処理ステップにおいて、信頼度測定値
に対する問い合わせが行われることもある。どのワード
をキーワードとするかは、基底となる統語／意味分析に
おける現在の統語及び意味分析の段階に基づいて決定さ
れる。

【００３２】以下、本発明を適用した音声認識方法につ
いて、音声認識処理の手順を示す図１を参照して説明す
る。

【００３３】ステップ１１において、連続する音声が入
力される。この音声は発声音Ｕとして受け取られ、処理
される。ステップ１２において、連続する入力音声、す
なわち、受け取られた発声音Ｕ又は音声フレーズに対
し、大量語彙連続音声認識処理（large vocabulary con
tinuous speech recognizing process：以下、ＬＶＣＳ
Ｒという。）が実行され、ステップ１３において認識結
果が生成される。ステップ１３における認識結果は、発
声音の仮説（utterance hypothesis）として機能し、ス
テップ１４に供給される。ステップ１４においては、ス
テップ１３の発声音の仮説全体に対する単純で粗い信頼
度測定値（confidence measure）ＣＭＵが算出される。
発声音全体の仮説に対する信頼度測定値ＣＭＵにより仮
説が拒否された場合、ステップ２０において、ユーザに
対し、発声を繰り返すための催促又は案内が行われる。

【００３４】発声音の仮説が是認された場合、ステップ
１５において、センテンス全体の分析が実行され、ステ
ップ１６においてキーワードが抽出される。さらに、こ
のステップ１６において、キーワードに対する信頼度測
定値を算出する必要があるか否かが判定される。抽出さ
れたキーワードの信頼度に対するさらなる評価が必要な
場合、ステップ１２におけるＬＶＣＳＲ処理部から呼び
出された時間的に配列された情報（time-alignment inf
ormation）を用いたキーワードに対する信頼度測定値Ｃ
ＭＫの算出が要求される。キーワードに対する信頼度測
定値ＣＭＫが不要な場合、又はキーワードに対する信頼
度測定値ＣＭＫが十分な値である場合、生成及び抽出さ
れたキーワード及びキーフレーズは是認される。キーワ
ードに対する詳細な信頼度測定値ＣＭＫが十分な値では
ない場合、キーワードは拒否され、処理はステップ２０
に戻り、ユーザに対して発声の繰返しを要求する。

【００３５】

【発明の効果】以上のように、本発明に係る音声認識方
法では、入力音声全体に対する音声認識処理を行い、入
力音声全体を是認するか拒否するかを決定する粗い評価
を行い、入力音声全体が是認されたとき、入力音声を精
密に再分析し、その意味及び／又は意図を抽出し、再分
析に基づき、入力音声の意味を本質的に表現するキーワ
ード及び／又はキーフレーズを入力音声から抽出する。
これにより、大量の語彙が連続する音声認識における全
体の演算負荷を軽減し、小型の対話型装置においても、
確実で信頼性の高い音声認識を行うことができる。

【図面の簡単な説明】

【図１】本発明を適用した音声認識処理を説明する図で
ある。

───────────────────────────────────────────────────── フロントページの続き (72)発明者マラッセク、クリシトフドイツ連邦共和国 70327 シュトゥットゥガルトヘデルフィンガーシュトラーセ 61 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内 (72)発明者ケムプ、トーマスドイツ連邦共和国 70327 シュトゥットゥガルトヘデルフィンガーシュトラーセ 61 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内 (72)発明者ゴロンジー、シルケドイツ連邦共和国 70327 シュトゥットゥガルトヘデルフィンガーシュトラーセ 61 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内 (72)発明者コンペ、ラルフドイツ連邦共和国 70327 シュトゥットゥガルトヘデルフィンガーシュトラーセ 61 ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内Ｆターム(参考） 5D015 AA04 AA05 HH14 HH16 LL02

Claims

【特許請求の範囲】

【請求項１】入力音声全体に対する音声認識処理を行
うステップと、上記入力音声全体を是認するか拒否するかを決定する粗
い評価を行うステップと、上記入力音声全体が是認されたとき、該入力音声を精密
に再分析し、その意味及び／又は意図を抽出するステッ
プと、上記再分析に基づき、上記入力音声の意味を本質的に表
現するキーワード及び／又はキーフレーズを該入力音声
から抽出するステップとを有する音声認識方法。
【請求項２】上記入力音声を拒否するとき、拒否信号
を生成するステップを有する請求項１記載の音声認識方
法。
【請求項３】上記拒否信号により、直前の発声を繰り
返させる催促信号及び／又は対話型システムの場合は案
内が生成及び／又は出力されることを特徴とする請求項
２記載の音声認識方法。
【請求項４】上記入力音声を是認又は拒否する粗い評
価のために、入力音声全体に対する粗い及び／又は単純
な信頼度測定値を算出するステップを有する請求項１乃
至３いずれか１項記載の音声認識方法。
【請求項５】上記入力音声の再分析は、文法、統語、
及び／又は意味の分析を含むセンテンス分析に基づいて
行われることを特徴とする請求項１乃至５いずれか１項
記載の音声認識方法。
【請求項６】上記抽出されたキーワード及び／又はキ
ーフレーズを是認するか拒否するかを判定するための精
密な評価を実行するステップを有する請求項１乃至５い
ずれか１項記載の音声認識方法。
【請求項７】上記キーワード及び／又はキーフレーズ
を是認又は拒否する精密な評価のために、要求により、
各単一のキーワード及び／又はキーフレーズに対する詳
細及び／又は確実な信頼度測定値を判定するステップを
有する請求項６記載の音声認識方法。
【請求項８】上記単一のキーワード及び／又はキーフ
レーズに対する信頼度測定値は、演算負荷を低減するた
めに、上記キーワード及び／又はキーフレーズを抽出す
るステップが実行され、これによる指示が発生した場合
にのみ判定されることを特徴とする請求項７記載の音声
認識方法。