JP2000122687A

JP2000122687A - 言語モデルを更新する方法

Info

Publication number: JP2000122687A
Application number: JP11286143A
Authority: JP
Inventors: R Lewis James; ジェームズ・アール・ルイス; E Smith Maria; マリア・イー・スミス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-10-19
Filing date: 1999-10-07
Publication date: 2000-04-28
Anticipated expiration: 2019-10-07
Also published as: JP3546774B2; SG79284A1; US6138099A; TW440809B; KR100321841B1; IL131712A; MY115505A; IL131712A0; KR20000028660A

Abstract

(57)【要約】【課題】音声誤認識を訂正するセッション中に、ユー
ザ対話ダイアログ・ボックスを実質上呼び出すことな
く、音声アプリケーションの音声認識エンジンにおける
言語モデルを更新する新規な自明でない方法を提供す
る。【解決手段】訂正セッション中に音声アプリケーショ
ンにおける言語モデルを更新する方法は、元の口述テキ
ストの音声と置換テキストの音声を互いに音響的に比較
する段階と、音響的比較の結果が、新しい音声が編集以
外の誤認識エラーの訂正を表すことを示すのに十分なほ
ど近い場合に、言語モデルを訂正で更新し、それにより
言語モデルをユーザの対話なしに更新できるようにする
段階とを含む。更新段階は、音声アプリケーションの語
彙に新しい単語を追加する段階を含むことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、音声口述
システムに関し、より詳細には、音声誤認識を訂正する
セッションにおいて音声アプリケーションの音声認識エ
ンジンにおける言語モデルを自動的に更新する方法に関
する。

【０００２】

【従来の技術】音声口述システムにおける訂正の改良
は、ユーザの生産性を高める重要な方法を提供する。１
つの改良スタイルは、訂正ダイアログとの対話を省略
し、パワー・ユーザに口述テキストを直接変更できる機
能を提供することである。システム・モニタが、訂正と
して処理するために音声エンジンに送るべき訂正はどれ
か、システムが無視すべき編集はどれかを変更し決定し
ない限り、ユーザは、エンジンが訂正情報を受け取るこ
とによる認識精度の連続的改良の利益が得られない。

【０００３】

【発明が解決しようとする課題】本発明の目的は、音声
口述システムにおける現在のどの訂正方法よりも優れた
利点を有し、音声誤認識を訂正するセッション中に、ユ
ーザ対話ダイアログ・ボックスを実質上呼び出すことな
く、音声アプリケーションの音声認識エンジンにおける
言語モデルを更新する新規な自明でない方法を提供する
ことにある。

【０００４】

【課題を解決するための手段】本発明の構成によれば、
訂正セッション中に音声アプリケーションにおける言語
モデルを更新する方法は、元の口述テキストの音声と置
換テキストの音声とを自動的に互いに音響的に比較する
段階と、音響的な比較の結果が、新しい音声が編集以外
の誤認識エラーの訂正を表すことを示すのに十分なほど
近い場合に、言語モデルを訂正により自動的に更新し、
それにより言語モデルをユーザの対話なしに更新できる
ようにする段階とを含む。

【０００５】この方法は、さらに、比較段階の前に、元
の口述テキストの新しいテキストによる置換を検出する
段階と、元の口述音声と比較段階で使用する新しい音声
を保存する段階とを含むことができる。

【０００６】更新段階は、新しい単語を音声アプリケー
ションの語彙に加える段階を含むことができる。

【０００７】比較段階は、新しいテキストのいずれかの
単語が語彙外かどうかを判定する段階と、単語が語彙外
でない場合に、比較段階に語彙中の既存のベースフォー
ムを利用する段階とを含むことができる。

【０００８】比較段階は、新しいテキストのいずれかの
単語が語彙外かどうかを判定する段階と、いずれかの単
語が語彙外の場合に、その単語のベースフォームが語彙
外で記憶されているかどうかを判定する段階と、その単
語のベースフォームが語彙外で記憶されている場合に、
比較段階に語彙外のベースフォームを利用する段階とを
含むことができる。

【０００９】比較段階は、新しいテキストのいずれかの
単語が語彙外かどうかを判定する段階と、いずれかの単
語が語彙外の場合に、その単語のベースフォームが語彙
外で記憶されているかどうかを判定する段階と、その単
語のベースフォームが語彙外で記憶されていない場合
に、その単語の新しいベースフォームの生成を延期する
段階とを含むことができる。

【００１０】比較段階はまた、新しいテキストのいずれ
かの単語が語彙外かどうかを判定する段階と、いずれか
の単語が語彙に含まれていない場合に、その単語のベー
スフォームが語彙外で記憶されているかどうかを判定す
る段階と、その単語のベースフォームが語彙外で記憶さ
れていない場合に、その単語の新しいベースフォームを
生成する段階と、比較段階に新しいベースフォームを利
用する段階とを含むことができる。

【００１１】比較段階はまた、新しいテキストのいずれ
かの単語が語彙外かどうかを判定する段階と、いずれか
の単語が語彙外の場合に、その単語のベースフォームが
語彙外で記憶されているかどうかを判定する段階と、そ
の単語のベースフォームが語彙外で記憶されている場合
に、比較段階に語彙外のベースフォームを利用する段階
と、その単語のベースフォームが語彙外で記憶されてい
ない場合に、その単語の新しいベースフォームの生成を
延期する段階とを含むことができる。

【００１２】比較段階はまた、新しいテキストのいずれ
かの単語が語彙外かどうかを判定する段階と、いずれか
の単語が語彙外の場合に、その単語のベースフォームが
語彙外で記憶されているかどうかを判定する段階と、そ
の単語のベースフォームが語彙外で記憶されている場合
に、比較段階に語彙外のベースフォームを利用する段階
と、その単語のベースフォームが語彙外で記憶されてい
ない場合に、その単語の新しいベースフォームを生成す
る段階と、比較段階に新しいベースフォームを利用する
段階とを含むことができる。

【００１３】比較段階はまた、元の口述単語のベースフ
ォームと元の口述単語の置換をそれぞれ、たとえばＤＭ
ＣＨＥＣＫユーティリティを用いて比較する段階を含む
ことができる。

【００１４】

【発明の実施の形態】本発明の構成による音声アプリケ
ーションにおいて言語モデルを自動的に更新する方法
を、図１のフローチャート１０に示す。開始ブロック１
１から始まって、話し手は、ブロック１２の段階に従っ
て音声アプリケーションによる音声認識セッションを開
始する。

【００１５】ブロック１４の段階で、システムはまず、
元の口述テキストが口述によって置換されたかどうかを
検出する。そうである場合、方法は、経路１３に分岐し
てブロック１６の段階に進み、元の音声と置換音声を比
較する。ブロック１８の段階で、システムは、元の音声
と置換音声の間に近い音響的一致が存在するかどうかを
判定する。近い一致が存在する場合、方法は、経路１９
に分岐してブロック２０に進み、それにより言語モデル
が訂正で更新される。言語モデルは単語パターンに関す
る統計情報からなることを理解されたい。したがって、
言語モデルの訂正は、音響的訂正ではなく、統計的訂正
である。次に、経路１７は、ブロック２２の段階に進
み、評価のために利用可能な入力がまだあるかどうかを
検出する。近い一致が存在しない場合、方法は、経路２
１に分岐してブロック２２の段階に直接進み、評価のた
めに利用可能な他の入力があるかどうかを検出する。

【００１６】評価のために利用できる入力がまだある場
合、方法は、経路２３に戻り、ブロック１２の段階に進
む。そうでない場合、方法は、経路２５に分岐してブロ
ック２４に進み、それにより方法が終了する。

【００１７】判断ブロック１４での判定により、元の口
述テキストが口述により置換されていなかった場合、方
法は、経路１５に分岐して、ブロック２６に進み、図２
に関して説明する方法を使用する。次に、経路２７は、
前述のように判断ブロック２２に進む。

【００１８】本発明の別の構成による音声アプリケーシ
ョンにおいて言語モデルを自動的に更新する代替方法
を、図２のフローチャート３０に示す。開始ブロック３
１から始まって、話し手は、ブロック３２の段階に従っ
て音声アプリケーションによる音声認識セッションを開
始する。判断ブロック３４の段階で、システムは、ま
ず、元の口述テキストが新しいテキストで置換されたか
どうかを検出する。元の口述テキストが新しいテキスト
で置換されていない場合、方法は、経路３５に分岐して
ブロック５８の段階に進み、評価のために利用可能な入
力がまだあるかどうかを検出する。評価のために利用可
能な入力がまだある場合、方法は、経路５９に分岐しブ
ロック３２の段階に進む。そうでない場合、方法は、経
路６１に分岐してブロック６０の段階に進み、それによ
り方法が終了する。

【００１９】ブロック３４の段階で、元の口述テキスト
が新しいテキストで置換されている場合、方法は、経路
３３に分岐してブロック３６の段階に進み、元のテキス
トのテキストおよび音声を保存し、置換テキストを保存
し、可能な場合は置換音声を保存する。次の判断ブロッ
ク３８の段階で、置換テキストの発音が使用可能かどう
かを調べる。可能な場合、方法は、経路３９に分岐して
ブロック４０の段階に進み、それにより、元の音声が、
置換テキストのベースフォームと比較される。置換テキ
ストのベースフォームが使用可能でない場合は、置換テ
キストが語彙外であることを意味し、方法は、経路４７
に分岐してブロック５０の段階に進み、それにより、置
換テキストのベースフォームが生成される。ベースフォ
ームは、テキスト音声エンジンを使用することにより、
または音声認識エンジンのユーザ・トレーニングにより
生成することができる。次に、方法は、前述のようにブ
ロック４０の段階に進む。

【００２０】ブロック４０の比較段階の後、判断ブロッ
ク４２の段階により、元の音声と置換テキストのベース
フォームの間に近い音響的一致があるかどうか判定す
る。近い一致がある場合、方法は、経路４１に分岐して
ブロック４４の段階に進み、それにより、言語モデルが
訂正で更新される。次の経路４５から、前述のようにブ
ロック５８の段階に進む。近い一致が存在しない場合、
方法は、前述のように、経路４３に分岐してブロック５
８の段階に直接進む。

【００２１】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００２２】（１）訂正セッション中に音声アプリケー
ションにおける言語モデルを更新する方法であって、元
の口述テキストの音声と置換テキストの音声を互いに音
響的に比較する比較段階と、前記比較の結果が、前記置
換テキストの音声が編集以外の誤認識エラーの訂正を表
すことを示すのに十分なほど近い場合に、前記言語モデ
ルを訂正で更新し、それにより前記言語モデルをユーザ
の対話なしに更新できるようにする更新段階とを含む方
法。（２）前記比較段階の前に、前記元の口述テキストの新
しいテキストによる置換を検出する段階と、前記比較段
階で使用するために前記元の口述テキストの音声と前記
新しいテキストの音声を保存する段階とをさらに含む上
記（１）に記載の方法。（３）前記更新段階が、新しい単語を前記音声アプリケ
ーションの語彙に加える段階を含む上記（１）に記載の
方法。（４）前記比較段階が、前記新しいテキストのいずれか
の単語が語彙外かどうかを判定する段階と、前記単語が
語彙外でない場合に、前記比較段階に前記語彙中の既存
のベースフォームを利用する段階とを含む上記（１）に
記載の方法。（５）前記比較段階が、前記新しいテキストのいずれか
の単語が語彙外かどうかを判定する段階と、前記単語が
語彙外の場合に、前記単語のベースフォームが前記語彙
外で記憶されているかどうかを判定する段階と、前記単
語の前記ベースフォームが、前記語彙外で記憶されてい
る場合に、前記比較段階に前記語彙外のベースフォーム
を利用する段階とを含む上記（１）に記載の方法。（６）前記更新段階が、前記単語を前記語彙に加える段
階を含む上記（５）に記載の方法。（７）前記比較段階が、前記新しいテキストのいずれか
の単語が語彙外かどうかを判定する段階と、前記いずれ
かの単語が語彙外の場合に、前記いずれかの単語のベー
スフォームが前記語彙外で記憶されているかどうかを判
定する段階と、前記いずれかの単語の前記ベースフォー
ムが前記語彙外で記憶されていない場合に、前記いずれ
かの単語の新しいベースフォームの生成を延期する段階
とを含む上記（１）に記載の方法。（８）前記比較段階が、前記新しいテキストのいずれか
の単語が語彙外かどうかを判定する段階と、前記いずれ
かの単語が語彙外の場合に、前記いずれかの単語のベー
スフォームが前記語彙外で記憶されているかどうかを判
定する段階と、前記いずれかの単語の前記ベースフォー
ムが前記語彙外で記憶されていない場合に、前記いずれ
かの単語の新しいベースフォームを生成する段階と、前
記比較段階に前記新しいベースフォームを利用する段階
とを含む上記（１）に記載の方法。（９）前記更新段階が、前記いずれかの単語を前記語彙
に追加する段階を含む、上記（８）に記載の方法。（１０）前記比較段階が、前記新しいテキストのいずれ
かの単語が語彙外かどうかを判定する段階と、前記いず
れかの単語が語彙外の場合に、前記いずれかの単語のベ
ースフォームが前記語彙外で記憶されているかどうかを
判定する段階と、前記いずれかの単語の前記ベースフォ
ームが前記語彙外で記憶されている場合に、前記比較段
階に前記語彙外のベースフォームを利用する段階と、前
記いずれかの単語の前記ベースフォームが前記語彙外で
記憶されていない場合に、前記いずれかの単語の新しい
ベースフォームの生成を延期する段階とを含む上記
（１）に記載の方法。（１１）前記比較段階が、前記新しいテキストのいずれ
かの単語が語彙外かどうかを判定する段階と、前記いず
れかの単語が語彙に含まれない場合に、前記いずれかの
単語のベースフォームが前記語彙外で記憶されているか
どうかを判定する段階と、前記いずれかの単語の前記ベ
ースフォームが前記語彙外で記憶されている場合に、前
記比較段階に前記語彙外のベースフォームを利用する段
階と、前記いずれかの単語の前記ベースフォームが前記
語彙外で記憶されていない場合に、前記いずれかの単語
の新しいベースフォームを生成する段階と、前記比較段
階に前記新しいベースフォームを利用する段階とを含む
上記（１）に記載の方法。（１２）前記更新段階が、前記いずれかの単語を前記語
彙に加える段階を含む上記（１１）に記載の方法。（１３）前記比較段階が、元の口述単語のベースフォー
ムと前記元の口述単語の置換のベースフォームをそれぞ
れ比較する段階を含む上記（１）に記載の方法。

【図面の簡単な説明】

【図１】置換テキストが音声を有するときの本発明の構
成の一態様によるプログラム制御の流れを示すフローチ
ャートである。

【図２】置換テキストが口述またはタイプ入力によって
得られるときの本発明の装置のもう１つの態様によるプ
ログラム制御の流れを示すフローチャートである。

【符号の説明】

１０フローチャート１１開始ブロック１２ブロック１３経路１４判断ブロック１５経路１６ブロック１７経路１８ブロック１９経路２０ブロック２１経路２２判断ブロック２３経路２４ブロック２５経路２６ブロック２７経路

フロントページの続き (72)発明者ジェームズ・アール・ルイスアメリカ合衆国33445 フロリダ州デルリー・ビーチマジェスティック・パルム・ウェイ 4000 (72)発明者マリア・イー・スミスアメリカ合衆国33324 フロリダ州プランテーションノースウェスト・セブンス・サークル 9632 アパートメントナンバー17−27

Claims

【特許請求の範囲】

【請求項１】訂正セッション中に音声アプリケーション
における言語モデルを更新する方法であって、元の口述テキストの音声と置換テキストの音声を互いに
音響的に比較する比較段階と、前記比較の結果が、前記置換テキストの音声が編集以外
の誤認識エラーの訂正を表すことを示すのに十分なほど
近い場合に、前記言語モデルを訂正で更新し、それによ
り前記言語モデルをユーザの対話なしに更新できるよう
にする更新段階とを含む方法。
【請求項２】前記比較段階の前に、前記元の口述テキストの新しいテキストによる置換を検
出する段階と、前記比較段階で使用するために前記元の口述テキストの
音声と前記新しいテキストの音声を保存する段階とをさ
らに含む請求項１に記載の方法。
【請求項３】前記更新段階が、新しい単語を前記音声ア
プリケーションの語彙に加える段階を含む請求項１に記
載の方法。
【請求項４】前記比較段階が、前記新しいテキストのいずれかの単語が語彙外かどうか
を判定する段階と、前記単語が語彙外でない場合に、前記比較段階に前記語
彙中の既存のベースフォームを利用する段階とを含む請
求項１に記載の方法。
【請求項５】前記比較段階が、前記新しいテキストのいずれかの単語が語彙外かどうか
を判定する段階と、前記単語が語彙外の場合に、前記単語のベースフォーム
が前記語彙外で記憶されているかどうかを判定する段階
と、前記単語の前記ベースフォームが、前記語彙外で記憶さ
れている場合に、前記比較段階に前記語彙外のベースフ
ォームを利用する段階とを含む請求項１に記載の方法。
【請求項６】前記更新段階が、前記単語を前記語彙に加
える段階を含む請求項５に記載の方法。
【請求項７】前記比較段階が、前記新しいテキストのいずれかの単語が語彙外かどうか
を判定する段階と、前記いずれかの単語が語彙外の場合に、前記いずれかの
単語のベースフォームが前記語彙外で記憶されているか
どうかを判定する段階と、前記いずれかの単語の前記ベースフォームが前記語彙外
で記憶されていない場合に、前記いずれかの単語の新し
いベースフォームの生成を延期する段階とを含む請求項
１に記載の方法。
【請求項８】前記比較段階が、前記新しいテキストのいずれかの単語が語彙外かどうか
を判定する段階と、前記いずれかの単語が語彙外の場合に、前記いずれかの
単語のベースフォームが前記語彙外で記憶されているか
どうかを判定する段階と、前記いずれかの単語の前記ベースフォームが前記語彙外
で記憶されていない場合に、前記いずれかの単語の新し
いベースフォームを生成する段階と、前記比較段階に前記新しいベースフォームを利用する段
階とを含む請求項１に記載の方法。
【請求項９】前記更新段階が、前記いずれかの単語を前
記語彙に追加する段階を含む、請求項８に記載の方法。
【請求項１０】前記比較段階が、前記新しいテキストのいずれかの単語が語彙外かどうか
を判定する段階と、前記いずれかの単語が語彙外の場合に、前記いずれかの
単語のベースフォームが前記語彙外で記憶されているか
どうかを判定する段階と、前記いずれかの単語の前記ベースフォームが前記語彙外
で記憶されている場合に、前記比較段階に前記語彙外の
ベースフォームを利用する段階と、前記いずれかの単語の前記ベースフォームが前記語彙外
で記憶されていない場合に、前記いずれかの単語の新し
いベースフォームの生成を延期する段階とを含む請求項
１に記載の方法。
【請求項１１】前記比較段階が、前記新しいテキストのいずれかの単語が語彙外かどうか
を判定する段階と、前記いずれかの単語が語彙に含まれない場合に、前記い
ずれかの単語のベースフォームが前記語彙外で記憶され
ているかどうかを判定する段階と、前記いずれかの単語の前記ベースフォームが前記語彙外
で記憶されている場合に、前記比較段階に前記語彙外の
ベースフォームを利用する段階と、前記いずれかの単語の前記ベースフォームが前記語彙外
で記憶されていない場合に、前記いずれかの単語の新し
いベースフォームを生成する段階と、前記比較段階に前記新しいベースフォームを利用する段
階とを含む請求項１に記載の方法。
【請求項１２】前記更新段階が、前記いずれかの単語を
前記語彙に加える段階を含む請求項１１に記載の方法。
【請求項１３】前記比較段階が、元の口述単語のベース
フォームと前記元の口述単語の置換のベースフォームを
それぞれ比較する段階を含む請求項１に記載の方法。