JPH11202886A - 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 - Google Patents
音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体Info
- Publication number
- JPH11202886A JPH11202886A JP10004490A JP449098A JPH11202886A JP H11202886 A JPH11202886 A JP H11202886A JP 10004490 A JP10004490 A JP 10004490A JP 449098 A JP449098 A JP 449098A JP H11202886 A JPH11202886 A JP H11202886A
- Authority
- JP
- Japan
- Prior art keywords
- word
- dictionary
- recognition
- words
- change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 辞書の内容が変更(単語の追加等)可能な音
声認識装置において、辞書の内容の変更によるシステム
全体の認識性能が劣化を回避し、また、システム全体の
認識性能を向上させる辞書設定を支援する音声認識装置
を提供する。 【解決手段】 辞書の変更が行なわれたと仮定した状態
で、認識性能がどのように変化するかを、模擬的な認識
もしくは単語間の類似度判定によって自動的に推定す
る。また、現在保持している辞書に対して、単語の削
除、置換などの仮説を次々と生成し、その仮説のもとで
の認識性能の変化を推定することによって、認識性能の
向上をもたらしうるような変更を使用者に提案する。
声認識装置において、辞書の内容の変更によるシステム
全体の認識性能が劣化を回避し、また、システム全体の
認識性能を向上させる辞書設定を支援する音声認識装置
を提供する。 【解決手段】 辞書の変更が行なわれたと仮定した状態
で、認識性能がどのように変化するかを、模擬的な認識
もしくは単語間の類似度判定によって自動的に推定す
る。また、現在保持している辞書に対して、単語の削
除、置換などの仮説を次々と生成し、その仮説のもとで
の認識性能の変化を推定することによって、認識性能の
向上をもたらしうるような変更を使用者に提案する。
Description
【0001】
【発明の属する技術分野】本発明は、使用者が単語辞書
を設定し、その辞書をもとに、外部から入力された単語
に最も似た単語、又は拒絶等の結果を出力する装置に関
する。
を設定し、その辞書をもとに、外部から入力された単語
に最も似た単語、又は拒絶等の結果を出力する装置に関
する。
【0002】
【従来の技術】音声認識装置は、音素や音韻などの、そ
れ自身では意味を持たない認識単位を用いるものと、単
語や文節、熟語、文などの、それ自身で意味を持つ認識
単位を用いるものとにわけられる。後者においては、そ
の装置の用途に合わせて、認識対象となる単語等を羅列
した辞書が用いられる。
れ自身では意味を持たない認識単位を用いるものと、単
語や文節、熟語、文などの、それ自身で意味を持つ認識
単位を用いるものとにわけられる。後者においては、そ
の装置の用途に合わせて、認識対象となる単語等を羅列
した辞書が用いられる。
【0003】前者としては、特開昭63−15295号
公報に、各単語若しくは音節、音韻につき、複数個の標
準パターンを用いる音声認識装置において、当該標準パ
ターンテンプレートを更新する旨が開示されている。ま
た、後者としては、特開平2−304495号公報に、
認識対象単語セットの誤認識率を事前に推定し、最良の
単語セットを選び出す音声認識装置が開示されている。
公報に、各単語若しくは音節、音韻につき、複数個の標
準パターンを用いる音声認識装置において、当該標準パ
ターンテンプレートを更新する旨が開示されている。ま
た、後者としては、特開平2−304495号公報に、
認識対象単語セットの誤認識率を事前に推定し、最良の
単語セットを選び出す音声認識装置が開示されている。
【0004】
【発明が解決しようとする課題】従来の音声認識装置で
は、使用者が辞書の内容を変更(単語の追加等)した場
合、それに伴ってシステム全体の認識性能がどのように
変化するかを知ることはできない。そのため、既に登録
されている単語と混同しやすい単語を追加してしまうこ
とによって、システム全体の認識性能が劣化するなどの
問題が生じることがある。また、使用者にとってそれほ
ど重要でない単語の存在によって、重要な単語の認識性
能までもが劣化している場合があるが、どの単語を取り
除くことによってこのような劣化を回避できるのかを、
使用者は知ることができない。本発明の目的は、このよ
うな状況において、システム全体の認識性能を向上させ
る辞書設定を支援する装置を提供することである。
は、使用者が辞書の内容を変更(単語の追加等)した場
合、それに伴ってシステム全体の認識性能がどのように
変化するかを知ることはできない。そのため、既に登録
されている単語と混同しやすい単語を追加してしまうこ
とによって、システム全体の認識性能が劣化するなどの
問題が生じることがある。また、使用者にとってそれほ
ど重要でない単語の存在によって、重要な単語の認識性
能までもが劣化している場合があるが、どの単語を取り
除くことによってこのような劣化を回避できるのかを、
使用者は知ることができない。本発明の目的は、このよ
うな状況において、システム全体の認識性能を向上させ
る辞書設定を支援する装置を提供することである。
【0005】
【課題を解決するための手段】本発明においては、辞書
の内容を変更した状態での認識性能を推定し、想定され
る変更がシステムの性能劣化を伴わないかどうかを事前
に判定することによって、望ましくない辞書内容の変更
を回避し、必要に応じて代替案を示す。また、既に登録
されている内容を変更した場合に、システムの認識性能
がどのように変化するかを推定することによって、望ま
しい変更案を使用者に示す。
の内容を変更した状態での認識性能を推定し、想定され
る変更がシステムの性能劣化を伴わないかどうかを事前
に判定することによって、望ましくない辞書内容の変更
を回避し、必要に応じて代替案を示す。また、既に登録
されている内容を変更した場合に、システムの認識性能
がどのように変化するかを推定することによって、望ま
しい変更案を使用者に示す。
【0006】
【発明の実施の形態】以下、図を用いて本発明の実施例
を説明する。
を説明する。
【0007】図1は、本発明を用いた音声認識装置の一
実施例の構成を表わしている。ユーザは、ユーザ端末
(102)から、追加すべき単語や置換すべき単語な
ど、辞書の変更内容を入力する。ここでいう辞書は、
「あ」、「い」等の個々の音に対する特徴パラメータ等
を記述した辞書又は標準パターンテンプレートとはこと
なり、単語リストが登録された辞書を意味する。入力さ
れた内容は、認識性能判定部(104)に送られる。認
識性能判定部では、ユーザが入力した変更を実際に行な
った場合に、システム全体の認識性能がどのように変化
するかを推定する。次に、認識性能判定部の出力は、変
換候補生成部(106)に送られる。変換候補生成部で
は、認識性能判定部での推定結果が良い場合には、ユー
ザの指定した変更内容を候補単語としてそのまま出力す
る。推定結果が悪い場合には、ユーザの指定した変更内
容に類似した候補を生成し、認識性能判定部に送る。ま
た、ユーザが入力した単語を候補単語の一つに含めた形
で出力することもある。この候補に対する認識性能判定
部の推定結果が再び変換候補生成部に送られ、結果が良
い場合には、この候補が出力される。結果が悪い場合に
は、再び別の類似候補が生成され、以下、認識性能判定
部が良い結果を返すか、あらかじめ設定された終了基準
を満たすまで、上記の操作が繰り返される。変換候補生
成部の出力は、ユーザに対して示され、ユーザがそれを
承認した場合には、辞書更新部(108)に送られる。
複数の候補が示された場合には、ユーザがそのうちの一
つを選択することによって、選択結果が辞書高深部に送
られる。また、ユーザの承認を省略して、直接辞書更新
部に送られるような設定にすることも可能である。辞書
更新部では、送られてきた変更内容に基づき、単語辞書
(112)の内容を更新する。また、辞書変更仮説生成
部(110)では、単語辞書に含まれる任意の単語を取
り除いたり、別の単語に置き換えたりといった仮説を随
時生成し、認識性能判定部に送る。これらの仮説もユー
ザの指定した候補単語と同様に判定され、ユーザによる
承認を経て、辞書更新部に送られて辞書の更新をもたら
す。
実施例の構成を表わしている。ユーザは、ユーザ端末
(102)から、追加すべき単語や置換すべき単語な
ど、辞書の変更内容を入力する。ここでいう辞書は、
「あ」、「い」等の個々の音に対する特徴パラメータ等
を記述した辞書又は標準パターンテンプレートとはこと
なり、単語リストが登録された辞書を意味する。入力さ
れた内容は、認識性能判定部(104)に送られる。認
識性能判定部では、ユーザが入力した変更を実際に行な
った場合に、システム全体の認識性能がどのように変化
するかを推定する。次に、認識性能判定部の出力は、変
換候補生成部(106)に送られる。変換候補生成部で
は、認識性能判定部での推定結果が良い場合には、ユー
ザの指定した変更内容を候補単語としてそのまま出力す
る。推定結果が悪い場合には、ユーザの指定した変更内
容に類似した候補を生成し、認識性能判定部に送る。ま
た、ユーザが入力した単語を候補単語の一つに含めた形
で出力することもある。この候補に対する認識性能判定
部の推定結果が再び変換候補生成部に送られ、結果が良
い場合には、この候補が出力される。結果が悪い場合に
は、再び別の類似候補が生成され、以下、認識性能判定
部が良い結果を返すか、あらかじめ設定された終了基準
を満たすまで、上記の操作が繰り返される。変換候補生
成部の出力は、ユーザに対して示され、ユーザがそれを
承認した場合には、辞書更新部(108)に送られる。
複数の候補が示された場合には、ユーザがそのうちの一
つを選択することによって、選択結果が辞書高深部に送
られる。また、ユーザの承認を省略して、直接辞書更新
部に送られるような設定にすることも可能である。辞書
更新部では、送られてきた変更内容に基づき、単語辞書
(112)の内容を更新する。また、辞書変更仮説生成
部(110)では、単語辞書に含まれる任意の単語を取
り除いたり、別の単語に置き換えたりといった仮説を随
時生成し、認識性能判定部に送る。これらの仮説もユー
ザの指定した候補単語と同様に判定され、ユーザによる
承認を経て、辞書更新部に送られて辞書の更新をもたら
す。
【0008】図2は、本発明による装置の画面出力の一
例を表わしている。この例は、単語の追加登録の場合の
画面である。ユーザが、登録単語入力部(202)に、
追加したい単語を入力すると、その単語を追加登録した
場合の予想認識率および間違えやすい単語が、認識性能
表示部(204)に表示される。間違えやすい単語に
は、重要度が括弧内に示されている。重要度の表示は必
須ではないが、あとで述べる置換単語の選択においてこ
の表示が役立つ場合がある。また、どの単語を類似単語
として表示するかについても、重要度の低い単語を優先
して表示させるようにすることもできる。さらに、ユー
ザが指定した単語の代わりになりそうな単語のリスト
と、各単語を追加した場合の予想認識率が、候補単語表
示部(206)に表示される。この例では、「音声」と
いう単語を入力しようとしており、変換候補生成部は、
「音声」に似た意味を持つ単語を候補単語として出力し
ている。候補単語の選び方はシステムによって様々な方
法が可能であり、普通の国語辞典に類するものを持って
おいて、意味が似通った単語を選択することもできる
し、人名の認識システムにおいては、姓の代わりに名や
姓名、あだ名、所属部署名などを候補とすることもでき
る。また、地名の認識システムにおいては、近隣の地名
を候補としたり、「東京」に対して、「東京都」「東京
駅」「東京都庁」など、何らかの語を付加したものを候
補とすることなども可能である。その後、ユーザが、候
補単語表示部の中のどれか一つを、マウスでクリックす
ることなどにより選択すると、今度は選択された単語が
追加単語入力部に表示される。以下、同じような操作を
繰り返し、ユーザが最終的に追加登録しようと決めた単
語が追加単語入力部に表示されている状態で、登録実行
ボタン(208)をクリックすると、追加単語入力部に
表示されている単語が追加登録される。
例を表わしている。この例は、単語の追加登録の場合の
画面である。ユーザが、登録単語入力部(202)に、
追加したい単語を入力すると、その単語を追加登録した
場合の予想認識率および間違えやすい単語が、認識性能
表示部(204)に表示される。間違えやすい単語に
は、重要度が括弧内に示されている。重要度の表示は必
須ではないが、あとで述べる置換単語の選択においてこ
の表示が役立つ場合がある。また、どの単語を類似単語
として表示するかについても、重要度の低い単語を優先
して表示させるようにすることもできる。さらに、ユー
ザが指定した単語の代わりになりそうな単語のリスト
と、各単語を追加した場合の予想認識率が、候補単語表
示部(206)に表示される。この例では、「音声」と
いう単語を入力しようとしており、変換候補生成部は、
「音声」に似た意味を持つ単語を候補単語として出力し
ている。候補単語の選び方はシステムによって様々な方
法が可能であり、普通の国語辞典に類するものを持って
おいて、意味が似通った単語を選択することもできる
し、人名の認識システムにおいては、姓の代わりに名や
姓名、あだ名、所属部署名などを候補とすることもでき
る。また、地名の認識システムにおいては、近隣の地名
を候補としたり、「東京」に対して、「東京都」「東京
駅」「東京都庁」など、何らかの語を付加したものを候
補とすることなども可能である。その後、ユーザが、候
補単語表示部の中のどれか一つを、マウスでクリックす
ることなどにより選択すると、今度は選択された単語が
追加単語入力部に表示される。以下、同じような操作を
繰り返し、ユーザが最終的に追加登録しようと決めた単
語が追加単語入力部に表示されている状態で、登録実行
ボタン(208)をクリックすると、追加単語入力部に
表示されている単語が追加登録される。
【0009】また、図2において、例えば「音声」とい
う単語はぜひとも追加登録したいが、それと間違えそう
な「温泉」の方を変更しても良い、という場合には、
「温泉」という単語をクリックすることによって、図3
の画面に移る。ここでは、「温泉」という単語の予想認
識率、類似単語、置換の候補単語などが表示される。
「音声」という単語の追加登録が確定していない場合、
登録単語表示部(302)にこれを表示しておくと便利
であるが、追加登録を確定させた後にこの画面を呼び出
す場合などには、登録単語表示部は表示されなくても構
わない。この画面で、候補単語表示部(308)の中の
どれか一つを選択し、置換実行ボタン(310)をクリ
ックすると、「温泉」という単語が辞書から取り除か
れ、代わりに選択された候補単語が辞書に追加登録され
る。
う単語はぜひとも追加登録したいが、それと間違えそう
な「温泉」の方を変更しても良い、という場合には、
「温泉」という単語をクリックすることによって、図3
の画面に移る。ここでは、「温泉」という単語の予想認
識率、類似単語、置換の候補単語などが表示される。
「音声」という単語の追加登録が確定していない場合、
登録単語表示部(302)にこれを表示しておくと便利
であるが、追加登録を確定させた後にこの画面を呼び出
す場合などには、登録単語表示部は表示されなくても構
わない。この画面で、候補単語表示部(308)の中の
どれか一つを選択し、置換実行ボタン(310)をクリ
ックすると、「温泉」という単語が辞書から取り除か
れ、代わりに選択された候補単語が辞書に追加登録され
る。
【0010】図4は、本発明による装置の画面出力のも
う一つの例を表わしている。この例では、辞書に含まれ
る単語に対して、重要度を設定する。この設定は、単語
の追加登録時に行なっても良いし、既に登録されている
単語に対して任意の時に行なっても良い。まず、設定対
象単語入力部(402)に、設定したい対象となる単語
を入力する。入力する代わりに、他の画面上での選択の
結果が表示されても良い。次にユーザは、重要度設定対
象設定部(404)で、設定の対象となる誤りの対象を
選択する。ただし、選択できるのは一つとは限らず、任
意の個数を一度に設定できる。ここで、辞書設定とは、
辞書内の他の単語と比較しての相対的な重要度を差し、
図2の認識性能表示部などで主に用いられる。置換誤
り、挿入誤り、脱落誤りとは、それぞれの名前の通りの
誤りが生じないようにすることの重要度を表わす。次
に、誤り許容度設定バー(406)で、誤り許容度を設
定する。ここで、誤り許容度とは、設定する重要度の一
つの例で、どの程度の誤りまでであればユーザが許容で
きるかを表わしている。誤り許容度0は、誤りをまった
く許容できない状態を、誤り許容度100は、間違って
も全く気にしない状態をそれぞれ表わしている。これら
の設定をした後、ユーザは設定実行ボタン(408)に
よって設定を実行する。
う一つの例を表わしている。この例では、辞書に含まれ
る単語に対して、重要度を設定する。この設定は、単語
の追加登録時に行なっても良いし、既に登録されている
単語に対して任意の時に行なっても良い。まず、設定対
象単語入力部(402)に、設定したい対象となる単語
を入力する。入力する代わりに、他の画面上での選択の
結果が表示されても良い。次にユーザは、重要度設定対
象設定部(404)で、設定の対象となる誤りの対象を
選択する。ただし、選択できるのは一つとは限らず、任
意の個数を一度に設定できる。ここで、辞書設定とは、
辞書内の他の単語と比較しての相対的な重要度を差し、
図2の認識性能表示部などで主に用いられる。置換誤
り、挿入誤り、脱落誤りとは、それぞれの名前の通りの
誤りが生じないようにすることの重要度を表わす。次
に、誤り許容度設定バー(406)で、誤り許容度を設
定する。ここで、誤り許容度とは、設定する重要度の一
つの例で、どの程度の誤りまでであればユーザが許容で
きるかを表わしている。誤り許容度0は、誤りをまった
く許容できない状態を、誤り許容度100は、間違って
も全く気にしない状態をそれぞれ表わしている。これら
の設定をした後、ユーザは設定実行ボタン(408)に
よって設定を実行する。
【0011】次に、設定した重要度を認識に応用する際
の動作を説明する。実時間音声認識システムでは、音声
信号を一定時間ごとにフレーム分割し、それぞれのフレ
ームが入力されるごとに認識処理を進める。多くの手法
では、認識処理がすすむごとに、様々な仮説が生成され
ていく。例えば、隠れマルコフモデルでは、ある時点で
「単語Aの第N状態にいる」というのが仮説であり、認
識開始時には、すべての単語の第1状態にいるという仮
説が存在する。その後、それぞれの単語の第2状態、第
3状態などに対応する仮説が生成されてくる。しかし、
これらの仮説すべてについて計算をすすめるには非常に
多くの計算量を必要とすることから、これらの仮説を確
率で順位付けし、上位の仮説だけを残してあとの仮説を
破棄するという手法がとられることがある。この手法を
ビームサーチ法と呼ぶ。ビームサーチ法の詳細を図5に
示す。ここでは、各単語の各状態を確率の潤に並べ、上
位6位までを残すことにしている。このとき、ビーム幅
は6であると言う。本発明では、この順位付けに、あら
かじめ設定した各単語の重要度を反映させることができ
る。すなわち、誤り許容度0の単語は常に先頭順位に持
ってくるとか、誤り許容度の低い単語は一定順位だけ繰
り上げるなどの方法によって、誤り許容度の低い単語の
入力に対して誤認識してしまう可能性を低くすることが
できる。また、登録されている単語全体における誤り許
容度の合計や平均値をもとにビーム幅を適応的に変化さ
せることにより、ある程度認識時間がかかっても正しい
認識を必要とする場合と、ある程度の誤認識はやむを得
ないとしても短時間で認識することが必須な場合とを使
いわけることができる。その他に、こうして得られる確
率値に適当な値を付加することによって、その単語が認
識結果として選ばれる可能性が高くなり、脱落誤りを減
らすことができる。逆に、適当な値を差し引くことによ
って、挿入誤りを減らすこともできる。
の動作を説明する。実時間音声認識システムでは、音声
信号を一定時間ごとにフレーム分割し、それぞれのフレ
ームが入力されるごとに認識処理を進める。多くの手法
では、認識処理がすすむごとに、様々な仮説が生成され
ていく。例えば、隠れマルコフモデルでは、ある時点で
「単語Aの第N状態にいる」というのが仮説であり、認
識開始時には、すべての単語の第1状態にいるという仮
説が存在する。その後、それぞれの単語の第2状態、第
3状態などに対応する仮説が生成されてくる。しかし、
これらの仮説すべてについて計算をすすめるには非常に
多くの計算量を必要とすることから、これらの仮説を確
率で順位付けし、上位の仮説だけを残してあとの仮説を
破棄するという手法がとられることがある。この手法を
ビームサーチ法と呼ぶ。ビームサーチ法の詳細を図5に
示す。ここでは、各単語の各状態を確率の潤に並べ、上
位6位までを残すことにしている。このとき、ビーム幅
は6であると言う。本発明では、この順位付けに、あら
かじめ設定した各単語の重要度を反映させることができ
る。すなわち、誤り許容度0の単語は常に先頭順位に持
ってくるとか、誤り許容度の低い単語は一定順位だけ繰
り上げるなどの方法によって、誤り許容度の低い単語の
入力に対して誤認識してしまう可能性を低くすることが
できる。また、登録されている単語全体における誤り許
容度の合計や平均値をもとにビーム幅を適応的に変化さ
せることにより、ある程度認識時間がかかっても正しい
認識を必要とする場合と、ある程度の誤認識はやむを得
ないとしても短時間で認識することが必須な場合とを使
いわけることができる。その他に、こうして得られる確
率値に適当な値を付加することによって、その単語が認
識結果として選ばれる可能性が高くなり、脱落誤りを減
らすことができる。逆に、適当な値を差し引くことによ
って、挿入誤りを減らすこともできる。
【0012】次に、認識性能判定部の動作について、音
声認識で最も良く使われている隠れマルコフモデルとい
う手法を例に説明する。隠れマルコフモデルでは、各々
の単語は複数の状態の連鎖として表わされる。図6にそ
の様子を示す。この例では、単語が、S0からS5の6つの
状態(602)で表わされている。各状態には、自分自
身への遷移(604)と次状態への遷移(606)が許
されている。また、各状態は、その状態からどのような
特徴量がどの程度の確率で観測されるかという、出力確
率分布を持っている。実際には、入力された音声波形か
ら、複数の特徴量を抽出することが多いので、出力確率
分布もそれに対応して複数存在する。また、これらの複
数の特徴量をまとめて特徴ベクトルとして扱うことが多
い。そこで、それらの出力確率分布のピーク値を集めた
ものなど、典型的な特徴ベクトルを取り出すことによっ
て、ある単語に対する典型的な特徴ベクトルの列(60
8)を生成することができる。このような特徴ベクトル
の列は、候補単語だけではなく、既に辞書に登録されて
いる各単語に対しても生成することができるので、これ
らを比較することにより、各単語間の類似性、まぎらわ
しさを判定することができる。また、こうして生成され
た特徴ベクトルの列を使って実際の認識を模擬してみる
ことによっても、候補単語を追加登録した場合の認識率
を推定することができる。なお、既に登録されている単
語に対する特徴ベクトルの列としては、上記の方法で生
成したものを用いる代わりに、認識装置を使用している
ときに入力された音声波形から抽出した特徴ベクトルの
列を保持しておいて用いることもできる。
声認識で最も良く使われている隠れマルコフモデルとい
う手法を例に説明する。隠れマルコフモデルでは、各々
の単語は複数の状態の連鎖として表わされる。図6にそ
の様子を示す。この例では、単語が、S0からS5の6つの
状態(602)で表わされている。各状態には、自分自
身への遷移(604)と次状態への遷移(606)が許
されている。また、各状態は、その状態からどのような
特徴量がどの程度の確率で観測されるかという、出力確
率分布を持っている。実際には、入力された音声波形か
ら、複数の特徴量を抽出することが多いので、出力確率
分布もそれに対応して複数存在する。また、これらの複
数の特徴量をまとめて特徴ベクトルとして扱うことが多
い。そこで、それらの出力確率分布のピーク値を集めた
ものなど、典型的な特徴ベクトルを取り出すことによっ
て、ある単語に対する典型的な特徴ベクトルの列(60
8)を生成することができる。このような特徴ベクトル
の列は、候補単語だけではなく、既に辞書に登録されて
いる各単語に対しても生成することができるので、これ
らを比較することにより、各単語間の類似性、まぎらわ
しさを判定することができる。また、こうして生成され
た特徴ベクトルの列を使って実際の認識を模擬してみる
ことによっても、候補単語を追加登録した場合の認識率
を推定することができる。なお、既に登録されている単
語に対する特徴ベクトルの列としては、上記の方法で生
成したものを用いる代わりに、認識装置を使用している
ときに入力された音声波形から抽出した特徴ベクトルの
列を保持しておいて用いることもできる。
【0013】尚、本発明は、本実施例に限られるもので
はなく、例えば、複数の単語が登録されている辞書をも
とに、手書き入力された単語を認識する装置等にも応用
することができる。
はなく、例えば、複数の単語が登録されている辞書をも
とに、手書き入力された単語を認識する装置等にも応用
することができる。
【0014】
【発明の効果】辞書の変更を行なった場合、認識性能が
どのように変わるかを事前に予測することは難しい。ま
た、認識性能を落とさずに所望の内容に近い変更を加え
るにはどのようにすれば良いかを知ることも難しい。更
に、変更を行なった内容だけでなく、それまで登録され
ていた内容に対する性能までもが変化してしまうおそれ
もある。本発明では、辞書の変更が行なわれたと仮定し
た状態で、認識性能がどのように変化するかを、模擬的
な認識もしくは単語間の類似度判定によって推定するの
で、辞書の変更を行なった場合、認識性能がどのように
変わるかを事前に予測することが可能であり、また、認
識性能を落とさずに所望の内容に近い変更を加えるには
どのようにすれば良いかを知ることもできる。更に、変
更を行なった内容だけでなく、それまで登録されていた
内容に対する性能までもが変化してしまうことを回避す
ることが可能となる。
どのように変わるかを事前に予測することは難しい。ま
た、認識性能を落とさずに所望の内容に近い変更を加え
るにはどのようにすれば良いかを知ることも難しい。更
に、変更を行なった内容だけでなく、それまで登録され
ていた内容に対する性能までもが変化してしまうおそれ
もある。本発明では、辞書の変更が行なわれたと仮定し
た状態で、認識性能がどのように変化するかを、模擬的
な認識もしくは単語間の類似度判定によって推定するの
で、辞書の変更を行なった場合、認識性能がどのように
変わるかを事前に予測することが可能であり、また、認
識性能を落とさずに所望の内容に近い変更を加えるには
どのようにすれば良いかを知ることもできる。更に、変
更を行なった内容だけでなく、それまで登録されていた
内容に対する性能までもが変化してしまうことを回避す
ることが可能となる。
【0015】また、現在保持している辞書に対して、単
語の削除、置換などの仮説を次々と生成し、その仮説の
もとでの認識性能の変化を推定することによって、認識
性能の向上をもたらしうるような変更を使用者に提案す
ることが可能となる。
語の削除、置換などの仮説を次々と生成し、その仮説の
もとでの認識性能の変化を推定することによって、認識
性能の向上をもたらしうるような変更を使用者に提案す
ることが可能となる。
【図1】本発明の装置の構成図。
【図2】本発明による装置の画面出力の例1。
【図3】本発明による装置の画面出力の例2。
【図4】本発明による装置の画面出力の例3。
【図5】ビームサーチ法の説明図。
【図6】隠れマルコフモデルの説明図。
フロントページの続き (72)発明者 脇坂 新路 東京都小平市上水本町五丁目20番1号 株 式会社日立製作所半導体事業部内 (72)発明者 塔下 哲司 東京都小平市上水本町五丁目20番1号 株 式会社日立製作所半導体事業部内 (72)発明者 畑岡 信夫 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 天野 明雄 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 小高 俊之 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 小窪 浩明 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内
Claims (32)
- 【請求項1】複数の単語が登録された辞書をもとに、音
声を認識する音声認識装置装置において、 上記辞書の内容の変更を入力する入力手段と、 上記辞書の内容の変更が入力された場合に、上記変更が
された場合の上記辞書に基づく認識性能の判定を行う手
段を有することを特徴とする音声認識装置。 - 【請求項2】上記辞書の内容の変更は単語の追加である
ことを特徴とする請求項1に記載の音声認識装置。 - 【請求項3】上記判定の結果に基づき、上記辞書の内容
を変更する手段を有することを特徴とする請求項1又は
請求項2の何れかに記載の音声認識装置。 - 【請求項4】上記辞書の内容の変更の承認を入力する手
段を有し、 該承認が入力された場合に、上記辞書の内容を変更する
ことを特徴とする請求項3に記載の音声認識装置。 - 【請求項5】複数の単語が登録された辞書をもとに、音
声を認識する音声認識装置において、 上記辞書に含まれる単語を抽出する手段と、 上記単語の認識性能の判定する手段とを有することを特
徴とする音声認識装置。 - 【請求項6】上記判定の結果に基づき、上記辞書の内容
を変更する手段を有することを特徴とする請求項5記載
の音声認識装置。 - 【請求項7】複数の単語の組み合わせを一つの単語とし
て上記辞書に登録する手段を有することを特徴とする請
求項1乃至請求項6の何れかに記載の音声認識装置。 - 【請求項8】上記辞書に単語を追加する変更をしようと
する場合には、上記判定は、該追加登録しようとする単
語と、既に登録されている単語との類似度をもって行な
うことを特徴とする請求項1乃至請求項7の何れかに記
載の音声認識装置。 - 【請求項9】上記判定は、上記変更がされた場合の辞書
に基づき、上記音声認識装置内に予め保持された音声デ
ータ、又は上記音声認識装置内で生成された音声データ
の認識を模擬することによって行なうことを特徴とする
請求項1乃至請求項8の何れかに記載の音声認識装置。 - 【請求項10】単語に対する認識性能を判定する場合
に、当該単語と意味的に類似する単語を見つけて出力す
る手段を有することを特徴とする請求項1乃至請求項9
の何れかに記載の音声認識装置。 - 【請求項11】上記出力された単語は認識率の高い単語
であることを特徴とする請求項10に記載の音声認識装
置。 - 【請求項12】単語間の意味的類似度を表わす辞書を有
し、該単語間の意味的類似度を表わす辞書を参照して上
記単語と意味的に類似する単語を見つけて出力すること
を特徴とする請求項10又は請求項11の何れかに記載
の音声認識装置。 - 【請求項13】上記出力された単語を上記辞書に登録す
る手段を有することを特徴とする請求項10乃至請求項
12の何れかに記載の音声認識装置。 - 【請求項14】単語に対する認識性能を判定する場合に
おいて、当該単語と誤認識しやすい単語を辞書中から抽
出し、表示する手段と、 上記誤認識しやすい単語を変更対象とする手段とを有す
ることを特徴とする請求項1乃至請求項8の何れかに記
載の音声認識装置。 - 【請求項15】上記辞書の各単語に対しあらかじめ重要
度を設定する手段と、 上記単語と誤認識しやすい単語を辞書中から抽出する場
合に、上記各単語の重要度を参照して上記抽出する単語
を決定する手段とを有することを特徴とする請求項14
に記載の音声認識装置。 - 【請求項16】特定のタスクに対する各単語の置き換え
可能性を表わす辞書と、 単語に対する認識性能を判定する場合に、上記特定のタ
スクに対する各単語の置き換え可能性を表わす辞書に基
づき上記認識性能の判定対象となっている単語の代替単
語を出力する手段とを有することを特徴とする請求項1
乃至請求項8の何れかに記載の音声認識装置。 - 【請求項17】あらかじめ用意された辞書をもとに、入
力音声を認識する装置において、 使用者が辞書に含まれる単語の重要度の設定を行なうこ
とを可能にする手段と、 使用者によって設定された重要度の度合に応じた近似計
算を行なうことによって、重要度の高い単語ほど間違え
にくく、なおかつ短い計算時間で認識を実行することを
可能にする手段とを有することを特徴とする音声認識装
置。 - 【請求項18】計算途中で生じる仮説のうち、重要度の
高い単語に対しては、尤度の低い仮説まで含めて計算を
続行し、重要度の低い単語に対しては、尤度の低い仮説
を取り除いて計算を実行することによって近似計算を行
なうことを特徴とする、請求項17に記載の音声認識装
置。 - 【請求項19】単語の重要度の設定は、置換誤りに対す
る許容度、挿入誤りに対する許容度、脱落誤りに対する
許容度のうちの一つもしくは二つ以上の組み合わせに対
し、個別に設定することを可能にする手段を特徴とす
る、請求項17記載の音声認識装置。 - 【請求項20】挿入誤りもしくは脱落誤りに対する重要
度の設定に応じて、認識時の各単語の照合スコアに適当
な値を加減し、挿入もしくは脱落を起こりにくくするこ
とを可能にする手段を特徴とする、請求項19記載の音
声認識装置。 - 【請求項21】複数の単語が登録された辞書に基づき、
外部から入力された単語を認識する装置において、 上記辞書の内容の変更を入力する入力手段と、 上記辞書の内容の変更が入力された場合に、上記変更が
された場合の上記辞書に基づく認識性能の判定を行う手
段を有することを特徴とする単語認識装置。 - 【請求項22】上記辞書の内容の変更は単語の追加であ
ることを特徴とする請求項21に記載の単語認識装置。 - 【請求項23】上記判定の結果に基づき、上記辞書の内
容を変更する手段を有することを特徴とする請求項21
又は請求項22の何れかに記載の単語認識装置。 - 【請求項24】上記辞書の内容の変更の承認を入力する
手段を有し、 該承認が入力された場合に、上記辞書の内容を変更する
ことを特徴とする請求項23に記載の単語認識装置。 - 【請求項25】複数の単語が登録された辞書に基づき、
外部から入力された単語を認識する方法において、 上記辞書の内容の変更が入力された場合に、上記変更が
された場合の上記辞書に基づく認識性能の判定を行い、 上記判定の結果に基づき、上記辞書の内容を変更するこ
とを特徴とする単語認識方法。 - 【請求項26】上記辞書の内容の変更は単語の追加であ
ることを特徴とする請求項25に記載の単語認識方法。 - 【請求項27】上記辞書の内容の変更の承認が入力され
た場合に、上記辞書の内容を変更することを特徴とする
請求項25又は請求項26の何れかに記載の単語認識装
置。 - 【請求項28】上記単語は音声により入力されることを
特徴とする請求項25乃至請求項27の何れかに記載の
単語認識方法。 - 【請求項29】複数の単語が登録された辞書に基づき、
外部から入力された単語を認識するプログラムを記録し
た記録媒体であって、 上記辞書の内容の変更が入力された場合に、上記変更が
された場合の上記辞書に基づく認識性能の判定を行い、 上記判定の結果に基づき、上記辞書の内容を変更するこ
とを特徴とする単語認識プログラムを記録した記憶媒
体。 - 【請求項30】上記辞書の内容の変更は単語の追加であ
ることを特徴とする請求項29に記載の単語認識プログ
ラムを記録した記憶媒体。 - 【請求項31】上記辞書の内容の変更の承認が入力され
た場合に、上記辞書の内容を変更することを特徴とする
請求項30又は請求項31の何れかに記載の単語認識プ
ログラムを記録した記憶媒体。 - 【請求項32】上記単語は音声により入力されることを
特徴とする請求項29乃至請求項31の何れかに記載の
単語認識プログラムを記録した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10004490A JPH11202886A (ja) | 1998-01-13 | 1998-01-13 | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10004490A JPH11202886A (ja) | 1998-01-13 | 1998-01-13 | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11202886A true JPH11202886A (ja) | 1999-07-30 |
Family
ID=11585542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10004490A Pending JPH11202886A (ja) | 1998-01-13 | 1998-01-13 | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11202886A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007047412A (ja) * | 2005-08-09 | 2007-02-22 | Toshiba Corp | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 |
JP2010055289A (ja) * | 2008-08-27 | 2010-03-11 | Fujitsu Ltd | 確認支援装置、確認支援方法、およびコンピュータプログラム |
JP5094120B2 (ja) * | 2005-05-27 | 2012-12-12 | パナソニック株式会社 | 音声認識装置及び音声認識方法 |
JP2016177045A (ja) * | 2015-03-19 | 2016-10-06 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
JP2018040906A (ja) * | 2016-09-06 | 2018-03-15 | 株式会社東芝 | 辞書更新装置およびプログラム |
-
1998
- 1998-01-13 JP JP10004490A patent/JPH11202886A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5094120B2 (ja) * | 2005-05-27 | 2012-12-12 | パナソニック株式会社 | 音声認識装置及び音声認識方法 |
US8438027B2 (en) | 2005-05-27 | 2013-05-07 | Panasonic Corporation | Updating standard patterns of words in a voice recognition dictionary |
JP2007047412A (ja) * | 2005-08-09 | 2007-02-22 | Toshiba Corp | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 |
JP2010055289A (ja) * | 2008-08-27 | 2010-03-11 | Fujitsu Ltd | 確認支援装置、確認支援方法、およびコンピュータプログラム |
JP2016177045A (ja) * | 2015-03-19 | 2016-10-06 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
JP2018040906A (ja) * | 2016-09-06 | 2018-03-15 | 株式会社東芝 | 辞書更新装置およびプログラム |
US10496745B2 (en) | 2016-09-06 | 2019-12-03 | Kabushiki Kaisha Toshiba | Dictionary updating apparatus, dictionary updating method and computer program product |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ran et al. | Artificial intelligence speech recognition model for correcting spoken English teaching | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
JP5141687B2 (ja) | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 | |
CN111145733B (zh) | 语音识别方法、装置、计算机设备和计算机可读存储介质 | |
JP2006526160A (ja) | 語彙強調予測 | |
JP2006146008A (ja) | 音声認識装置及び方法ならびにプログラム | |
KR101587866B1 (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
JP3092491B2 (ja) | 記述長最小基準を用いたパターン適応化方式 | |
JP2007041319A (ja) | 音声認識装置および音声認識方法 | |
CN109979257B (zh) | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 | |
CN110930993A (zh) | 特定领域语言模型生成方法及语音数据标注系统 | |
CN112951211B (zh) | 一种语音唤醒方法及装置 | |
US6859774B2 (en) | Error corrective mechanisms for consensus decoding of speech | |
CN111402865A (zh) | 语音识别训练数据的生成方法、语音识别模型的训练方法 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
JP2005084436A (ja) | 音声認識装置及びコンピュータプログラム | |
JP5099367B2 (ja) | 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム | |
JPH11202886A (ja) | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 | |
JP4878220B2 (ja) | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 | |
JP4220151B2 (ja) | 音声対話装置 | |
CN111128181B (zh) | 背诵题评测方法、装置以及设备 | |
JP2004534275A (ja) | 音声認識における高速検索 | |
Filisko et al. | Learning decision models in spoken dialogue systems via user simulation |