JPH075893A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH075893A JPH075893A JP14452393A JP14452393A JPH075893A JP H075893 A JPH075893 A JP H075893A JP 14452393 A JP14452393 A JP 14452393A JP 14452393 A JP14452393 A JP 14452393A JP H075893 A JPH075893 A JP H075893A
- Authority
- JP
- Japan
- Prior art keywords
- word
- voice
- pattern
- unnecessary
- spotting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【目的】 音声の認識率を向上させる。
【構成】 不要語区間T2乃至T3のうち、区間T5乃至
T6において、スコアS3を与える不要語「えーと」がス
ポッティングされた結果が得られた場合、パーサ2は、
不要語がスポッティングされなかった区間(残区間)T
2乃至T5,T6乃至T3に対し、不要語区間T2乃至T3に
おける不要語パターンのスポッティング処理により得ら
れたスコアのうち、最も低いスコアの不要語パターンの
スコアS4を割り当てる。
T6において、スコアS3を与える不要語「えーと」がス
ポッティングされた結果が得られた場合、パーサ2は、
不要語がスポッティングされなかった区間(残区間)T
2乃至T5,T6乃至T3に対し、不要語区間T2乃至T3に
おける不要語パターンのスポッティング処理により得ら
れたスコアのうち、最も低いスコアの不要語パターンの
スコアS4を割り当てる。
Description
【0001】
【産業上の利用分野】本発明は、音声を認識する場合に
用いて好適な音声認識装置に関する。
用いて好適な音声認識装置に関する。
【0002】
【従来の技術】従来の、いわゆるワードラティスを主体
とした連続音声認識装置においては、例えば入力された
音声をワードスポッティングし、その結果得られた単語
候補列を、あらかじめ用意された構文情報を用いて、文
単位で構文解析するようになされている。
とした連続音声認識装置においては、例えば入力された
音声をワードスポッティングし、その結果得られた単語
候補列を、あらかじめ用意された構文情報を用いて、文
単位で構文解析するようになされている。
【0003】そして、その構文解析結果に基づいて、単
語候補列から、誤った単語候補を除き、正しい文(文
章)が得られるようになされている。
語候補列から、誤った単語候補を除き、正しい文(文
章)が得られるようになされている。
【0004】
【発明が解決しようとする課題】ところで、話し言葉に
おいては、非文法的な文が使われる場合が多く(正しい
文法で発話される場合が少なく)、さらに不要語(例え
ば、文節間などで、間をとるために発声される「えー」
や「あのー」など)が頻繁に使われるため、構文解析が
困難になり、音声の認識率が劣化する課題があった。
おいては、非文法的な文が使われる場合が多く(正しい
文法で発話される場合が少なく)、さらに不要語(例え
ば、文節間などで、間をとるために発声される「えー」
や「あのー」など)が頻繁に使われるため、構文解析が
困難になり、音声の認識率が劣化する課題があった。
【0005】そこで、非文法的な文や不要語が挿入され
た文などをすべて構文情報に登録しておく方法がある。
た文などをすべて構文情報に登録しておく方法がある。
【0006】しかしながら、この方法では、構文情報が
莫大な量になるので、構文解析に時間がかかり、実現す
るのは困難であった。
莫大な量になるので、構文解析に時間がかかり、実現す
るのは困難であった。
【0007】そこで、発話者の発話パターンを制限する
方法があるが、この場合、発話者の発話の自由度が小さ
くなり、発話者にわずらわしさを感じさせる課題があっ
た。
方法があるが、この場合、発話者の発話の自由度が小さ
くなり、発話者にわずらわしさを感じさせる課題があっ
た。
【0008】本発明は、このような状況に鑑みてなされ
たものであり、発話の自由度を制限することなく、音声
の認識率を向上させるものである。
たものであり、発話の自由度を制限することなく、音声
の認識率を向上させるものである。
【0009】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、標準パターンを記憶している標準パターン記
憶手段としての標準パターン記憶部8と、不要語のパタ
ーンを記憶している不要語パターン記憶手段としての不
要語パターン記憶部9と、入力された音声から、標準パ
ターン記憶部8に記憶されている標準パターンまたは不
要語パターン記憶部9に記憶されている不要語のパター
ンをワードスポッティングし、その区間とスコアを出力
するワードスポッティング手段としての音声認識部1
と、音声の発話内容の仮説をたて、その意味表現を生成
する生成手段としての対話管理部3と、対話管理部3に
より生成された仮説の意味表現に基づいて、音声認識部
1のワードスポッティング結果を解析する解析手段とし
てのパーサ2とを備え、パーサ2が、音声の音声区間の
うち、標準パターンまたは不要語のパターンがワードス
ポッティングされなかった残区間に対し、不要語のパタ
ーンによるワードスポッティングの結果得られたスコア
を割り当て、音声認識部1のワードスポッティング結果
を解析することを特徴とする。
識装置は、標準パターンを記憶している標準パターン記
憶手段としての標準パターン記憶部8と、不要語のパタ
ーンを記憶している不要語パターン記憶手段としての不
要語パターン記憶部9と、入力された音声から、標準パ
ターン記憶部8に記憶されている標準パターンまたは不
要語パターン記憶部9に記憶されている不要語のパター
ンをワードスポッティングし、その区間とスコアを出力
するワードスポッティング手段としての音声認識部1
と、音声の発話内容の仮説をたて、その意味表現を生成
する生成手段としての対話管理部3と、対話管理部3に
より生成された仮説の意味表現に基づいて、音声認識部
1のワードスポッティング結果を解析する解析手段とし
てのパーサ2とを備え、パーサ2が、音声の音声区間の
うち、標準パターンまたは不要語のパターンがワードス
ポッティングされなかった残区間に対し、不要語のパタ
ーンによるワードスポッティングの結果得られたスコア
を割り当て、音声認識部1のワードスポッティング結果
を解析することを特徴とする。
【0010】請求項2に記載の音声認識装置は、パーサ
2が、残区間に対し、不要語のパターンによるワードス
ポッティングの結果得られたスコアのうちの最も低いス
コアを割り当て、音声認識部1のワードスポッティング
結果を解析することを特徴とする。
2が、残区間に対し、不要語のパターンによるワードス
ポッティングの結果得られたスコアのうちの最も低いス
コアを割り当て、音声認識部1のワードスポッティング
結果を解析することを特徴とする。
【0011】請求項3に記載の音声認識装置は、パーサ
2が、音声認識部1によって、音声から不要語のパター
ンがワードスポッティングされた場合には、その区間の
前記音声のパターンに基づいて、不要語のパターンを更
新することを特徴とする。
2が、音声認識部1によって、音声から不要語のパター
ンがワードスポッティングされた場合には、その区間の
前記音声のパターンに基づいて、不要語のパターンを更
新することを特徴とする。
【0012】
【作用】請求項1に記載の音声認識装置においては、パ
ーサ2が、入力された音声の音声区間のうち、標準パタ
ーンまたは不要語パターンがワードスポッティングされ
なかった残区間に対し、不要語のパターンによるワード
スポッティングの結果得られたスコアを割り当て、音声
認識部1のワードスポッティング結果を解析する。従っ
て、入力された音声の音声区間全体にわたってスコアが
与えられるので、認識率を向上させることができる。
ーサ2が、入力された音声の音声区間のうち、標準パタ
ーンまたは不要語パターンがワードスポッティングされ
なかった残区間に対し、不要語のパターンによるワード
スポッティングの結果得られたスコアを割り当て、音声
認識部1のワードスポッティング結果を解析する。従っ
て、入力された音声の音声区間全体にわたってスコアが
与えられるので、認識率を向上させることができる。
【0013】請求項2に記載の音声認識装置において
は、パーサ2が、残区間に対し、不要語のパターンによ
るワードスポッティングの結果得られたスコアのうちの
最も低いスコアを割り当て、音声認識部1のワードスポ
ッティング結果を解析する。入力された音声の音声区間
のうちの残区間に対し、いわば根拠のあるスコアが与え
られるので、音声区間全体におけるスコアに基づく音声
認識結果を得ることができ、認識率を向上させることが
できる。
は、パーサ2が、残区間に対し、不要語のパターンによ
るワードスポッティングの結果得られたスコアのうちの
最も低いスコアを割り当て、音声認識部1のワードスポ
ッティング結果を解析する。入力された音声の音声区間
のうちの残区間に対し、いわば根拠のあるスコアが与え
られるので、音声区間全体におけるスコアに基づく音声
認識結果を得ることができ、認識率を向上させることが
できる。
【0014】請求項3に記載の音声認識装置において
は、パーサ2が、音声認識部1によって、音声から不要
語のパターンがワードスポッティングされた場合には、
その区間の前記音声のパターンに基づいて、不要語のパ
ターンを更新する。従って、不要語のパターンが、話者
の音声に基づいて動的に更新されるので、その話者に対
する音声の認識率を向上させることができる。
は、パーサ2が、音声認識部1によって、音声から不要
語のパターンがワードスポッティングされた場合には、
その区間の前記音声のパターンに基づいて、不要語のパ
ターンを更新する。従って、不要語のパターンが、話者
の音声に基づいて動的に更新されるので、その話者に対
する音声の認識率を向上させることができる。
【0015】
【実施例】図1は、本発明の音声認識装置を適用したA
Vシステム制御装置の一実施例の構成を示すブロック図
である。このAVシステム制御装置は、音声によってA
V機器システム7を操作することができるように構成さ
れている。
Vシステム制御装置の一実施例の構成を示すブロック図
である。このAVシステム制御装置は、音声によってA
V機器システム7を操作することができるように構成さ
れている。
【0016】即ち、音声認識部1は、標準パターン記憶
部8に記憶されている標準パターンまたは不要語パター
ン記憶部9に記憶されている不要語パターンを参照し、
入力された音声に対し、パーサ2から依頼された単語の
スポッティング処理(ワードスポッティング処理)を施
す。そして、パーサ2から依頼された単語のスポッティ
ング結果、即ち入力された音声中から、パーサ2より依
頼された単語をスポッティングすることができなかった
ときには、単語が存在しないという情報を出力し、入力
された音声中から、パーサ2より依頼された単語をスポ
ッティングすることができた場合には、その単語名、ス
コア、並びにスポッティングすることができた単語の、
音声中の発声区間の始点および終点(以下、検出区間と
記載する)を、パーサ2に出力する。
部8に記憶されている標準パターンまたは不要語パター
ン記憶部9に記憶されている不要語パターンを参照し、
入力された音声に対し、パーサ2から依頼された単語の
スポッティング処理(ワードスポッティング処理)を施
す。そして、パーサ2から依頼された単語のスポッティ
ング結果、即ち入力された音声中から、パーサ2より依
頼された単語をスポッティングすることができなかった
ときには、単語が存在しないという情報を出力し、入力
された音声中から、パーサ2より依頼された単語をスポ
ッティングすることができた場合には、その単語名、ス
コア、並びにスポッティングすることができた単語の、
音声中の発声区間の始点および終点(以下、検出区間と
記載する)を、パーサ2に出力する。
【0017】ここで、スコアとは、スポッティングした
単語の尤度を意味し、その値が大きいほど、スポッティ
ングした単語が確からしいものとする。
単語の尤度を意味し、その値が大きいほど、スポッティ
ングした単語が確からしいものとする。
【0018】パーサ2は、対話管理部3から供給され
る、入力された音声の発話内容の仮説の意味表現に基づ
いて、音声認識部1のワードスポッティング結果を、例
えば文単位などの所定の発話単位で解析する。
る、入力された音声の発話内容の仮説の意味表現に基づ
いて、音声認識部1のワードスポッティング結果を、例
えば文単位などの所定の発話単位で解析する。
【0019】即ち、パーサ2は、対話管理部3より供給
される音声の発話内容の仮説の意味表現に基づき、所定
の単語(但し、標準パターン記憶部8に標準パターンが
記憶されている単語か、または不要語パターン記憶部9
に不要語パターンが記憶されている不要語)のスポッテ
ィング処理を、音声認識部1に依頼し、その結果音声認
識部1から返されるスポッティング結果を解析して、対
話管理部3からの仮説に対する信頼度を算出する。そし
て、その信頼度が最も高い仮説の意味表現を、音声認識
部1のワードスポッティング結果の解析結果、即ち入力
された音声の最終的な認識結果として、対話管理部3に
出力する。
される音声の発話内容の仮説の意味表現に基づき、所定
の単語(但し、標準パターン記憶部8に標準パターンが
記憶されている単語か、または不要語パターン記憶部9
に不要語パターンが記憶されている不要語)のスポッテ
ィング処理を、音声認識部1に依頼し、その結果音声認
識部1から返されるスポッティング結果を解析して、対
話管理部3からの仮説に対する信頼度を算出する。そし
て、その信頼度が最も高い仮説の意味表現を、音声認識
部1のワードスポッティング結果の解析結果、即ち入力
された音声の最終的な認識結果として、対話管理部3に
出力する。
【0020】また、パーサ2は、音声認識部1によって
入力音声から不要語パターンがスポッティングされる
と、後述するようにして、不要語パターン記憶部9に記
憶されている不要語のパターンを更新する。
入力音声から不要語パターンがスポッティングされる
と、後述するようにして、不要語パターン記憶部9に記
憶されている不要語のパターンを更新する。
【0021】対話管理部3は、ドメイン知識辞書4にあ
らかじめ記憶されている対話管理情報を参照し、対話の
流れを管理するとともに、パーサ2の出力(パーサ2よ
り出力される意味表現)に基づいて、AV機器システム
7を制御する。
らかじめ記憶されている対話管理情報を参照し、対話の
流れを管理するとともに、パーサ2の出力(パーサ2よ
り出力される意味表現)に基づいて、AV機器システム
7を制御する。
【0022】即ち、対話管理部3は、ドメイン知識辞書
4にあらかじめ記憶されている対話管理情報、またはパ
ーサ2より出力される意味表現に基づいて、音声認識部
1に入力される音声の発話内容の仮説をたて、その仮説
の意味表現を生成する。
4にあらかじめ記憶されている対話管理情報、またはパ
ーサ2より出力される意味表現に基づいて、音声認識部
1に入力される音声の発話内容の仮説をたて、その仮説
の意味表現を生成する。
【0023】さらに、対話管理部3は、ドメイン知識辞
書4にあらかじめ記憶された対話管理情報を参照し、パ
ーサ2より出力される意味表現に対する返事、即ち音声
認識部1に入力された音声の発話内容に対する返事の意
味表現を生成して自然言語生成部5に出力する。
書4にあらかじめ記憶された対話管理情報を参照し、パ
ーサ2より出力される意味表現に対する返事、即ち音声
認識部1に入力された音声の発話内容に対する返事の意
味表現を生成して自然言語生成部5に出力する。
【0024】また、対話管理部3は、パーサ2より出力
される意味表現に対応する動作をAV機器システム7に
行わせるコマンド(制御命令)をAV機器システム7に
出力する。
される意味表現に対応する動作をAV機器システム7に
行わせるコマンド(制御命令)をAV機器システム7に
出力する。
【0025】ドメイン知識辞書4には、対話を管理する
ための対話管理情報(例えば、問いかけに対する返事の
パターンや、現在の発話に続く、次の発話のパターンな
ど)があらかじめ記憶されている。
ための対話管理情報(例えば、問いかけに対する返事の
パターンや、現在の発話に続く、次の発話のパターンな
ど)があらかじめ記憶されている。
【0026】自然言語生成部5は、対話管理部3より出
力される意味表現に基づいて、テキストデータを生成
し、テキスト音声合成部6に出力する。テキスト音声合
成部6は、自然言語生成部5より出力されるテキストデ
ータに基づいて、合成音声を生成し、内蔵するスピーカ
(図示せず)から出力する。AV機器システム7は、少
なくとも1つのAV機器(例えばスイッチャやテレビジ
ョン受像機、MDP,VTRなど)から構成され、対話
管理部3より出力されるコマンドに対応して動作する。
力される意味表現に基づいて、テキストデータを生成
し、テキスト音声合成部6に出力する。テキスト音声合
成部6は、自然言語生成部5より出力されるテキストデ
ータに基づいて、合成音声を生成し、内蔵するスピーカ
(図示せず)から出力する。AV機器システム7は、少
なくとも1つのAV機器(例えばスイッチャやテレビジ
ョン受像機、MDP,VTRなど)から構成され、対話
管理部3より出力されるコマンドに対応して動作する。
【0027】標準パターン記憶部8は、AV機器システ
ム7を操作するのに必要な単語(例えば「CD」や「L
D」、「再生」、「停止」など)の標準パターンを記憶
している。不要語パターン記憶部9は、例えば図2に示
すような、ユーザが発声する不要語(例えば、「えー
と」や「あのー」、「そのー」、「えー」など)のパタ
ーン(不要語パターン)が記述された不要語テーブルを
記憶している。
ム7を操作するのに必要な単語(例えば「CD」や「L
D」、「再生」、「停止」など)の標準パターンを記憶
している。不要語パターン記憶部9は、例えば図2に示
すような、ユーザが発声する不要語(例えば、「えー
と」や「あのー」、「そのー」、「えー」など)のパタ
ーン(不要語パターン)が記述された不要語テーブルを
記憶している。
【0028】以上のように構成されるAVシステム制御
装置においては、まず対話管理部3において、入力され
た音声(入力音声)の発話内容の仮説がたてられ、その
仮説の意味表現が、パーサ2に出力される。パーサ2に
おいて、対話管理部3からの意味表現に基づき、まず標
準パターン記憶部8に記憶されている標準パターンに対
応する単語から構成される、入力音声の認識結果候補と
しての単語列が生成される。そして、この認識結果候補
を構成する各単語のスポッティング処理が、音声認識部
1に依頼される。
装置においては、まず対話管理部3において、入力され
た音声(入力音声)の発話内容の仮説がたてられ、その
仮説の意味表現が、パーサ2に出力される。パーサ2に
おいて、対話管理部3からの意味表現に基づき、まず標
準パターン記憶部8に記憶されている標準パターンに対
応する単語から構成される、入力音声の認識結果候補と
しての単語列が生成される。そして、この認識結果候補
を構成する各単語のスポッティング処理が、音声認識部
1に依頼される。
【0029】音声認識部1は、標準パターン記憶部8に
記憶されている標準パターンを参照し、入力された音声
に対し、パーサ2からスポッティング処理の依頼を受け
た単語のスポッティング処理を行い、その結果をパーサ
2に出力する。
記憶されている標準パターンを参照し、入力された音声
に対し、パーサ2からスポッティング処理の依頼を受け
た単語のスポッティング処理を行い、その結果をパーサ
2に出力する。
【0030】即ち、音声認識部1は、入力された音声の
パターン(入力パターン)の系列(区間)の中で、標準
パターン記憶部8に記憶されている、パーサ2からスポ
ッティング処理の依頼を受けた単語の標準パターンとの
スコアを、例えば最も高くする区間(検出区間)を検出
し、そのスコアが所定の閾値以上であると、検出区間お
よびスコアを、そのスコアを得た標準パターンの単語名
とともに、スポッティング結果としてパーサ2に出力す
る。
パターン(入力パターン)の系列(区間)の中で、標準
パターン記憶部8に記憶されている、パーサ2からスポ
ッティング処理の依頼を受けた単語の標準パターンとの
スコアを、例えば最も高くする区間(検出区間)を検出
し、そのスコアが所定の閾値以上であると、検出区間お
よびスコアを、そのスコアを得た標準パターンの単語名
とともに、スポッティング結果としてパーサ2に出力す
る。
【0031】これにより、例えば図3のワードラティス
に示すように、入力された音声の音声区間が、時間(区
間)T1乃至T4であり、このうち、区間T1乃至T2にお
いて、スコアS1を与える単語「CD」がスポッティン
グされるとともに、区間T3乃至T4において、スコアS
2を与える単語「再生」がスポッティングされた結果が
得られた場合、パーサ2は、標準パターン記憶部8に記
憶されている標準パターンがスポッティングされなかっ
た入力音声の音声区間(以下、不要語区間という)T2
乃至T3に対し、不要語パターン記憶部9に記憶されて
いる不要語パターンのスポッティング処理を行うよう
に、音声認識部1に依頼する。
に示すように、入力された音声の音声区間が、時間(区
間)T1乃至T4であり、このうち、区間T1乃至T2にお
いて、スコアS1を与える単語「CD」がスポッティン
グされるとともに、区間T3乃至T4において、スコアS
2を与える単語「再生」がスポッティングされた結果が
得られた場合、パーサ2は、標準パターン記憶部8に記
憶されている標準パターンがスポッティングされなかっ
た入力音声の音声区間(以下、不要語区間という)T2
乃至T3に対し、不要語パターン記憶部9に記憶されて
いる不要語パターンのスポッティング処理を行うよう
に、音声認識部1に依頼する。
【0032】すると、音声認識部1は、入力音声の不要
語区間T2乃至T3から、不要語パターン記憶部9に記憶
されている不要語パターンをスポッティングし、その結
果をパーサ2に出力する。
語区間T2乃至T3から、不要語パターン記憶部9に記憶
されている不要語パターンをスポッティングし、その結
果をパーサ2に出力する。
【0033】これにより、例えば図4のワードラティス
に示すように、不要語区間T2乃至T3のうち、区間T5
乃至T6において、スコアS3を与える不要語「えーと」
がスポッティングされた結果が得られた場合、パーサ2
は、不要語のスポッティングを行うことができなかった
区間(以下、残区間という)T2乃至T5,T6乃至T3に
対し、不要語区間T2乃至T3における不要語パターンの
スポッティング処理において得られたスコアのうち、例
えば最も低いスコアの不要語パターンのスコアS4を割
り当てる。
に示すように、不要語区間T2乃至T3のうち、区間T5
乃至T6において、スコアS3を与える不要語「えーと」
がスポッティングされた結果が得られた場合、パーサ2
は、不要語のスポッティングを行うことができなかった
区間(以下、残区間という)T2乃至T5,T6乃至T3に
対し、不要語区間T2乃至T3における不要語パターンの
スポッティング処理において得られたスコアのうち、例
えば最も低いスコアの不要語パターンのスコアS4を割
り当てる。
【0034】ここで、音声区間T1乃至T2のうちの、標
準パターンおよび不要語パターンのいずれもスポッティ
ングされなかった残区間は、無音声区間であると考える
と、この残区間には、装置を使用している環境における
環境雑音が存在する。環境雑音は、動的に変動するの
で、残区間に対し、スコアづけを行わなかったり、また
所定の値のスコアづけを行うことは、入力音声に含まれ
る環境雑音を無視することに等しく、音声の認識率を劣
化させる原因となる。
準パターンおよび不要語パターンのいずれもスポッティ
ングされなかった残区間は、無音声区間であると考える
と、この残区間には、装置を使用している環境における
環境雑音が存在する。環境雑音は、動的に変動するの
で、残区間に対し、スコアづけを行わなかったり、また
所定の値のスコアづけを行うことは、入力音声に含まれ
る環境雑音を無視することに等しく、音声の認識率を劣
化させる原因となる。
【0035】そこで、この装置では、上述のように、残
区間に対し、不要語区間における不要語パターンのスポ
ッティング処理において得られたスコアのうちの、最も
低いスコアの不要語パターンのスコアを割り当てるよう
になされている。不要語区間における不要語パターンの
スポッティング処理において得られるスコアは、環境雑
音を一つの要因として、動的に変動するので、このスコ
アを残区間に割り当てることにより、入力音声に含まれ
る環境雑音の影響を考慮したスコアづけが行われること
になり、音声の認識率を向上させることができる。
区間に対し、不要語区間における不要語パターンのスポ
ッティング処理において得られたスコアのうちの、最も
低いスコアの不要語パターンのスコアを割り当てるよう
になされている。不要語区間における不要語パターンの
スポッティング処理において得られるスコアは、環境雑
音を一つの要因として、動的に変動するので、このスコ
アを残区間に割り当てることにより、入力音声に含まれ
る環境雑音の影響を考慮したスコアづけが行われること
になり、音声の認識率を向上させることができる。
【0036】以上のようにして、残区間に対してスコア
づけが行われることにより、入力された音声の音声区間
T1乃至T4全体にわたって、スコアがつけられる。
づけが行われることにより、入力された音声の音声区間
T1乃至T4全体にわたって、スコアがつけられる。
【0037】なお、パーサ2は、音声認識部1によっ
て、標準パターン記憶部8に記憶されている標準パター
ンによるスポッティング処理が行われた後に残るすべて
の不要語区間に対し、上述したようにしてスコアをつけ
る。
て、標準パターン記憶部8に記憶されている標準パター
ンによるスポッティング処理が行われた後に残るすべて
の不要語区間に対し、上述したようにしてスコアをつけ
る。
【0038】そして、パーサ2は、音声認識部1からの
認識結果(ワードスポッティング結果)の信頼度を、入
力音声の音声区間におけるスコアの時間積分値を計算す
ることにより求める。
認識結果(ワードスポッティング結果)の信頼度を、入
力音声の音声区間におけるスコアの時間積分値を計算す
ることにより求める。
【0039】即ち、例えば図4に示すワードラティスが
得られた場合、パーサ2は、標準パターン記憶部8に記
憶されている標準パターンによるスポッティング処理に
よって得られた認識結果「CD、再生」の信頼度を、式 (信頼度)=S1×(T2−T1)+S2(T4−T3)+S
3(T6−T5)+S4×(T5−T2)+S4×(T3−
T6) にしたがって算出する。
得られた場合、パーサ2は、標準パターン記憶部8に記
憶されている標準パターンによるスポッティング処理に
よって得られた認識結果「CD、再生」の信頼度を、式 (信頼度)=S1×(T2−T1)+S2(T4−T3)+S
3(T6−T5)+S4×(T5−T2)+S4×(T3−
T6) にしたがって算出する。
【0040】なお、パーサ2では、標準パターン記憶部
8に記憶されている標準パターンに対応する単語から構
成される、入力音声の認識結果候補(単語列)が、複数
生成されるようになされており、各認識結果候補の信頼
度が、上述したようにして算出される。
8に記憶されている標準パターンに対応する単語から構
成される、入力音声の認識結果候補(単語列)が、複数
生成されるようになされており、各認識結果候補の信頼
度が、上述したようにして算出される。
【0041】パーサ2は、以上のようにして、複数の認
識結果候補の信頼度を算出すると、その信頼度が最も高
い、または上位複数個の認識結果候補の意味表現を、音
声認識部1のワードスポッティング結果の解析結果、即
ち入力された音声の最終的な認識結果として、対話管理
部3に出力する。
識結果候補の信頼度を算出すると、その信頼度が最も高
い、または上位複数個の認識結果候補の意味表現を、音
声認識部1のワードスポッティング結果の解析結果、即
ち入力された音声の最終的な認識結果として、対話管理
部3に出力する。
【0042】パーサ2から解析結果としての意味表現が
出力されると、対話管理部3において、ドメイン知識辞
書4に記憶されている対話管理情報が参照され、パーサ
2より出力された意味表現に対する返事、即ち音声認識
部1に入力された音声の発話内容に対する返事の意味表
現が生成され、自然言語生成部5に出力される。
出力されると、対話管理部3において、ドメイン知識辞
書4に記憶されている対話管理情報が参照され、パーサ
2より出力された意味表現に対する返事、即ち音声認識
部1に入力された音声の発話内容に対する返事の意味表
現が生成され、自然言語生成部5に出力される。
【0043】自然言語生成部5において、対話管理部3
より出力された意味表現に基づいて、テキストデータが
生成され、テキスト音声合成部6に出力される。テキス
ト音声合成部6において、自然言語生成部5より出力さ
れたテキストデータに基づいて、合成音声が生成され、
内蔵するスピーカから出力される。
より出力された意味表現に基づいて、テキストデータが
生成され、テキスト音声合成部6に出力される。テキス
ト音声合成部6において、自然言語生成部5より出力さ
れたテキストデータに基づいて、合成音声が生成され、
内蔵するスピーカから出力される。
【0044】同時に、対話管理部3において、パーサ2
より出力された意味表現に対応する動作をAV機器シス
テム7に行わせるコマンド(制御命令)がAV機器シス
テム7に出力される。
より出力された意味表現に対応する動作をAV機器シス
テム7に行わせるコマンド(制御命令)がAV機器シス
テム7に出力される。
【0045】AV機器システム7においては、対話管理
部3より出力されたコマンドに対応する動作が行われ
る。
部3より出力されたコマンドに対応する動作が行われ
る。
【0046】即ち、パーサ2から対話管理部3に、例え
ば「CD、再生」という意味表現が出力された場合、A
V機器システム7においては、CDの再生が開始され、
テキスト音声合成部6からは、「CD、再生」に対する
返事としての、例えば「CDの再生を開始しました」な
どの合成音が出力されることになる。
ば「CD、再生」という意味表現が出力された場合、A
V機器システム7においては、CDの再生が開始され、
テキスト音声合成部6からは、「CD、再生」に対する
返事としての、例えば「CDの再生を開始しました」な
どの合成音が出力されることになる。
【0047】なお、この後、対話管理部3においては、
ドメイン知識辞書4、およびパーサ2より出力された意
味表現(上述の場合においては、「CD、再生」)に基
づいて、次に発声される音声の発話内容の仮説がたてら
れる。
ドメイン知識辞書4、およびパーサ2より出力された意
味表現(上述の場合においては、「CD、再生」)に基
づいて、次に発声される音声の発話内容の仮説がたてら
れる。
【0048】即ち、この場合、対話管理部3では、「C
D、再生」の次にユーザから発声される音声の発話内容
の仮説が、例えば「CD停止」や「CD早送り」などの
ようにたてられる。
D、再生」の次にユーザから発声される音声の発話内容
の仮説が、例えば「CD停止」や「CD早送り」などの
ようにたてられる。
【0049】なお、パーサ2では、音声認識部1によっ
て、入力音声から不要語パターンがワードスポッティン
グされた場合には、その区間の入力音声のパターンに基
づいて、不要語パターン記憶部9に記憶されている不要
語パターンの更新が行われる。
て、入力音声から不要語パターンがワードスポッティン
グされた場合には、その区間の入力音声のパターンに基
づいて、不要語パターン記憶部9に記憶されている不要
語パターンの更新が行われる。
【0050】即ち、不要語パターン記憶部9に記憶され
ている不要語パターンが、例えば図5に示すパターン空
間において○印で示すような位置にある場合において、
ある入力音声から、例えば3つの不要語パターンがワー
ドスポッティングされ、その3つの区間における入力音
声のパターン(以下、新不要語パターンという)それぞ
れが、図中●印で示すような位置にあった場合、パーサ
2は、まず、不要語パターンおよび新不要語パターンの
すべてのパターンどうしのパターン間距離を算出する。
ている不要語パターンが、例えば図5に示すパターン空
間において○印で示すような位置にある場合において、
ある入力音声から、例えば3つの不要語パターンがワー
ドスポッティングされ、その3つの区間における入力音
声のパターン(以下、新不要語パターンという)それぞ
れが、図中●印で示すような位置にあった場合、パーサ
2は、まず、不要語パターンおよび新不要語パターンの
すべてのパターンどうしのパターン間距離を算出する。
【0051】そして、パーサ2は、算出したパターン間
距離の最も短いパターンどうしを、1つのパターンに統
合する。即ち、例えば図5に示す場合においては、不要
語パターンP1と新不要語パターンP2とのパターン間距
離が最も短いので、パーサ2は、不要語パターンP1お
よび新不要語パターンP2のうちの、例えばいままで不
要語パターン記憶部9に記憶されていたパターンとして
の不要語パターンP1を削除し、新不要語パターンP
2を、不要語パターン記憶部9に登録することによっ
て、不要語パターンP1および新不要語パターンP2を統
合する。
距離の最も短いパターンどうしを、1つのパターンに統
合する。即ち、例えば図5に示す場合においては、不要
語パターンP1と新不要語パターンP2とのパターン間距
離が最も短いので、パーサ2は、不要語パターンP1お
よび新不要語パターンP2のうちの、例えばいままで不
要語パターン記憶部9に記憶されていたパターンとして
の不要語パターンP1を削除し、新不要語パターンP
2を、不要語パターン記憶部9に登録することによっ
て、不要語パターンP1および新不要語パターンP2を統
合する。
【0052】パーサ2は、上述の処理を、入力音声から
不要語パターンがワードスポッティングされた回数だけ
繰り返し、不要語パターン記憶部9に記憶されている不
要語パターンを更新する。これにより、不要語パターン
記憶部9に記憶されている不要語パターンの数を変える
ことなく、不要語パターン記憶部9に記憶されている不
要語パターンの更新が行われることになる。
不要語パターンがワードスポッティングされた回数だけ
繰り返し、不要語パターン記憶部9に記憶されている不
要語パターンを更新する。これにより、不要語パターン
記憶部9に記憶されている不要語パターンの数を変える
ことなく、不要語パターン記憶部9に記憶されている不
要語パターンの更新が行われることになる。
【0053】以上のように、不要語パターンが、ユーザ
の音声に基づいて動的に更新されるので、そのユーザに
対する音声の認識率を向上させることができる。
の音声に基づいて動的に更新されるので、そのユーザに
対する音声の認識率を向上させることができる。
【0054】なお、不要語パターン記憶部9に記憶され
ている不要語パターンどうしのパターン間距離は、あら
かじめ計算しておくようにすることができる。
ている不要語パターンどうしのパターン間距離は、あら
かじめ計算しておくようにすることができる。
【0055】以上、本発明の音声認識装置を、AVシス
テム制御装置に適用した場合について説明したが、本発
明は、AVシステム制御装置の他、音声を認識するあら
ゆる装置に適用することができる。
テム制御装置に適用した場合について説明したが、本発
明は、AVシステム制御装置の他、音声を認識するあら
ゆる装置に適用することができる。
【0056】なお、本実施例では、音声認識部1におけ
るワードスポッティングの方法については言及しなかっ
たが、音声認識部1においては、例えば、例えばDPマ
ッチング法やHMM法、特開昭60−249198、特
開昭60−249199、または特開昭60−2523
96などに開示されている音声認識装置の音声認識アル
ゴリズムなど、あらゆる音声認識アルゴリズムに基づい
て、ワードスポッティング処理するようにすることがで
きる。
るワードスポッティングの方法については言及しなかっ
たが、音声認識部1においては、例えば、例えばDPマ
ッチング法やHMM法、特開昭60−249198、特
開昭60−249199、または特開昭60−2523
96などに開示されている音声認識装置の音声認識アル
ゴリズムなど、あらゆる音声認識アルゴリズムに基づい
て、ワードスポッティング処理するようにすることがで
きる。
【0057】また、本実施例では、上述のように、音声
区間におけるスコアの時間積分値を、認識結果候補のと
しての単語列の信頼度としたが、これに限らず、例えば
音声区間におけるスコアの時間積分値を音声区間で除算
した値を、信頼度とするようにすることができる。
区間におけるスコアの時間積分値を、認識結果候補のと
しての単語列の信頼度としたが、これに限らず、例えば
音声区間におけるスコアの時間積分値を音声区間で除算
した値を、信頼度とするようにすることができる。
【0058】さらに、本実施例においては、残区間に対
し、不要語区間における不要語パターンのスポッティン
グ処理において得られたスコアのうちの、最も低いスコ
アの不要語パターンのスコアを割り当てるようにした
が、これに限られるものではない。
し、不要語区間における不要語パターンのスポッティン
グ処理において得られたスコアのうちの、最も低いスコ
アの不要語パターンのスコアを割り当てるようにした
が、これに限られるものではない。
【0059】即ち、残区間に対し、不要語区間における
不要語パターンのスポッティング処理において得られた
スコアのうちの、例えば最も高いスコアの不要語パター
ンのスコアを割り当てるようにすることができる。
不要語パターンのスポッティング処理において得られた
スコアのうちの、例えば最も高いスコアの不要語パター
ンのスコアを割り当てるようにすることができる。
【0060】しかしながら、この場合、無音声区間と考
えられる残区間のスコアが高くなるので、そのスコア
が、音声区間の信頼度に、実際に発話がなされている区
間のスコアが与える影響と同程度か、あるいはより大き
な影響を与えるようになる。
えられる残区間のスコアが高くなるので、そのスコア
が、音声区間の信頼度に、実際に発話がなされている区
間のスコアが与える影響と同程度か、あるいはより大き
な影響を与えるようになる。
【0061】従って、これにより、音声区間を正しく評
価することができなくなるようになる場合があるので、
上述したように、残区間に対し、不要語区間における不
要語パターンのスポッティング処理において得られたス
コアのうちの、最も低いスコアの不要語パターンのスコ
アを割り当てるようにするのが好ましい。
価することができなくなるようになる場合があるので、
上述したように、残区間に対し、不要語区間における不
要語パターンのスポッティング処理において得られたス
コアのうちの、最も低いスコアの不要語パターンのスコ
アを割り当てるようにするのが好ましい。
【0062】また、本実施例では、図4において、区間
T1乃至T4を音声区間としたが、区間0乃至T4を音声
区間としても良い。この場合、区間0乃至T1に対して
は、上述した区間T2乃至T3に対して行われた処理と同
様の処理が行われる。
T1乃至T4を音声区間としたが、区間0乃至T4を音声
区間としても良い。この場合、区間0乃至T1に対して
は、上述した区間T2乃至T3に対して行われた処理と同
様の処理が行われる。
【0063】さらに、本実施例においては、音声区間の
終わりを、「再生」の発話が終了した時刻T4とした
が、これに限られるものではなく、例えば時刻T4を経
過した時刻を音声区間の終わりとすることができる。
終わりを、「再生」の発話が終了した時刻T4とした
が、これに限られるものではなく、例えば時刻T4を経
過した時刻を音声区間の終わりとすることができる。
【0064】
【発明の効果】請求項1に記載の音声認識装置によれ
ば、解析手段が、入力された音声の音声区間のうち、標
準パターンまたは不要語のパターンがワードスポッティ
ングされなかった残区間に対し、不要語のパターンによ
るワードスポッティングの結果得られたスコアを割り当
て、ワードスポッティング手段のワードスポッティング
結果を解析する。従って、残区間に対し、いわば根拠の
あるスコアが与えられるので、音声区間全体におけるス
コアに基づく音声認識結果を得ることができ、認識率を
向上させることができる。
ば、解析手段が、入力された音声の音声区間のうち、標
準パターンまたは不要語のパターンがワードスポッティ
ングされなかった残区間に対し、不要語のパターンによ
るワードスポッティングの結果得られたスコアを割り当
て、ワードスポッティング手段のワードスポッティング
結果を解析する。従って、残区間に対し、いわば根拠の
あるスコアが与えられるので、音声区間全体におけるス
コアに基づく音声認識結果を得ることができ、認識率を
向上させることができる。
【0065】請求項2に記載の音声認識装置によれば、
解析手段が、残区間に対し、不要語のパターンによるワ
ードスポッティングの結果得られたスコアのうちの最も
低いスコアを割り当て、ワードスポッティング手段のワ
ードスポッティング結果を解析する。従って、残区間に
対し、いわば根拠のあるスコアが与えられるので、音声
区間全体におけるスコアに基づく音声認識結果を得るこ
とができ、認識率を向上させることができる。
解析手段が、残区間に対し、不要語のパターンによるワ
ードスポッティングの結果得られたスコアのうちの最も
低いスコアを割り当て、ワードスポッティング手段のワ
ードスポッティング結果を解析する。従って、残区間に
対し、いわば根拠のあるスコアが与えられるので、音声
区間全体におけるスコアに基づく音声認識結果を得るこ
とができ、認識率を向上させることができる。
【0066】請求項3に記載の音声認識装置によれば、
解析手段が、ワードスポッティング手段によって、音声
から不要語のパターンがワードスポッティングされた場
合には、その区間の前記音声のパターンに基づいて、不
要語のパターンを更新する。従って、不要語のパターン
が、話者の音声に基づいて動的に更新されるので、その
話者に対する音声の認識率を向上させることができる。
解析手段が、ワードスポッティング手段によって、音声
から不要語のパターンがワードスポッティングされた場
合には、その区間の前記音声のパターンに基づいて、不
要語のパターンを更新する。従って、不要語のパターン
が、話者の音声に基づいて動的に更新されるので、その
話者に対する音声の認識率を向上させることができる。
【図1】本発明の音声認識装置を適用したAVシステム
制御装置の一実施例の構成を示すブロック図である。
制御装置の一実施例の構成を示すブロック図である。
【図2】図1の実施例における不要語パターン記憶部9
に記憶されている不要語テーブルを示す図である。
に記憶されている不要語テーブルを示す図である。
【図3】標準パターンによるワードスポッティング処理
により得られたワードラティスを示す図である。
により得られたワードラティスを示す図である。
【図4】音声区間全体にわたってスコアがつけられたワ
ードラティスを示す図である。
ードラティスを示す図である。
【図5】不要語パターン記憶部9に記憶されている不要
語パターンの更新の方法を説明する図である。
語パターンの更新の方法を説明する図である。
1 音声認識部 2 パーサ 3 対話管理部 4 ドメイン知識辞書 5 自然言語生成部 6 テキスト音声合成部 7 AV機器システム 8 標準パターン記憶部 9 不要語パターン記憶部
Claims (3)
- 【請求項1】 標準パターンを記憶している標準パター
ン記憶手段と、 不要語のパターンを記憶している不要語パターン記憶手
段と、 入力された音声から、前記標準パターン記憶手段に記憶
されている標準パターンまたは前記不要語パターン記憶
手段に記憶されている不要語のパターンをワードスポッ
ティングし、その区間とスコアを出力するワードスポッ
ティング手段と、 前記音声の発話内容の仮説をたて、その意味表現を生成
する生成手段と、 前記生成手段により生成された前記仮説の意味表現に基
づいて、前記ワードスポッティング手段のワードスポッ
ティング結果を解析する解析手段とを備え、 前記解析手段は、前記音声の音声区間のうち、前記標準
パターンまたは不要語のパターンがワードスポッティン
グされなかった残区間に対し、前記不要語のパターンに
よるワードスポッティングの結果得られたスコアを割り
当て、前記ワードスポッティング手段のワードスポッテ
ィング結果を解析することを特徴とする音声認識装置。 - 【請求項2】 前記解析手段は、前記残区間に対し、前
記不要語のパターンによるワードスポッティングの結果
得られたスコアのうちの最も低いスコアを割り当て、前
記ワードスポッティング手段のワードスポッティング結
果を解析することを特徴とする請求項1に記載の音声認
識装置。 - 【請求項3】 前記解析手段は、前記ワードスポッティ
ング手段によって、前記音声から前記不要語のパターン
がワードスポッティングされた場合には、その区間の前
記音声のパターンに基づいて、前記不要語のパターンを
更新することを特徴とする請求項1または2に記載の音
声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14452393A JPH075893A (ja) | 1993-06-16 | 1993-06-16 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14452393A JPH075893A (ja) | 1993-06-16 | 1993-06-16 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH075893A true JPH075893A (ja) | 1995-01-10 |
Family
ID=15364318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14452393A Withdrawn JPH075893A (ja) | 1993-06-16 | 1993-06-16 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH075893A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6353809B2 (en) | 1997-06-06 | 2002-03-05 | Olympus Optical, Ltd. | Speech recognition with text generation from portions of voice data preselected by manual-input commands |
JP2004325979A (ja) * | 2003-04-28 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
-
1993
- 1993-06-16 JP JP14452393A patent/JPH075893A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6353809B2 (en) | 1997-06-06 | 2002-03-05 | Olympus Optical, Ltd. | Speech recognition with text generation from portions of voice data preselected by manual-input commands |
JP2004325979A (ja) * | 2003-04-28 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
JP4497834B2 (ja) * | 2003-04-28 | 2010-07-07 | パイオニア株式会社 | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
EP0965978B9 (en) | Non-interactive enrollment in speech recognition | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
JP2002520664A (ja) | 言語に依存しない音声認識 | |
WO2006054724A1 (ja) | 音声認識装置及び方法ならびにプログラム | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
US6591236B2 (en) | Method and system for determining available and alternative speech commands | |
JP2015520410A (ja) | 音声認識に対する負例(アンチワード)に基づく性能改善 | |
JP2001188781A (ja) | 会話処理装置および方法、並びに記録媒体 | |
WO2004047075A1 (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
JP2000347681A (ja) | テキスト・ベースの音声合成を利用した音声制御システム用の再生方法 | |
JP2000029492A (ja) | 音声翻訳装置、音声翻訳方法、音声認識装置 | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
KR20040061070A (ko) | 음성인식시스템에서의 음성인식장치 및 그 방법 | |
JP3472101B2 (ja) | 音声入力解釈装置及び音声入力解釈方法 | |
JP2004029354A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
JPH075893A (ja) | 音声認識装置 | |
JPH08123470A (ja) | 音声認識装置 | |
JPH06202688A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20000905 |